JAVA与正则表达式(2年级之1)

1/5/2008来源:Java教程人气:5839


  java与正则表达式(2年级之1)

在一年级时,我们比较轻松的了解了Java & regex (是正则表达式的缩写,与Java的包无关)的一些基本用法。一年级的主要任务是:

① 搞了几个可运行的程序。后面要学习的东西,我们可以用相似的程序处理。

② 我们找到了与regex相关的Java类——Pattern和Matcher、String、StringBuffer和StringTokenizer后面我们着重学习它们。
(另外,暂时不想去搞的几个咚咚——PatternSyntaxException、java.util.Scanner)。)。

③ 我们了解了regex的大致特点,一种生成字符串的字符串。不管它将会如何复杂,也不过是一个非凡的字符串,而已。



到了二年级,我们预备系统的学习,因而感到凝重起来。yqj2065发现了一个超好的工具——Regulator,它是一个高级的、free regex的测试和学习工具,它让你……到这里http://regex.osherove.com/自己看,我去下载了,呵呵。

安装……问题?它需要一个什么.Net Framework!!!一个小小的工具要那个大大的Framework干嘛,偏偏前几天我重装了系统,晕。心中又对M$反感起来。【提供了其C#源代码。】



我又发现了一个超好的工具——EditPad PRo,它是一个高级的、free regex的测试和学习工具,它让你……到这里Download EditPad Pro Demo for Windows 95/98/ME/NT4/2000/XP (1.8 MB)自己看,我去下载了,呵呵。

问题是,它的 regex flavor is almost identical to the one used in Perl 5。这使我有点不放心,因为Java在其Pattern文档中比较了与Perl 5的异同。

本来想系统学学Java& regex,可心中打着小鼓,不由自主地脸黑黑了。【yqj2065提示:我想学习的与你想学习的可能不同。跳过你不喜欢的部分。】



全部2年级的主题: 正则表达式语法

§1正则表达式:天使 魔鬼
通过一年级学习,我发现,两条腿走路很不爽,一下抬起Java,一下提起regex,我想一条腿走路。我蹦我蹦我蹦蹦,像三级跳远一样,专注于regex的学习。我们不要JVM,可能轻松了许多。

regular expression翻译成正则表达式,一看就是很有学问的样子。假如我说正则表达式起始于Java,没有人相信;假如有人说正则表达式起始于UNIX系统,我们也不要相信。

1956 年, 数学家Stephen Kleene在Warren McCulloch and Walter Pitts早期神经系统工作的基础上,搞成了一个数学符号体系——regular sets,规则的集合。这个咚咚很快被计算机科学家用于编译器的扫描或词法分析( lexical analysis)中。因此,正则表达式起始于自动机理论和形式语言理论(我们会在形式语言与自动机理论课程中接触正则表达式,属于理论计算机科学),我们在编译原理课程中,也可能会接触到正则表达式。【ref:《编译原理及实践》】



正则表达式强大的文本处理能力,很快被Kenneth Thompson应用到Unix的工具软件grep中;此后,正则表达式被广泛应用于Unix系操作系统,Perl、php,Delphi、javascript、C#(.NET),Java、Python、Ruby等语言和开发环境,以及很多的应用软件非凡是文本编辑器中。值得一提的是,Perl regular expressions形成了一种大致的标准,人们经常使用pcre (Perl Compatible Regular Expressions),如同IBM兼容机。【http://en.wikipedia.org/wiki】yqj2065



为什么Java直到JDK1.4才提供对regex的支持呢?这让很多人不满。在JDK1.4出现之前,有一些第三方库出现,现在可能不需要它了。例如:

l Package com.stevesoft.pat【http://www.javaregex.com/patfull.Html】,这里有一些有趣的东西还可以看看。比如ReGame, the regular expression game。

l 源代码开放的正则表达式库:Jakarta-ORO正则表达式库,它是最全面的正则表达式API之一,而且它与Perl 5正则表达式完全兼容。

直到现在,很多人还在学习和使用StringTokenizer,一方面是教材落后(滞后),一方面是很多人认为正则表达式麻烦,假如我们把它视为洪水猛兽,我们永远搞不懂它。其实,学习正则表达式的唯一困难,仅仅是它不直观。