正则表达式语法

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

1^# dgkgnrt 发表于 2006-05-17 21:43

正则表达式语法

[size=+2][center]以下贴子收集而来，乱而无序，加上本人刚刚开始学习，还不能去伪存真，归纳整理，但可以对比参照学习。

正则表达式语法

正则表达式的语法规则和标记
实例分析
正则表达式与glob比较
入门简介
使用实例
正则表达式系统教程

［转贴］正则表达式语法
[/center]

[size=+1]一个正则表达式就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

这里有一些可能会遇到的正则表达式示例：

Visual Basic VBScript 匹配
Scripting Edition

/^\[ \t]*$/ "^\[ \t]*$" 匹配一个空白行。

/\d{2}-\d{5}/ "\d{2}-\d{5}" 验证一个ID号码是否由一个2位字，一
个连字符以及一个5位数字组成。

/<(.*)>.*<\/\1>/ "<(.*)>.*<\/\1>" 匹配一个 HTML 标记。

下表是元字符及其在正则表达式上下文中的行为的一个完整列表：

字符描述

\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个后
向引用、或一个八进制转义符。例如，’n’ 匹配字符 "n"。’\n’
匹配一个换行符。序列 ’\\’ 匹配 "\" 而 "\(" 则匹配 "("。

^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的
Multiline 属性，^ 也匹配 ’\n’ 或 ’\r’ 之后的位置。

$ 匹配输入字符串的结束位置。如果设置了 RegExp 对象的
Multiline 属性，$ 也匹配 ’\n’ 或 ’\r’ 之前的位置。

* 匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及
"zoo"。 * 等价于{0,}。

+ 匹配前面的子表达式一次或多次。例如，’zo+’ 能匹配 "zo" 以
及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

? 匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配
"do" 或 "does" 中的"do" 。? 等价于 {0,1}。

{n} n 是一个非负整数。匹配确定的 n 次。例如，’o{2}’ 不能匹配
"Bob" 中的 ’o’，但是能匹配 "food" 中的两个 o。

{n,} n 是一个非负整数。至少匹配n 次。例如，’o{2,}’ 不能匹配
"Bob" 中的 ’o’，但能匹配 "foooood" 中的所有 o。’o{1,}’
等价于 ’o+’。’o{0,}’ 则等价于 ’o*’。

{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹
配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个o。
’o{0,1}’等价于’o?’。请注意在逗号和两个数之间不能有空格

? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,},
{n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的
匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜
索的字符串。例如，对于字符串 "oooo"，’o+?’ 将匹配单个
"o"，而 ’o+’ 将匹配所有 ’o’。

. 匹配除 "\n" 之外的任何单个字符。要匹配包括 ’\n’ 在内的任
何字符，请使用象 ’[.\n]’ 的模式。

(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的
Matches 集合得到，在VBScript 中使用 SubMatches 集合，在
Visual Basic Scripting Edition 中则使用 $0…$9 属性。要
匹配圆括号字符，请使用 ’$’ 或 ’$’。

(?:pattern) 匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹
配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合
一个模式的各个部分是很有用。例如， ’industr(?:y|ies) 就
是一个比 ’industry|industries’ 更简略的表达式。

(?=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符
串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后
使用。例如，’Windows (?=95|98|NT|2000)’ 能匹配"Windows
2000"中的"Windows"，但不能匹配"Windows3 .1"中"Windows"。
预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹
配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之
后开始。

(?!pattern) 负向预查，在任何不匹配Negative lookahead matches the
search string at any point where a string not matching
pattern 的字符串开始处匹配查找字符串。这是一个非获取匹
配，也就是说，该匹配不需要获取供以后使用。例如’Windows
(?!95|98|NT|2000)’ 能匹配 "Windows 3.1" 中的 "Windows"，
但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字
符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开
始下一次匹配的搜索，而不是从包含预查的字符之后开始

x|y 匹配 x 或 y。例如，’z|food’ 能匹配 "z" 或 "food"。’(z|f)
ood’ 则匹配 "zood" 或 "food"。

[xyz] 字符集合。匹配所包含的任意一个字符。例如， ’[abc]’ 可以
匹配 "plain" 中的 ’a’。

[^xyz] 负值字符集合。匹配未包含的任意字符。例如， ’[^abc]’ 可以
匹配 "plain" 中的’p’。

[a-z] 字符范围。匹配指定范围内的任意字符。例如，’[a-z]’ 可以匹
配 ’a’ 到 ’z’ 范围内的任意小写字母字符。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，
’[^a-z]’ 可以匹配任何不在 ’a’ 到 ’z’ 范围内的任意字符。

\b 匹配一个单词边界，也就是指单词和空格间的位置。例如，
’er\b’ 可以匹配"never" 中的 ’er’，但不能匹配 "verb" 中
的 ’er’。

\B 匹配非单词边界。’er\B’ 能匹配 "verb" 中的 ’er’，但不能匹
配 "never" 中的 ’er’。

\cx 匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或
回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一
个原义的 ’c’ 字符。

\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。

\f 匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于 \x0a 和 \cJ。

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于
[ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于 \x09 和 \cI。

\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。

\W 匹配任何非单词字符。等价于 ’[^A-Za-z0-9_]’。

\xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确
定的两个数字长。例如， ’\x41’ 匹配 "A"。’\x041’ 则等价
于 ’\x04’ & "1"。正则表达式中可以使用 ASCII 编码。.

\num 匹配 num，其中num是一个正整数。对所获取的匹配的引用。
例如，’(.)\1’ 匹配两个连续的相同字符。

\n 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n
个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制
数字 (0-7)，则 n 为一个八进制转义值。

\nm 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有
is preceded by at least nm 个获取得子表达式，则 nm 为后
向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文
字 m 的后向引用。如果前面的条件都不满足，若 n 和 m 均为
八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。

\nml 如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-
7)，则匹配八进制转义值 nml。

\un 匹配 n，其中 n 是一个用四个十六进制数字表示的Unicode字
符。例如， \u00A9 匹配版权符号 (?)。　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

2^# dgkgnrt 发表于 2006-05-17 22:23

[size=+1]正则表达式

什么是正则表达式

正则表达式（也称为“regex”或“regexp”）是一种用来描述文本模式的特殊语法。在 Linux 系统上，正则表达式通常被用来查找文本的模式，以及对文本流执行“搜索-替换”操作以及其它功能。

与glob比较

当我们看到正则表达式时，您可能发现正则表达式的语法看起来与“文件名匹配替换”语法相类似。但是，不要让它欺骗您；它们的类似性只是表面的。虽然正则表达式和文件名匹配替换模式可能看上去相类似，但是它们是根本不同的两种类型。

简单子串

记住那个警告，让我们看一下最基本的正则表达式，简单子串。为了这样做，我们要使用 grep，它是一个扫描文件内容来查找适合特定正则表达式的命令。grep 打印与正则表达式匹配的每一行，并忽略与之不匹配的每一行：
$ grep bash /etc/passwd
operator:x:11:0

perator:/root:/bin/bash
root:x:0:0::/root:/bin/bash
ftp:x:40:1::/home/ftp:/bin/bash
在上面的命令中，grep 的第一个参数是一个正则表达式；第二个参数是一个文件名。grep 读取 /etc/passwd 中的每一行并对它应用简单子串正则表达式 bash 来查找匹配项。如果找到一个匹配项，那么 grep 打印出整行；否则，忽略该行。

理解简单子串

一般来说，如果您正在搜索一个子串，那么您可以不提供任何“特殊”字符，而只是逐字地指定文本。只有在子串包含 +、.、*、[、] 或 \（在这样的情况下，这些字符需要用引号括起来并在它们的前面使用反斜杠）才需要做特殊的事情。下面是简单子串正则表达式几个其它示例：

      * /tmp （扫描查找文字串 /tmp）
      * “\[box\]”（扫描查找文字串 [box]）
      * “\*funny\*”（扫描查找文字串 *funny*）
      * “ld\.so”（扫描查找文字串 ld.so）

元字符

使用正则表达式，可以利用元字符来执行比我们至今已研究过的示例复杂得多的搜索。这些元字符中的一个是 .（点），它与任何单个字符匹配：
$ grep dev.hda /etc/fstab
/dev/hda3 / reiserfs noatime,ro 1 1
/dev/hda1 /boot reiserfs noauto,noatime,notail 1 2
/dev/hda2 swap swap sw 0 0
#/dev/hda4 /mnt/extra reiserfs noatime,rw 1 1
在本示例中，文字文本 dev.hda 没有出现在 /etc/fstab 中的任何一行中。但是，grep 扫描这些行时没有查找文字 dev.hda 字符串，而是查找 dev.hda 模式。请记住 . 将与任何单个字
符相匹配。正如您看到的，. 元字符在功能上等价于 glob 扩展中 ? 元字符的工作原理。

使用 []

使用 [] 如果我们希望与比 . 更具体一点地来匹配字符，那么我们可以使用 [ 和 ]（方括号）来指定要匹配的字符子集：
$ grep dev.hda[12] /etc/fstab
/dev/hda1 /boot reiserfs noauto,noatime,notail 1 2
/dev/hda2 swap swap sw 0 0
正如您看到的，这个特殊语法的作用与“glob”文件名扩展中的 [] 相同。同样，这是学习正则表达式的难点之一 ― 这个语法与“glob ”文件名扩展语法类似，但又不尽相同，它经常给学习正则表达式的人带来困惑。'

使用 [^]

通过使 [ 后面紧跟一个 ^，您可以使方括号中的意思相反。在本例中，方括号将与未列在方括号内的任意字符匹配。同样，请注意我们在正则表达式中使用 [^] ，而在 glob 中使用 [!] ：
$ grep dev.hda[^12] /etc/fstab
/dev/hda3 / reiserfs noatime,ro 1 1
#/dev/hda4 /mnt/extra reiserfs noatime,rw 1 1

通过使 [ 后面紧跟一个 ^，您可以使方括号中的意思相反。在本例中，方括号将与未列在方括号内的任意字符匹配。同样，请注意我们在正则表达式中使用 [^] ，而在 glob 中使用 [!] ：
$ grep dev.hda[^12] /etc/fstab
/dev/hda3 / reiserfs noatime,ro 1 1
#/dev/hda4 /mnt/extra reiserfs noatime,rw 1 1 区别语法

注意下面一点很重要：方括号内部的语法根本不同于正则表达式其它部分中的语法。例如，如果在方
括号内放置一个 . ，那么它允许方括号与文字 . 匹配，就象上面示例中的 1 和 2。比较起来，除非有 \ 作为前缀，否则方括号外面的文字 . 被解释为一个元字符。通过输入如下命令，我们可以利用这一事实来打印 /etc/fstab 中包含文字串 dev.hda 的所有行的列表：
$ grep dev[.]hda /etc/fstab
或者，我们也可以输入：
$ grep "dev\.hda" /etc/fstab
这两个正则表达式都不可能与您的 /etc/fstab 文件中的任何行相匹配。

* 元字符

某些元字符本身不匹配任何字符，但却修改前一个字符的含义。一个这样的元字符是 * （星号），它用来与前一个字符的零次或者多次重复出现相匹配。这里是一些示例：
? ab*c（与 abbbbc 匹配但不与 abqc 匹配）
? ab*c（与 abc 匹配但不与 abbqbbc 匹配）
? ab*c（与 ac 匹配但不与 cba 匹配）
? b[cq]*e（与 bqe 匹配但不与 eb 匹配）
? b[cq]*e（与 bccqqe 匹配但不与 bccc 匹配）
? b[cq]*e（与 bqqcce 匹配但不与 cqe 匹配）
? b[cq]*e（与 bbbeee 匹配）
? .*（与任何字符串匹配）
? foo.*（与以 foo 开始的任何字符串相匹配）
ac 行与正则表达式 ab*c 相匹配，因为星号也允许前面的表达式（b）出现零次。请注意解释 * 正则表达式元字符所用的方法与解释 * glob 字符的方法根本不同。

行的开始和结束

我们在这里要详细描述的最后几个元字符是 ^ 和 $ 元字符，它们用来分别与行的开始和结束相匹配。通过在正则表达式开始处使用一个 ^ ，您可以将您的模式“锚定”在行的开始。在下面的示例中，我们使用 ^# 正则表达式来与以 # 字符开始的任何行相匹配：
$ grep ^# /etc/fstab
# /etc/fstab: static file system information.

完整行正则表达式

可以组合 ^ 和 $ 来与完整的行相匹配。例如，下面的正则表达式将与以 # 字符开始并以 . 字符结束的行相匹配，在其中间可以有任意多个其它字符：
$ grep '^#.*\.$' /etc/fstab
# /etc/fstab: static file system information.
在上面的示例中，我们用单引号将我们的正则表达式括起来以阻止 shell 解释 $ 。在不使用单引号的情况下，grep 甚至没有机会查看 $，$ 就从我们的正则表达式上消失了。　　　　　　

dearvoid

UID: 41384
帖子: 4
积分: 9
在线时间: 10 分钟

3^# dearvoid 发表于 2006-05-18 08:50

thx a lot　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

4^# dgkgnrt 发表于 2006-05-18 15:47

[size=+1]正则表达式
  如果我们问那些UNIX系统的爱好者他们最喜欢什么，答案除了稳定的系统和可以远程启动之外，十有八九的人会提到正则表达式；如果我们再问他们最头痛的是什么，可能除了复杂的进程控制和安装过程之外，还会是正则表达式。那么正则表达式到底是什么？如何才能真正的掌握正则表达式并正确的加以灵活运用？本文将就此展开介绍，希望能够对那些渴望了解和掌握正则表达式的读者有所助益。

  入门简介

  　　简单的说，正则表达式是一种可以用于模式匹配和替换的强有力的工具。我们可以在几乎所有的基于UNIX系统的工具中找到正则表达式的身影，例如，vi编辑器，Perl或PHP脚本语言，以及awk或sed shell程序等。此外，象JavaScript这种客户端的脚本语言也提供了对正则表达式的支持。由此可见，正则表达式已经超出了某种语言或某个系统的局限，成为人们广为接受的概念和功能。

  　　正则表达式可以让用户通过使用一系列的特殊字符构建匹配模式，然后把匹配模式与数据文件、程序输入以及WEB页面的表单输入等目标对象进行比较，根据比较对象中是否包含匹配模式，执行相应的程序。

  　　举例来说，正则表达式的一个最为普遍的应用就是用于验证用户在线输入的邮件地址的格式是否正确。如果通过正则表达式验证用户邮件地址的格式正确，用户所填写的表单信息将会被正常处理；反之，如果用户输入的邮件地址与正则表达的模式不匹配，将会弹出提示信息，要求用户重新输入正确的邮件地址。由此可见正则表达式在WEB应用的逻辑判断中具有举足轻重的作用。

  基本语法

  　　在对正则表达式的功能和作用有了初步的了解之后，我们就来具体看一下正则表达式的语法格式。

  　　正则表达式的形式一般如下：

  　　/love/

  　　其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容，正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。

  　　较为常用的元字符包括： “+”， “*”，以及 “?”。其中，“+”元字符规定其前导字符必须在目标对象? 续出现一次或多次，“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次，而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。

  　　下面，就让我们来看一下正则表达式元字符的具体应用。

  　　/fo+/

  　　因为上述正则表达式中包含“+”元字符，表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。

  　　/eg*/

  　　因为上述正则表达式中包含“*”元字符，表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。

  　　/Wil?/

  　　因为上述正则表达式中包含“？”元字符，表示可以与目标对象中的 “Win”, 或者 “Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。

  　　除了元字符之外，用户还可以精确指定模式在匹配对象中出现的频率。例如，

  　　/jim{2,6}/

  　　上述正则表达式规定字符m可以在匹配对象中连续出现2-6次，因此，上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。

  　　在对如何使用正则表达式有了初步了解之后，我们来看一下其它几个重要的元字符的使用方式。

  　　\s：用于匹配单个空格符，包括tab键和换行符；

  　　\S：用于匹配除单个空格符之外的所有字符；

  　　\d：用于匹配从0到9的数字；

  　　\w：用于匹配字母，数字或下划线字符；

  　　\W：用于匹配所有与\w不匹配的字符；

  　　. ：用于匹配除换行符之外的所有字符。

  　　（说明：我们可以把\s和\S以及\w和\W看作互为逆运算）

  　　下面，我们就通过实例看一下如何在正则表达式中使用上述元字符。

  　　/\s+/

  　　上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。

  　　/\d000/

  　　如果我们手中有一份复杂的财务报表，那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。

  　　除了我们以上所介绍的元字符之外，正则表达式中还具有另外一种较为独特的专用字符，即定位符。定位符用于规定匹配模式在目标对象中的出现位置。

  　　较为常用的定位符包括： “^”, “$”, “\b” 以及 “\B”。其中，“^”定位符规定匹配模式必须出现在目标字符串的开头，“$”定位符规定匹配模式必须出现在目标对象的结尾，\b定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一，而“\B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内，即匹配对象既不能作为目标字符串的开头，也不能作为目标字符串的结尾。同样，我们也可以把“^”和“$”以及“\b”和“\B”看作是互为逆运算的两组定位符。举例来说：

  　　/^hell/

  　　因为上述正则表达式中包含“^”定位符，所以可以与目标对象中以 “hell”, “hello”或 “hellhound”开头的字符串相匹配。

  　　/ar$/

  　　因为上述正则表达式中包含“$”定位符，所以可以与目标对象中以 “car”, “bar”或 “ar” 结尾的字符串相匹配。

  　　/\bbom/

  　　因为上述正则表达式模式以“\b”定位符开头，所以可以与目标对象中以 “bomb”, 或 “bom”开头的字符串相匹配。

  　　/man\b/

  　　因为上述正则表达式模式以“\b”定位符结尾，所以可以与目标对象中以 “human”, “woman”或 “man”结尾的字符串相匹配。

  　　为了能够方便用户更加灵活的设定匹配模式，正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。例如：

  　　/[A-Z]/

  　　上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。

  　　/[a-z]/

  　　上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。

  　　/[0-9]/

  　　上述正则表达式将会与从0到9范围内任何一个数字相匹配。

  　　/([a-z][A-Z][0-9])+/

  　　上述正则表达式将会与任何由字母和数字组成的字符串，如 “aB0” 等相匹配。这里需要提醒用户注意的一点就是可以在正则表达式中使用 “()” 把字符串组合在一起。“()”符号包含的内容必须同时出现在目标对象中。因此，上述正则表达式将无法与诸如 “abc”等的字符串匹配，因为“abc”中的最后一个字符为字母而非数字。

  　　如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算，在多个不同的模式中任选一个进行匹配的话，可以使用管道符 “|”。例如：

  　　/to|too|2/

  　　上述正则表达式将会与目标对象中的 “to”, “too”, 或 “2” 相匹配。

  　　正则表达式中还有一个较为常用的运算符，即否定符 “[^]”。与我们前文所介绍的定位符 “^” 不同，否定符 “[^]”规定目标对象中不能存在模式中所规定的字符串。例如：

  　　/[^A-C]/

  　　上述字符串将会与目标对象中除A，B，和C之外的任何字符相匹配。一般来说，当“^”出现在 “[]”内时就被视做否定运算符；而当“^”位于“[]”之外，或没有“[]”时，则应当被视做定位符。

  　　最后，当用户需要在正则表达式的模式中加入元字符，并查找其匹配对象时，可以使用转义符“\”。例如：

  　　/Th\*/

  　　上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。

[center]使用实例
[/center]
　　[size=+1]
<table align="left" border="0" cellpadding="10" cellspacing="0"><tbody><tr><td>
</td>          </tr>       </tbody></table>    [size=+1]"^\\d+$"　　//非负整数（正整数 + 0）
         "^[0-9]*[1-9][0-9]*$"　　//正整数
         "^((-\\d+)|(0+))$"　　//非正整数（负整数 + 0）
         "^-[0-9]*[1-9][0-9]*$"　　//负整数
         "^-?\\d+$"　　　　//整数
         "^\\d+(\\.\\d+)?$"　　//非负浮点数（正浮点数 + 0）
         "^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮点数

         "^((-\\d+(\\.\\d+)?)|(0+(\\.0+)?))$"　　//非正浮点数（负浮点数 + 0）
         "^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//负浮点数

         "^(-?\\d+)(\\.\\d+)?$"　　//浮点数
         "^[A-Za-z]+$"　　//由26个英文字母组成的字符串
         "^[A-Z]+$"　　//由26个英文字母的大写组成的字符串
         "^[a-z]+$"　　//由26个英文字母的小写组成的字符串
         "^[A-Za-z0-9]+$"　　//由数字和26个英文字母组成的字符串
         "^\\w+$"　　//由数字、26个英文字母或者下划线组成的字符串
         "^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+$"　　　　//email地址
         "^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$"　　file://url

[size=+1] 在对正则表达式有了较为全面的了解之后，我们就来看一下如何在Perl，PHP，以及JavaScript中使用正则表达式。

　　通常，Perl中正则表达式的使用格式如下：

　　operator / regular-expression / string-to-replace / modifiers

　　运算符一项可以是m或s，分别代表匹配运算和替换运算。

　　其中，正则表达式一项是将要进行匹配或替换操作的模式，可以由任意字符，元字符，或定位符等组成。替换字符串一项是使用s运算符时，对查找到的模式匹配对象进行替换的字符串。最后的参数项用来控制不同的匹配或替换方式。例如：

　　s/geed/good/

　　将会在目标对象中查找第一个出现的geed字串，并将其替换为good。如果我们希望在目标对象的全局范围内执行多次查找―替换操作的话，可以使用参数 “g”，即s/love/lust/g。

　　此外，如果我们不需要限制匹配的大小写形式的话，可以使用参数 “i ”。例如，

　　m/JewEL/i

　　上述正则表达式将会与目标对象中的jewel，Jewel，或JEWEL相匹配。

　　在Perl中，使用专门的运算符“=~”指定正则表达式的匹配对象。例如：

　　$flag =~ s/abc/ABC/

　　上述正则表达式将会把变量$flag中的字串abc替换为ABC。

　　下面，我们就在Perl程序中加入正则表达式，验证用户邮件地址格式的有效性。代码如下：

　　#!/usr/bin/perl
　　# get input
　　print “Whats your email address?\n”;
　　$email = $#@60;STDIN$#@62;;
　　chomp($email);
　　# match and display result
　　if($email =~ /^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+/)
　　{
　　print(“Your email address is correct!\n”);
　　}
　　else
　　　{
　　　　print(“Please try again!\n”);
　　　}

　　如果用户更偏爱PHP的话，可以使用ereg()函数进行模式匹配操作。ereg()函数的使用格式如下：
　　 ereg(pattern, string)

　　其中，pattern代表正则表达式的模式，而string则是执行查找替换操作的目标对象。同样是验证邮件地址，使用PHP编写的程序代码如下：

　　$#@60;?php
　　 if (ereg(“^([a-zA-Z0-9_ +@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+”,$email))
　　　 { echo “Your email address is correct!”;}
　　 else
　　　 { echo “Please try again!”;}
　　 ?$#@62;
　　最后，我们在来看一下JavaScript。JavaScript 1.2中带有一个功能强大的RegExp()对象，可以用来进行正则表达式的匹配操作。其中的test()方法可以检验目标对象中是否包含匹配模式，并相应的返回true或false。

　　我们可以使用JavaScript编写以下脚本，验证用户输入的邮件地址的有效性。

　　$#@60;html$#@62;
　　 $#@60;head$#@62;
　　　 $#@60;script language="Javascript1.2"$#@62;
　　　　 $#@60;!-- start hiding
　　　　 function verifyAddress(obj)
　　　　　{
　　　　　　var email = obj.email.value;
　　　　　　var pattern = /^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(\.[a-zA-Z0-9_-])+/;
　　　　　　flag = pattern.test(email);
　　　　　　if(flag)
　　　　　　{
　　　　　　　alert(“Your email address is correct!”);
　　　　　　　return true;
　　　　　　}
　　　　　　else
　　　　　　　{
　　　　　　　　alert(“Please try again!”);
　　　　　　　　return false;
　　　　　　　 }
　　　　　 }
　　　　 // stop hiding --$#@62;
　　　 $#@60;/script$#@62;
　　　$#@60;/head$#@62;
　　 $#@60;body$#@62;
　　 $#@60;form onSubmit="return verifyAddress(this);"$#@62;
　　　$#@60;input name="email" type="text"$#@62;
　　　$#@60;input type="submit"$#@62;
　　　$#@60;/form$#@62;
　　$#@60;/body$#@62;
　$#@60;/html$#@62;

dearvoid

UID: 41384
帖子: 4
积分: 9
在线时间: 10 分钟

5^# dearvoid 发表于 2006-05-18 15:51

灌水???　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

6^# dgkgnrt 发表于 2006-05-18 16:11

[size=+1]开篇,还是得说说 ^  和  $  他们是分别用来匹配字符串的开始和结束，以下分别举例说明

"^The": 开头一定要有"The"字符串;
"of despair$":  结尾一定要有"of despair" 的字符串;

那么,
"^abc$": 就是要求以abc开头和以abc结尾的字符串，实际上是只有abc匹配
"notice": 匹配包含notice的字符串

你可以看见如果你没有用我们提到的两个字符（最后一个例子），就是说模式（正则表达式）可以出现在被检验字符串的任何地方，你没有把他锁定到两边

接着,说说 '*', '+',和 '?',
他们用来表示一个字符可以出现的次数或者顺序. 他们分别表示：
"zero or more"相当于{0,},
"one or more"相当于{1,},
"zero or one."相当于{0,1},  这里是一些例子:

"ab*":  和ab{0,}同义,匹配以a开头,后面可以接0个或者N个b组成的字符串("a", "ab", "abbb", 等);
"ab+": 和ab{1,}同义,同上条一样，但最少要有一个b存在 ("ab", "abbb", 等.);
"ab?":和ab{0,1}同义,可以没有或者只有一个b;
"a?b+$": 匹配以一个或者0个a再加上一个以上的b结尾的字符串.

要点, '*', '+',和 '?'只管它前面那个字符.

你也可以在大括号里面限制字符出现的个数，比如

"ab{2}": 要求a后面一定要跟两个b（一个也不能少）("abb");
"ab{2,}": 要求a后面一定要有两个或者两个以上b(如"abb", "abbbb", 等.);
"ab{3,5}": 要求a后面可以有2－5个b("abbb", "abbbb", or "abbbbb").

现在我们把一定几个字符放到小括号里，比如：

"a(bc)*": 匹配 a 后面跟0个或者一个"bc";
"a(bc){1,5}": 一个到5个 "bc."

还有一个字符 '│', 相当于OR 操作:

"hi│hello": 匹配含有"hi" 或者 "hello" 的字符串;
"(b│cd)ef": 匹配含有 "bef" 或者 "cdef"的字符串;
"(a│b)*c": 匹配含有这样多个（包括0个）a或b，后面跟一个c
的字符串;

一个点('.')可以代表所有的单一字符,不包括"\n"

如果,要匹配包括"\n"在内的所有单个字符,怎么办?

对了,用'[\n.]'这种模式.

"a.[0-9]": 一个a加一个字符再加一个0到9的数字
"^.{3}$": 三个任意字符结尾 .

中括号括住的内容只匹配一个单一的字符

"[ab]": 匹配单个的 a 或者 b ( 和 "a│b" 一样);
"[a-d]": 匹配'a' 到'd'的单个字符 (和"a│b│c│d" 还有 "[abcd]"效果一样); 一般我们都用[a-zA-Z]来指定字符为一个大小写英文
"^[a-zA-Z]": 匹配以大小写字母开头的字符串
"[0-9]%": 匹配含有形如 x％的字符串
",[a-zA-Z0-9]$": 匹配以逗号再加一个数字或字母结尾的字符串

你也可以把你不想要得字符列在中括号里，你只需要在总括号里面使用'^' 作为开头 "%[^a-zA-Z]%" 匹配含有两个百分号里面有一个非字母的字符串.

要点:^用在中括号开头的时候,就表示排除括号里的字符

为了PHP能够解释，你必须在这些字符面前后加'',并且将一些字符转义.

不要忘记在中括号里面的字符是这条规路的例外―在中括号里面, 所有的特殊字符，包括(''), 都将失去他们的特殊性质 "[*\+?{}.]"匹配含有这些字符的字符串.

还有,正如regx的手册告诉我们: "如果列表里含有 ']', 最好把它作为列表里的第一个字符(可能跟在'^'后面). 如果含有'-', 最好把它放在最前面或者最后面, or 或者一个范围的第二个结束点[a-d-0-9]中间的‘-’将有效.

看了上面的例子,你对{n,m}应该理解了吧.要注意的是,n和m都不能为负整数,而且n总是小于m. 这样,才能最少匹配n次且最多匹配m次. 如"p{1,5}"将匹配 "pvpppppp"中的前五个p

下面说说以\开头的

\b 书上说他是用来匹配一个单词边界,就是...比如've\b',可以匹配love里的ve而不匹配very里有ve

\B 正好和上面的\b相反.例子我就不举了

.....突然想起来....可以到/html/edu/php/php4/3228.html看看其它用\ 开头的语法

好,我们来做个应用:

如何构建一个模式来匹配货币数量的输入

构建一个匹配模式去检查输入的信息是否为一个表示money的数字。我们认为一个表示money的数量有四种方式： "10000.00" 和 "10,000.00",或者没有小数部分, "10000" and "10,000". 现在让我们开始构建这个匹配模式:

^[1-9][0-9]*$

这是所变量必须以非0的数字开头.但这也意味着单一的 "0" 也不能通过测试. 以下是解决的方法:

^(0│[1-9][0-9]*)$

"只有0和不以0开头的数字与之匹配"，我们也可以允许一个负号在数字之前:

^(0│-?[1-9][0-9]*)$

这就是: "0 或者一个以0开头且可能有一个负号在前面的数字." 好了,现在让我们别那么严谨，允许以0开头.现在让我们放弃负号 , 因为我们在表示钱币的时候并不需要用到. 我们现在指定模式用来匹配小数部分:

^[0-9]+(\.[0-9]+)?$

这暗示匹配的字符串必须最少以一个阿拉伯数字开头. 但是注意，在上面模式中 "10." 是不匹配的, 只有 "10" 和 "10.2" 才可以. （你知道为什么吗）

^[0-9]+(\.[0-9]{2})?$

我们上面指定小数点后面必须有两位小数.如果你认为这样太苛刻,你可以改成:

^[0-9]+(\.[0-9]{1,2})?$

这将允许小数点后面有一到两个字符. 现在我们加上用来增加可读性的逗号（每隔三位）, 我们可以这样表示:

^[0-9]{1,3}(,[0-9]{3})*(\.[0-9]{1,2})?$

不要忘记 '+' 可以被 '*' 替代如果你想允许空白字符串被输入话 (为什么?). 也不要忘记反斜杆 ’\’ 在php字符串中可能会出现错误 (很普遍的错误).

现在，我们已经可以确认字符串了, 我们现在把所有逗号都去掉 str_replace(",", "", $money) 然后在把类型看成 double然后我们就可以通过他做数学计算了.

再来一个:

构造检查email的正则表达式

在一个完整的email地址中有三个部分:
1. 用户名 (在 '@' 左边的一切),
2.'@',
3. 服务器名(就是剩下那部分).

用户名可以含有大小写字母阿拉伯数字,句号 ('.'), 减号('-'), and 下划线 ('_'). 服务器名字也是符合这个规则,当然下划线除外.

现在, 用户名的开始和结束都不能是句点. 服务器也是这样. 还有你不能有两个连续的句点他们之间至少存在一个字符，好现在我们来看一下怎么为用户名写一个匹配模式:

^[_a-zA-Z0-9-]+$

现在还不能允许句号的存在. 我们把它加上:

^[_a-zA-Z0-9-]+(\.[_a-zA-Z0-9-]+)*$

上面的意思就是说: "以至少一个规范字符（除了.）开头,后面跟着0个或者多个以点开始的字符串."

简单化一点, 我们可以用 eregi()取代 ereg().eregi()对大小写不敏感, 我们就不需要指定两个范围 "a-z" 和 "A-Z" ? 只需要指定一个就可以了:

^[_a-z0-9-]+(\.[_a-z0-9-]+)*$

后面的服务器名字也是一样,但要去掉下划线:

^[a-z0-9-]+(\.[a-z0-9-]+)*$

好. 现在只需要用”@”把两部分连接:

^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$

这就是完整的email认证匹配模式了,只需要调用

eregi(‘^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$ ’,$eamil)

就可以得到是否为email了
正则表达式的其他用法

提取字符串

ereg() and eregi() 有一个特性是允许用户通过正则表达式去提取字符串的一部分(具体用法你可以阅读手册). 比如说,我们想从 path/URL 提取文件名 ? 下面的代码就是你需要:

ereg("([^\\/]*)$", $pathOrUrl, $regs);
echo $regs[1];

高级的代换

ereg_replace() 和 eregi_replace()也是非常有用的: 假如我们想把所有的间隔负号都替换成逗号:

ereg_replace("[ \n\r\t]+", ",", trim($str));

最后,我把另一串检查EMAIL的正则表达式让看文章的你来分析一下.

"^[-!#$%&\'*+\\./0-9=?A-Z^_`a-z{|}~]+'.'@'.'[-!#$%&\'*+\\/0-9=?A-Z^_`a-z{|}~]+\.'.'[-!#$%&\'*+\\./0-9=?A-Z^_`a-z{|}~]+$"

如果能方便的读懂,那这篇文章的目的就达到了.　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

7^# dgkgnrt 发表于 2006-05-18 22:53

[size=+1]正则表达式并不是按照模式按照从左到右搜索，"一个正则表达式" 就是一段程序，一个正则表达式的匹配引擎机制应该是：尽量多的精确的去匹配目标字符串.

例:
代码:
$data is 192.168.0.1
$data =~ /([0-9]*\.)([0-9]*.)([0-9]*\.)([0-9])/;
is 192.
is 168.
is 0.
is 1
这里
/([0-9]*\.)([0-9]*\.)([0-9]*\.)([0-9])/  匹配了192.168.0.1
同时在这个较长的正则表达式子是由几个短的正则表达式组成的,这些短的在()中的正则表达式称为模式,大家对,,,的值的输出都非常理解

下面再举一个例子
代码:
$data =~ /([0-9]*\.)([0-9]*\.)*([0-9])/;
is 192.
is 0.
is 1

这里有观点解释到这里([0-9]*\.) ([0-9]*\.) *([0-9])  红色部分"依次匹配" 了168. 0.    所以是0.
这并不是很好理解
有证:
3x3eyes 写到:
....匹配.168都还好理解所谓的依次匹配是什么意思，请各位帮忙

问题的关键是为什么这里的红色部分会去依次匹配168.    0.呢?regular 有这种依次匹配的机制吗它在什么情况下会这样做什么情况下不会这么做呢
下面我们通过一个例子来验证regular 会不会有这种依次匹配的机制
代码:
$data =~ /([0-9]*\.)([0-9]*\.)([0-9])/;
is 192.
is 168.
is 0

这里红色部分并没有去依次匹配168.  0. 而是直接匹配了168.
为什么呢看来问题出现在* 上面
也就是当正则表达式是 $data =~ /([0-9]*\.)([0-9]*\.)*([0-9])/; 的时候  红色部分依次匹配了168. 0. 并最终把最后匹配的0.存到了分组2中
   当正则表达式是 $data =~ /([0-9]*\.)([0-9]*\.)([0-9])/; 的时候  红色部分就不再依次匹配了??  它就匹配168.  并把168存在分组2中这是什么道理？
正则表达式有一个引擎引擎的工作原理细节没有找到相应文档但是对于这种情况可以试着解释为
代码:
对于 $data =~ /([0-9]*\.)([0-9]*\.)([0-9])/;
这时候对于模式1 模式2 模式3 他们没有机会选择  分别将各自匹配的 192. 168. 0  存在正则表达式的记忆体中
而对于 $data =~ /([0-9]*\.)([0-9]*\.)*([0-9])/;
对于模式1  从左到右搜索$data 匹配了192. 把它存在了记忆体  中
对于模式2  从左到右搜索剩下的$data 部分  匹配了 168.  并把它存在了记忆体中
下面到了*  这里*代表前面模式的0次或多次出现虽然在功能上对于这个例子它等于([0-9]*\.)([0-9]*\.)([0-9]*\.)([0-9])/，但是它并不等价于正则表达式/([0-9]*\.)([0-9]*\.)([0-9]*\.)([0-9])/ 。这时候仍然是模式2 去从左到右搜索$data剩余的字符串0.1  结果匹配了0.  由于仍然是模式2去匹配，所以0. 仍然存在记忆体中，冲掉了原来存在记忆体中的内容下面([0-9])  匹配了1 并把它存在了记忆体中。

看到这里，可以试着总结出正则表达式的引擎搜索机制：
代码:
1  如果在正则表达式中有模式，那么每个模式从左到右搜索要匹配的字符串，如果匹配成功，则把匹配的字符串存到相对应的记忆体中。
2  如果正则表达式中有下一个模式，那么这个模式将继续从左到右搜索没有被匹配的字符串，重复前面的步骤1的过程，匹配成功则立即停止，并把匹配的字符串存到相应的记忆体中。
3  如果在2中的模式后面出现了数量符* + ? ，形如：(模式2)*，则匹配过程变为：模式2仍然按照步骤1的过程匹配，匹配成功则停止。但是由于这时候在模式2后面出现了数量符 * ，则仍然由模式2去匹配字符串中没有被匹配的的部分，如果这时候出现了可以匹配多个字符串的情况，那么作后一次匹配成功的字符串被存放到了模式2对应的记忆体中(注意：中间匹配成功的并不是没有存，而是被后面匹配成功的覆盖了)。

说到这里仿佛一切问题都得到了很好的解释
可是请看下面的例子
代码:
$data = 192.168.0.1
$data =~ /([0-9]*\.)([0-9]*\.)*([0-9]*\.)([0-9]*.)([0-9])/
按照上面的结论，大家不妨猜测一下的内容，也就是记忆体2中的值是什么
在没有看到答案之前，也许会有人猜测是0. 或者168.。
但是这里的值是空值，*在这里是“0个”。

由此可以得到：正则表达式并不是按照模式按照从左到右搜索，"一个正则表达式" 就是一段程序，一个正则表达式的匹配引擎机制应该是：尽量多的精确的去匹配目标字符串.　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

8^# dgkgnrt 发表于 2006-05-18 23:05

[size=+1]1：匹配确定数量的字符：\
例如：X\ 匹配1到10个X
[A-Za-z]\ 匹配4到7个字符长的一个字母表序列
如果括号内只有一个数字，如: \则表示前导的正则表达式必须被精确匹配10次。
例如：[a-zA-Z]\ 精确匹配7个字母表中的字符

2：保存匹配的字符集：$...$
例如：^$.$ 匹配行上的第一个字符，然后保存到寄存器1中。
要得到保存到特定寄存器中的字符可以用\n, n可以从1-9，表示1到9，9个寄存器。
再举两个例子来巩固一下：
i) ^$.$.*$ 匹配所有首字符和最后一个字符相同的行
ii) 假设有如下电话簿文件
Alice Chebba 973-555-2015
Barbara Swingle 201-555-9257
Liz Stachiw 212-555-2298
Susan Goldberg 201-555-7776
Tony Iannino 973-555-1295
则运行语句：1,$s/$.*$ $.*$/ /
就可以把每条记录的姓名和号码位置互换，文件就变成下面的样子
973-555-2015 Alice Chebba
201-555-9257 Barbara Swingle
212-555-2298 Liz Stachiw
201-555-7776 Susan Goldberg
973-555-1295 Tony Iannino
要在windows的编辑器中实现上面的功能，我还找不到好的方法，而在UNIX/LINUX下
只要用小小的行编辑器ed就可以轻松搞定.

^ 只匹配行首
$ 只匹配行尾
* 一个单字符后紧跟*，匹配0个或多个此单字符
[] 匹配[]内字符。可以是一个单字符，也可以是字符序列。
可以使用-表示[]内字符序列范围，如用[1-5]代替[12345]
\ 用来屏蔽一个元字符的特殊含义。
因为有时在shell中一些元字符有特殊含义。
\可以使其失去应有意义
. 匹配任意单字符
pattern\｛n\｝用来匹配前面pattern出现次数。n为次数
pattern\｛n,\｝m 含义同上，但次数最少为n
pattern\｛n,m\｝含义同上，但pattern出现次数在n与m之间　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

9^# dgkgnrt 发表于 2006-05-18 23:31

[size=+2]正则表达式系统教程
[size=+1]正则表达式(regular expression)
关键字：正则表达式，Regular Expression
　　原著：笑容
　创作于：2004年05月03日
最后更新：2004年05月04日 21:12
引用地址：正则表达式(regular expression)
版权声明：使用创作公用版权协议



前言

　　正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读这些资料，加上应用的时候进行一定的参考，掌握正则表达式不是问题。

1.引子

2. 正则表达式的历史

3. 正则表达式定义

4. 各种操作符的运算优先级

5. 全部符号解释

6. 部分例子

7. 正则表达式匹配规则

1. 引子
　　目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix（Linux, Unix等），HP等操作系统，PHP，C#，Java等开发环境，以及很多的应用软件中，都可以看到正则表达式的影子。

　　正则表达式的使用，可以通过简单的办法来实现强大的功能。为了简单有效而又不失强大，造成了正则表达式代码的难度较大，学习起来也不是很容易，所以需要付出一些努力才行，入门之后参照一定的参考，使用起来还是比较简单有效的。

　　例子： ^.+@.+\..+$

　　这样的代码曾经多次把我自己给吓退过。可能很多人也是被这样的代码给吓跑的吧。继续阅读本文将让你也可以自由应用这样的代码。

　　注意：这里的第7部分跟前面的内容看起来似乎有些重复，目的是把前面表格里的部分重新描述了一次，目的是让这些内容更容易理解。

2. 正则表达式的历史

　　正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

　　1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。

　　随后，发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究，Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。

　　如他们所说，剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。

3. 正则表达式定义

　　正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

　　列目录时，　dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。

　　正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

　　3.1 普通字符

　　由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。

　　3.2 非打印字符

字符含义
\cx 匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

　　3.3 特殊字符

　　所谓特殊字符，就是一些有特殊含义的字符，如上面说的"*.txt"中的*，简单的说就是表示任何字符串的意思。如果要查找文件名中有＊的文件，则需要对＊进行转义，即在其前加一个\。ls \*.txt。正则表达式有以下特殊字符。

特别字符说明
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身，请使用 $。
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $。
* 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。
. 匹配除换行符 \n之外的任何单字符。要匹配 .，请使用 \。
[ 标记一个中括号表达式的开始。要匹配 [，请使用 \[。
? 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\' 匹配 "\"，而 '\(' 则匹配 "("。
^ 匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 \^。
{ 标记限定符表达式的开始。要匹配 {，请使用 \{。
| 指明两项之间的一个选择。要匹配 |，请使用 \|。
　

　　3.4 限定符

　　限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或或或共6种。

　　*、+和?限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

　　正则表达式的限定符有：

字符  描述
*  匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于。
+  匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于。
?  匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于。
n 是一个非负整数。匹配确定的 n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
n 是一个非负整数。至少匹配n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o' 等价于 'o+'。'o' 则等价于 'o*'。
m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o" 将匹配 "fooooood" 中的前三个 o。'o' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

　　3.5 定位符

　　用来描述字符串或单词的边界，^和$分别指字符串的开始与结束，\b描述单词的前或后边界，\B表示非单词边界。不能对定位符使用限定符。

　　3.6 选择

　　用圆括号将所有选择项括起来，相邻的选择项之间用|分隔。但用圆括号会有一个副作用，是相关的匹配会被缓存，此时可用?:放在第一个选项前来消除这种副作用。

　　其中?:是非捕获元之一，还有两个非捕获元是?=和?!，这两个还有更多的含义，前者为正向预查，在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串，后者为负向预查，在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

　　3.7 后向引用

　　对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中，所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始，连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '\n' 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。

　　可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匹配的保存。

4. 各种操作符的运算优先级

　　相同优先级的从左到右进行运算，不同优先级的运算先高后低。各种操作符的优先级从高到低如下：

操作符描述
\ 转义符
(), (?

, (?=), [] 圆括号和方括号
*, +, ?, , , 限定符
^, $, \anymetacharacter 位置和顺序
| “或”操作

5. 全部符号解释

字符  描述
\  将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\' 匹配 "\" 而 "\(" 则匹配 "("。
^  匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$  匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。
*  匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于。
+  匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于。
?  匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于。
n 是一个非负整数。匹配确定的 n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
n 是一个非负整数。至少匹配n 次。例如，'o' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o' 等价于 'o+'。'o' 则等价于 'o*'。
m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o" 将匹配 "fooooood" 中的前三个 o。'o' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?  当该字符紧跟在任何一个其他限制符 (*, +, ?, , , ) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
.  匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
(pattern)  匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 … 属性。要匹配圆括号字符，请使用 '$' 或 '$'。
(?:pattern)  匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern)  正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)  负向预查，在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x|y  匹配 x 或 y。例如，'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
[xyz]  字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]  负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]  字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]  负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b  匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B  匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx  匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d  匹配一个数字字符。等价于 [0-9]。
\D  匹配一个非数字字符。等价于 [^0-9]。
\f  匹配一个换页符。等价于 \x0c 和 \cL。
\n  匹配一个换行符。等价于 \x0a 和 \cJ。
\r  匹配一个回车符。等价于 \x0d 和 \cM。
\s  匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S  匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t  匹配一个制表符。等价于 \x09 和 \cI。
\v  匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w  匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W  匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn  匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num  匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)' 匹配两个连续的相同字符。
\n  标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm  标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml  如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un  匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。
　

6. 部分例子

正则表达式说明
/\b([a-z]+) \b/gi 一个单词连续出现的位置
/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ 将一个URL解析为协议、域、端口及相对路径
/^(?:Chapter|Section) [1-9][0-9]$/ 定位章节的位置
/[-a-z]/ A至z共26个字母再加一个-号。
/ter\b/ 可匹配chapter，而不能terminal
/\Bapt/ 可匹配chapter，而不能aptitude
/Windows(?=95 |98 |NT )/ 可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后，从Windows后面开始进行下一次的检索匹配。
　

7. 正则表达式匹配规则

　　7.1 基本模式匹配

　　一切从最基本的开始。模式，是正规表达式最基本的元素，它们是一组描述字符串特征的字符。模式可以很简单，由普通的字符串组成，也可以非常复杂，往往用特殊的字符表示一个范围内的字符、重复出现，或表示上下文。例如：

　　^once

　　这个模式包含一个特殊的字符^，表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配，与"There once was a man from NewYork"不匹配。正如如^符号表示开头一样，$符号用来匹配那些以给定模式结尾的字符串。

　　bucket$

　　这个模式与"Who kept all of this cash in a bucket"匹配，与"buckets"不匹配。字符^和$同时使用时，表示精确匹配（字符串与模式一样）。例如：

　　^bucket$

　　只匹配字符串"bucket"。如果一个模式不包括^和$，那么它与任何包含该模式的字符串匹配。例如：模式

　　once

　　与字符串

　　There once was a man from NewYork
　　Who kept all of his cash in a bucket.

　　是匹配的。

　　在该模式中的字母(o-n-c-e)是字面的字符，也就是说，他们表示该字母本身，数字也是一样的。其他一些稍微复杂的字符，如标点符号和白字符（空格、制表符等），要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是：\t。所以如果我们要检测一个字符串是否以制表符开头，可以用这个模式：

　　^\t

　　类似的，用\n表示“新行”，\r表示回车。其他的特殊符号，可以用在前面加上反斜杠，如反斜杠本身用\表示，句号.用\.表示，以此类推。

　　7.2 字符簇

　　在INTERNET的程序中，正规表达式通常用来验证用户的输入。当用户提交一个FORM以后，要判断输入的电话号码、地址、EMAIL地址、信用卡号码等是否有效，用普通的基于字面的字符是不够的。

　　所以要用一种更自由的描述我们要的模式的办法，它就是字符簇。要建立一个表示所有元音字符的字符簇，就把所有的元音字符放在一个方括号里：

　　[AaEeIiOoUu]

　　这个模式与任何元音字符匹配，但只能表示一个字符。用连字号可以表示一个字符的范围，如：

　　[a-z] //匹配所有的小写字母
　　[A-Z] //匹配所有的大写字母
　　[a-zA-Z] //匹配所有的字母
　　[0-9] //匹配所有的数字
　　[0-9\.\-] //匹配所有的数字，句号和减号
　　[ \f\r\t\n] //匹配所有的白字符

　　同样的，这些也只表示一个字符，这是一个非常重要的。如果要匹配一个由一个小写字母和一位数字组成的字符串，比如"z2"、"t6"或"g7"，但不是"ab2"、"r2d3" 或"b52"的话，用这个模式：

　　^[a-z][0-9]$

　　尽管[a-z]代表26个字母的范围，但在这里它只能与第一个字符是小写字母的字符串匹配。

　　前面曾经提到^表示字符串的开头，但它还有另外一个含义。当在一组方括号里使用^是，它表示“非”或“排除”的意思，常常用来剔除某个字符。还用前面的例子，我们要求第一个字符不能是数字：

　　^[^0-9][0-9]$

　　这个模式与"&5"、"g7"及"-2"是匹配的，但与"12"、"66"是不匹配的。下面是几个排除特定字符的例子：

　　[^a-z] //除了小写字母以外的所有字符
　　[^\/\^] //除了(\)(/)(^)之外的所有字符
　　[^\"\'] //除了双引号(")和单引号(')之外的所有字符

　　特殊字符"." (点，句号)在正规表达式中用来表示除了“新行”之外的所有字符。所以模式"^.5$"与任何两个字符的、以数字5结尾和以其他非“新行”字符开头的字符串匹配。模式"."可以匹配任何字符串，除了空串和只包括一个“新行”的字符串。

　　PHP的正规表达式有一些内置的通用字符簇，列表如下：

　　字符簇含义

　　[[:alpha:]] 任何字母
　　[[:digit:]] 任何数字
　　[[:alnum:]] 任何字母和数字
　　[[:space:]] 任何白字符
　　[[:upper:]] 任何大写字母
　　[[:lower:]] 任何小写字母
　　[[:punct:]] 任何标点符号
　　[[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]

　　7.3 确定重复出现

　　到现在为止，你已经知道如何去匹配一个字母或数字，但更多的情况下，可能要匹配一个单词或一组数字。一个单词有若干个字母组成，一组数字有若干个单数组成。跟在字符或字符簇后面的花括号({})用来确定前面的内容的重复出现的次数。

　　字符簇含义
　　^[a-zA-Z_]$ 所有的字母和下划线
　　^[[:alpha:]]$ 所有的3个字母的单词
　　^a$ 字母a
　　^a$ aaaa
　　^a$ aa,aaa或aaaa
　　^a$ a,aa或aaa
　　^a$ 包含多于两个a的字符串
　　^a 如：aardvark和aaab，但apple不行
　　a 如：baad和aaa，但Nantucket不行
　　\t 两个制表符
　　. 所有的两个字符

　　这些例子描述了花括号的三种不同的用法。一个数字，的意思是“前面的字符或字符簇只出现x次”；一个数字加逗号，的意思是“前面的内容出现x或更多的次数”；两个用逗号分隔的数字，表示“前面的内容至少出现x次，但不超过y次”。我们可以把模式扩展到更多的单词或数字：

　　^[a-zA-Z0-9_]$ //所有包含一个以上的字母、数字或下划线的字符串
　　^[0-9]$ //所有的正数
　　^\-[0-9]$ //所有的整数
　　^\-[0-9]\.[0-9]$ //所有的小数

　　最后一个例子不太好理解，是吗？这么看吧：与所有以一个可选的负号(\-)开头(^)、跟着0个或更多的数字([0-9])、和一个可选的小数点(\.)再跟上0个或多个数字([0-9])，并且没有其他任何东西($)。下面你将知道能够使用的更为简单的方法。

　　特殊字符"?"与是相等的，它们都代表着：“0个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以简化为：

　　^\-?[0-9]\.?[0-9]$

　　特殊字符"*"与是相等的，它们都代表着“0个或多个前面的内容”。最后，字符"+"与是相等的，表示“1个或多个前面的内容”，所以上面的4个例子可以写成：

　　^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串
　　^[0-9]+$ //所有的正数
　　^\-?[0-9]+$ //所有的整数
　　^\-?[0-9]*\.?[0-9]*$ //所有的小数

　　当然这并不能从技术上降低正规表达式的复杂性，但可以使它们更容易阅读。　　　　　　

dgkgnrt

UID: 37751
帖子: 1
积分: 2
在线时间: 10 分钟

10^# dgkgnrt 发表于 2006-05-18 23:49

[size=+1]在使用正则表达式的时候,经常需要用下列三个字符串处理运算符:
1,模式匹配运算符m:/patten/
2,替换运算符:s/oldstr/newstr/
3,转换运算符:tr/oldchr/newchr/

1,m//运算符:
默认情况下,m//尝试匹配指定的模式和$_中的文本,例如:
/home/lee#perl -e 'while(<>){ if (m/^exit$/i){ print "Found!\n";exit}}'
exitt
abc
exit
Found!
/home/lee#
循环读入标准输入,当完整匹配exit这个单词时,显示信息并退出

/home/lee#echo "abc aBc 123\nabc abc 2434"|\
> perl -ne 'print if(/\b[\d]\b/)'
abc aBc 123
找出含有连续3个数字的行
和其他的perl运算符一样,定界符是可以任意指定的,如果使用非斜线(/)的\定界符,则m 是不可少的
/home/lee#perl -
$str="exit";
while(<>){ if(m#^$str$#){print "ok!\n";exit}
else {print "again!\n"}
};
__END__
123
again!
sdf
again!
wer
again!
exit
ok!
这里匹配模式的定界符用的是#,输入的数据与$str比较,如果一致则退出,否则循环!

2,s///运算符号:
常用于字符串的替换,例如:
/home/lee#perl -e '$text="123def";$text =~ s/123/abc/;print $text."\n"'
abcdef
这里将123替换成abc,其中 =~运算符号用来指定查找的字符串,用!~则是=~的否定

/home/lee#perl -e '$text="abcdabcd";$text=~s(abc)(ABC)g;print $text."\n"'
ABCdABCd
这里将abc全局替换成ABC,这里的定界符用的是括号 ^_^

3,tr///运算符:
tr///运算符用于将一个字符转换成另外一个字符,tr///默认使用$_变量,如:
/home/lee#perl -
while(<>){
if(m@^exit$@i){print "exit";exit}else};__END__
123
123
abc
Abc
cba
cbA
exit
exit
接受标准输入,将输入字符中的小写字符a转换成大写A