您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 统计图表 > 正则表达式介绍和例子分析
正则表达式含义:编写字符串处理的程序或网页时,会有查找符合某复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。它是记录文本规则的代码。元字符用来代替字符的符号表1.常用的元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字注:\s匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等正则表达式中的空格会当成空格匹配。(输入几个空格就匹配几个)非打印字符非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:字符描述\cx匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的'c'字符。\f匹配一个换页符。等价于\x0c和\cL。\n匹配一个换行符。等价于\x0a和\cJ。\r匹配一个回车符。等价于\x0d和\cM。\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\f\n\r\t\v]。\S匹配任何非空白字符。等价于[^\f\n\r\t\v]。\t匹配一个制表符。等价于\x09和\cI。\v匹配一个垂直制表符。等价于\x0b和\cK。限定符重复:表现重复时用的是大括号{}和*+?,表示范围时用的是中括号[],中括号里面是只选其中一个的组合。表达分组时用圆括号(),一个圆括号表示一个意思。表2.常用的限定符代码/语法说明*重复零次或更多次+重复一次或更多次?重复零次或一次{n}重复n次{n,}重复n次或更多次{n,m}重复n到m次字符类[],用来表示取字符的范围区间,用中括号括起来[0-9]代表\d[a-z0-9A-Z]表示\w分支条件,用|表示或者的关系。贪婪与懒惰、最先开始匹配拥有最高优先权*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。.*表示尽可能匹配多的字符.*?表示尽可能少的字符例如:字符串aabab,用贪婪匹配a.*b得到aabab,用懒惰匹配a.*?b得到aab和ab定位符定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。正则表达式的限定符有:字符描述^匹配输入字符串开始的位置。如果设置了RegExp对象的Multiline属性,^还会与\n或\r之后的位置匹配。$匹配输入字符串结尾的位置。如果设置了RegExp对象的Multiline属性,$还会与\n或\r之前的位置匹配。\b匹配一个字边界,即字与空格间的位置。\B非字边界匹配。子表达式分组获取()分组,用()把子表达式括起来,给一个组号,后面可以再用后向引用,用()定义的分组,可以给它定一个组名,在后面加以利用。用(?Word\w+)或者(?’Word’\w+)定义\w+组名为Word,利用方式为\kWord表4.常用分组语法分类代码/语法说明捕获(exp)匹配exp,并捕获文本到自动命名的组里(?nameexp)匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)非捕获(?:exp)匹配exp,不捕获匹配的文本,也不给此分组分配组号零宽断言(?=exp)匹配exp前面的位置(?=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?!exp)匹配前面不是exp的位置注释(?#comment)这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读捕获从下面的例子中可以看到,根据正则表达式,只捕获了括号内的东西到组中,第一个括号前面^\D*匹配到的东西被忽略了。零宽度断言(?=exp)用法:\b\w+(?=ing)\b,匹配以ing结尾的单词的前面部分,如查找I’msinginganddancing,会匹配sing和danc(?=exp)用法:(?=rea)\w+\b,匹配以rea开头的单词的后面部分,如查找readingabook,会匹配ding注释:(?#comment)例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)反义反义,找完全相反的内容。注意这里使用的都是大写表3.常用的反义代码代码/语法说明\W匹配任意不是字母,数字,下划线,汉字的字符(剩下符号等)\S匹配任意不是空白符的字符\D匹配任意非数字的字符\B匹配不是单词开头或结束的位置[^x]匹配除了x以外的任意字符[^aeiou]匹配除了aeiou这几个字母以外的任意字符平衡组/递归匹配(?'group')把捕获的内容命名为group,并压入堆栈(Stack)(?'-group')从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败(?(group)yes|no)如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分(?!)零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败[^]*(((?'Open')[^]*)+((?'-Open')[^]*)+)*(?(Open)(?!))可以从xxaabbbbbbaayy中找到aabbbbbbaadiv[^]*[^]*(((?'Open'div[^]*)[^]*)+((?'-Open'/div)[^]*)+)*(?(Open)(?!))/div可以找到配对的div和/div,不管有没有不配对的html出现。好的例子将所有地址中的ROAD写成RD.若地址中的字符不是大写的,先可以都改成大写的。匹配以罗马数字标示的四位数年份注:在罗马数字上加一个横线,就会乘以1000倍。所以4000就用ⅯⅬ(其中L要带上横线)紧凑正则表达式:^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$最后对应的松散正则表达式是匹配电话号码紧凑正则表达式:(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$松散正则表达式:
本文标题:正则表达式介绍和例子分析
链接地址:https://www.777doc.com/doc-6089909 .html