正则表达式笔记

合集下载

笔记整理——Linux下C语言正则表达式

笔记整理——Linux下C语⾔正则表达式Linux下C语⾔正则表达式使⽤详解 - Google Chrome (2013/5/2 16:40:37)Linux下C语⾔正则表达式使⽤详解2012年6⽉6⽇627 views标准的C和C++都不⽀持正则表达式，但有⼀些函数库可以辅助C/C++程序员完成这⼀功能，其中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库，许多Linux发⾏版本都带有这个函数库。

C语⾔处理正则表达式常⽤的函数有regcomp()、regexec()、regfree()和regerror()，⼀般分为三个步骤，如下所⽰：C语⾔中使⽤正则表达式⼀般分为三步：1. 编译正则表达式 regcomp()2. 匹配正则表达式 regexec()3. 释放正则表达式 regfree()下边是对三个函数的详细解释1. int regcomp (regex_t *compiled, const char *pattern, int cflags)这个函数把指定的正则表达式pattern编译成⼀种特定的数据格式compiled，这样可以使匹配更有效。

函数regexec 会使⽤这个数据在⽬标⽂本串中进⾏模式匹配。

执⾏成功返回０。

参数说明：①regex_t 是⼀个结构体数据类型，⽤来存放编译后的正则表达式，它的成员re_nsub ⽤来存储正则表达式中的⼦正则表达式的个数，⼦正则表达式就是⽤圆括号包起来的部分表达式。

②pattern 是指向我们写好的正则表达式的指针。

③cflags 有如下4个值或者是它们或运算(|)后的值：REG_EXTENDED 以功能更加强⼤的扩展正则表达式的⽅式进⾏匹配。

REG_ICASE 匹配字母时忽略⼤⼩写。

REG_NOSUB 不⽤存储匹配后的结果。

REG_NEWLINE 识别换⾏符，这样'$'就可以从⾏尾开始匹配，'^'就可以从⾏的开头开始匹配。

PowerShell笔记-13.正则表达式

PowerShell笔记-13.正则表达式本系列是⼀个重新学习PowerShell的笔记，内容引⽤⾃定义模式如果你需要更加精确的模式识别需要使⽤正则表达式，正则表达式提供了更加丰富的通配符。

正因为如此，它可以更加详细的描述模式，正则表达式也因此稍显复杂。

使⽤下⾯的表格中列出的正则表达式元素，你可以⾮常精准的描述模式。

这些正则表达式元素可以归为三⼤类。

字符：字符可以代表⼀个单独的字符，或者⼀个字符集合构成的字符串。

限定符：允许你在模式中决定字符或者字符串出现的频率。

定位符：允许你决定模式是否是⼀个独⽴的单词，或者出现的位置必须在句⼦的开头还是结尾。

正则表达式代表的模式⼀般由四种不同类型的字符构成。

⽂字字符：像”abc”确切地匹配”abc“字符串转义字符：⼀些特殊的字符例如反斜杠，中括号，⼩括号在正则表达式中居于特殊的意义，所以如果要专门识别这些特殊字符需要转义字符反斜杠。

就像”[abc]”可以识别”[abc]”。

预定义字符：这类字符类似占位符可以识别某⼀类字符。

例如”\d”可以识别0-9的数字。

⾃定义通配符：包含在中括号中的通配符。

例如”[a-d]”识别a,b,c,d之间的任意字符，如果要排除这些字符，可以使⽤”[^a-d]”。

字符元素描述.匹配除了换⾏符意外的任意字符[^abc]匹配除了包含在中括号的任意字符[^a-z]匹配除了包含在中括号指定区间字符的任意字符[abc]匹配括号中指定的任意⼀个字符[a-z]匹配括号中指定的任意区间中的任意⼀个字符\a响铃字符（ASCII 7）\c or \C匹配ASCII 中的控制字符，例如Ctrl+C\d匹配数字字符，等同于[0-9]\D匹配数字以外的字符\e Esc (ASCII 9)\f换页符(ASCII 15)\n换⾏符\r回车符\s⽩空格（空格，制表符，新⾏）\S匹配⽩空格（空格，制表符，新⾏）意外的字符\t制表符\uFFFF匹配Unicode字符的⼗六进制代码FFFF。

JavaScript正则表达式迷你书之贪婪模式-学习笔记

JavaScript正则表达式迷你书之贪婪模式-学习笔记贪婪模式：在使⽤修饰匹配次数的特殊符号时，有⼏种表⽰⽅法可以使同⼀个表达式能够匹配不同的次数，⽐如："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串⽽定。

这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配⾮贪婪模式：在修饰匹配次数的特殊符号后再加上⼀个 "?" 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配"。

这种匹配原则叫作 "⾮贪婪" 模式，也叫作 "勉强" 模式。

如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，⾮贪婪模式会最⼩限度的再匹配⼀些，以使整个表达式匹配成功。

var regex = /\d{2,5}/g;var string = "123 1234 12345 123456";console.log( string.match(regex) );// => ["123", "1234", "12345", "12345"]其中正则 /d{2,5}/，表⽰数字连续出现 2 到 5 次。

会匹配 2 位、3 位、4 位、5 位连续数字。

但是其是贪婪的，它会尽可能多的匹配。

你能给我 6 个，我就要 5 个。

你能给我 3 个，我就要 3 个。

反正只要在能⼒范围内，越多越好。

横向模糊匹配横向模糊指的是，⼀个正则可匹配的字符串的长度不是固定的，可以是多种情况的。

其实现的⽅式是使⽤量词。

譬如 {m,n}，表⽰连续出现最少 m 次，最多 n 次。

⽐如正则 /ab{2,5}c/ 表⽰匹配这样⼀个字符串：第⼀个字符是 "a"，接下来是 2 到 5 个字符 "b"，最后是字符 "c"。

（个人收集学习笔记）4字符串处理与正则表达式

（个人收集学习笔记）4字符串处理与正则表达式第四章字符串处理与正则表达式一、字符串处理介绍1、如果字符串处理函数和正则表达式都可以实现字符串操作，建议使用字符串处理函数，因为效率高。

2、因为PHP 是弱类型语言，所以其他类型的数据一般都可以直接应用于字符串操作函数里，而自动转换成字符串类型进行处理。

3、还可以将字符串视为数组，或当作字符集合来看待。

$str[0]$str{0}二、常用的字符串输出函数1、echo()函数：使用它的效率要比其他字符串输出函数高。

2、print()函数：功能和echo()一样，但它有返回值，成功返回1，不成功返回0。

3、die()函数：exit()函数的别名。

1）参数如果是字符串，则该函数会在退出前输出它。

2）如果参数是一个整数，这个值会被用做退出状态。

值在0-254之间，退出状态255由PHP 保留，不会使用。

状态0用于成功终止程序。

4、printf():用于输出格式化字符串。

1）例子：printf(“%s age is $d”,$str,$num);2）%d ：带符号十进制数%u ：无符号十进制数%f ：浮点数%s ：字符串%b ：二进制数%c ：依照ASCII 值的字符%%：返回百分比符号%o ：八进制数%x ：十六进制数（小写字母）%X ：十六进制数（大写字母）3)如果%符号多于arg 参数，则必须使用占位符。

占位符被插入到%符号之后，由数字和\$组成。

如：printf(“The %2\$s book contains %1\$d pages.That’s a nice %2\$s full of %1\$d pages”,$num,$str);%2\$s 代表$str 。

5、sprintf()函数：用法和printf()一样，但它不是输出字符串，而是把格式化的字符串以返回值的形式写入到一个变量中。

三、常用的字符串格式化函数字符串的格式化就是将字符串处理为某种特定的格式。

ORACLE 正则表达式摘录笔记

ORACLE 正则表达式一.正则表达式简介:正则表达式，就是以某种模式来匹配一类字符串。

一旦概括了某类字符串，那么正则表达式即可用于针对字符串的各种相关操作。

例如，判断匹配性，进行字符串的重新组合等。

正则表达式提供了字符串处理的快捷方式。

Oracle 10g及以后的版本中也支持正则表达式.二. 正则表达式相对通配符的优势:1.正则表达式中不仅存在着代表模糊字符的特殊字符，而且存在着量词等修饰字符，使得模式的控制更加灵活和强大。

2.通配符的使用一般是在特定的环境下,不同的环境下，通配符有可能不同。

而正则表达式，不但广泛应用于各种编程语言，而且在各种编程语言中，保持了语法的高度一致性。

三. 元字符:元字符是指在正则表达式中表示特殊含义的字符。

量词用来指定量词的前一个字符出现的次数。

量词的形式主要有“?”、“*”、“+”、“{}”。

量词在用于匹配字符串时，默认遵循贪婪原则。

贪婪原则是指，尽可能多地匹配字符。

例如:字符串“Function(p),(OK)”，如果使用正则表达式“$.*$”进行匹配，则得到字符串“(p),(OK)” ，而非“(p)”；若欲得到“(p)”，则必须取消量词的贪婪原则，此时只需要为量词后追加另外一个数量词“?”即可。

如上面的正则表达式应该改为“$.*?$”。

五. 字符转义:元字符在正则表达式中有特殊含义。

如果需要使用其原义，则需要用到字符转义。

字符转义使用字符“\”来实现。

其语法模式为：“\”+元字符。

例如，“\.”表示普通字符“.”；“\.doc”匹配字符串“.doc”；而普通字符“\”需要使用“\\”来表示。

六. 字符组.字符组是指将模式中的某些部分作为一个整体。

这样，量词可以来修饰字符组，从而提高正则表达式的灵活性。

字符组通过()来实现.许多编程语言中，可以利用“$1”、“$2”等来获取第一个、第二个字符组，即所谓的后向引用。

在Oracle中，引用格式为“\1”、“\2”。

《Mastering Regular Expressions》---学习笔记

近段涉及到了数据的解析，自然离不开对Regular Expressions（正则表达式）的温习；在jdk 官方源码中看到了对《Mastering Regular Expressions, 2nd Edition》的推荐；由Jeffrey E.F. Friedl大师主刀，O'Reilly于2002年再版。

对O'Reilly的书向有好感，像当年误入java的歧途，没看Java编程思想之类的，倒看了O'Reilly的一本影印版《java in a nutshell》，颇留记忆。

正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。

Warren McCulloch 和Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

1956 年, 一位叫Stephen Kleene 的数学家在McCulloch 和Pitts 早期工作的基础上，发表了一篇标题为“神经网事件的表示法”的论文，引入了正则表达式的概念。

正则表达式就是用来描述他称为“正则集的代数”的表达式，因此采用“正则表达式”这个术语。

随后，发现可以将这一工作应用于使用Ken Thompson 的计算搜索算法的一些早期研究，Ken Thompson 是Unix 的主要发明人。

正则表达式的第一个实用应用程序就是Unix 中的qed 编辑器。

目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix（Linux, Unix等），HP等操作系统；PHP，Perl，Python，C#，Java等开发环境，以及很多的应用软件中，For Example：网络上的搜索引擎，数据库的全文检索etc...本笔记是是自我学习过程的一个整理，例子或来源于书本，或自己枚举。

好了，废话一箩筐，切入正题。

1.正则表达式的介绍1.1、行开始和结束^begin line。

匹配行开头，如^cat匹配以cat开头的$end line。

正则表达式学习笔记(1)

正则表达式学习笔记(1)正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

列目录时，dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。

为便于理解和记忆，先从一些概念入手，所有特殊字符或字符组合有一个总表在后面，最后一些例子供理解相应的概念。

正则表达式是由普通字符（例如字符 a 到z）以及特殊字符（称为元字符）组成的文字模式。

正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

可以通过在一对分隔符之间放入表达式模式的各种组件来构造一个正则表达式，即/expression/普通字符由所有那些未显式指定为元字符的打印和非打印字符组成。

这包括所有的大写和小写字母字符，所有数字，所有标点符号以及一些符号。

非打印字符特殊字符所谓特殊字符，就是一些有特殊含义的字符，如上面说的"*.txt"中的*，简单的说就是表示任何字符串的意思。

如果要查找文件名中有＊的文件，则需要对＊进行转义，即在其前加一个\。

ls \*.txt。

正则表达式有以下特殊字符。

构造正则表达式的方法和创建数学表达式的方法一样。

也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。

正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

限定符限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。

有*或+或?或{n}或{n,}或{n,m}共6种。

*、+和?限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

正则表达式的限定符有：定位符用来描述字符串或单词的边界，^和$分别指字符串的开始与结束，\b描述单词的前或后边界，\B表示非单词边界。

正则表达式记忆方法

正则表达式记忆方法宝子！今天咱来唠唠正则表达式咋记。

正则表达式刚瞅的时候，就像一堆乱码似的，可吓人了。

咱先从那些基本的元字符开始哈。

像那个“.”，你就把它想成是个“小百搭”，它能匹配除了换行符之外的任何单个字符呢。

就好像是一个啥都能接的小助手，特别好记。

还有那个“*”，这就像是个贪心鬼。

它表示前面的字符可以出现零次或者多次。

你就想象它是个小馋猫，能把前面的字符吃好多好多遍，也可以一口都不吃。

比如说“a*”，那就是可以有好多好多的“a”，也可以一个“a”都没有。

“+”这个呢，和“*”有点像，但它至少得出现一次。

就好比是个有点小傲娇的家伙，必须得有，不能没有。

“a+”就是至少有一个“a”。

再来说说那些字符类。

“[]”里面放的就是一群字符，它表示匹配其中的任意一个字符。

你可以把它想象成是个小盒子，里面装着各种小宝贝，只要是盒子里的，都能被选中。

比如说“[abc]”，那就是“a”或者“b”或者“c”都能匹配到。

还有那个“^”，在方括号里面的时候，它就变成了“反着来”的意思。

比如说“[^abc]”，就是除了“a”“b”“c”之外的任何字符。

这就像一个叛逆的小娃娃，专门和里面的字符对着干。

要是说匹配数字呢，“\d”就很好记啦，你就想成是“digit（数字）”的缩写，它就是专门匹配数字的。

那要是想匹配非数字呢，“\D”就闪亮登场啦，它和“\d”就是相反的。

对于字母和数字的组合，“\w”就像是个小收纳盒，它能匹配字母、数字或者下划线。

你就想象它把这些都打包在一起了。

“\W”呢，自然就是和它相反的啦。

宝子，你看这么想的话，正则表达式是不是就没那么可怕啦？其实就把它当成是一群有个性的小卡通人物，每个都有自己独特的本事，记起来就容易多啦。

咱多玩几次，多试几次，慢慢就熟练掌握这个正则表达式的小世界啦。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

元字符
描述
\
将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。
^
匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。
\b
匹配一个单词边界，也就是指单词和空格间的位置（即正则表达式的“匹配”有两种概念，一种是匹配字符，一种是匹配位置，这里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B
匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
[a-z]
字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围;如果出字符组的开头,则只能表示连字符本身.
[^a-z]
负值字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
\r
匹配一个回车符。等价于\x0d和\cM。
\s
匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S
匹配任何可见字符。等价于[^ \f\n\r\t\v]。
\t
匹配一个制表符。等价于\x09和\cI。
\v
匹配一个垂直制表符。等价于\x0b和\cK。
\w
匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”，这里的"单词"字符使用Unicode字符集。
\W
匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn
匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num
匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字符。
\n
标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm
标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
{n,m}
m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?
当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。
{n}
n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。
{n,}
n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
\cx
匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。
\d
匹配一个数字字符。等价于[0-9]。
\D
匹配一个非数字字符。等价于[^0-9]。
\f
匹配一个换页符。等价于\x0c和\cL。
\n
匹配一个换行符。等价于\x0a和\cJ。
.点
匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符，请使用像“[\s\S]”的模式。
(pattern)
匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“$”或“$”。
$
匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。
*
匹配前面的子表达式任意次。例如，zo*能匹配“z”，“zo”以及“zoo”。*等价于{0,}。
+
匹配前面的子表达式一次或多次(大于等于1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1,}。
(?<=pattern)
反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)
反向否定预查，与正向否定预查类似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。

将$和$之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用\1到\9的符号来引用。
|
将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him|her)匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。
(?:pattern)
匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。
(?=pattern)
正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
x|y
匹配x或y。例如，“z|food”能匹配“z”或“food”或"zood"(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。
[xyz]
字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]
负值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”。
(?!pattern)
正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。
\nml
如果n为八进制数字（0-7），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un
匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。
\< \>
匹配词（word）的开始（\<）和结束（\>）。例如正则表达式\<the\>能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。
+
匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。
?
匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。
{i} {i,j}
匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3}能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式[0-9]{4,6}匹配连续的任意4个、5个或者6个数字