matlab-正则表达式字符串匹配

matlab-正则表达式字符串匹配regexp和regexpi都是对正则表达式进行匹配，返回位置

>> sss='abc dasdf eewww'

sss =

abc dasdf eewww

>> regexpi(sss,'a.*')

ans =

>> regexpi(sss,'c.*')

ans =

>> regexpi(sss,'2.*')

ans =

[]

>> regexpi(sss,'www.*')

ans =

regexpi不分大小写， regexpi区分大小写

>> regexpi(sss,'WWW.*')

ans =

>> regexp(sss,'WWW.*')

ans =

[]

>> regexp(sss,'www.*')

ans =

匹配并替换

>> regexprep(sss,'www','aa') ans =

abc dasdf eeaa

正则表达式常用发发总结

//判断输入内容是否为空 function IsNull(){ var str = document.getElementById('str').value.trim(); if(str.length==0){ alert('对不起，文本框不能为空或者为空格!'); //请将“文本框”改成你需要验证的属性名称! } } //判断日期类型是否为YYYY-MM-DD格式的类型 function IsDate(){ var str = document.getElementById('str').value.trim(); if(str.length!=0){ var reg = /^(\d{1,4})(-|\/)(\d{1,2})\2(\d{1,2})$/; var r = str.match(reg); if(r==null) alert('对不起，您输入的日期格式不正确!'); //请将“日期”改成你需要验证的属性名称! } } //判断日期类型是否为YYYY-MM-DD hh:mm:ss格式的类型 function IsDateTime(){ var str = document.getElementById('str').value.trim();

if(str.length!=0){ var reg = /^(\d{1,4})(-|\/)(\d{1,2})\2(\d{1,2}) (\d{1,2}): (\d{1,2}):(\d{1,2})$/; var r = str.match(reg); if(r==null) alert('对不起，您输入的日期格式不正确!'); //请将“日期”改成你需要验证的属性名称! } } //判断日期类型是否为hh:mm:ss格式的类型 function IsTime() { var str = document.getElementById('str').value.trim(); if(str.length!=0){ reg=/^((20|21|22|23|[0-1]\d)\:[0-5][0-9])(\:[0-5][0-9])?$/ if(!reg.test(str)){ alert("对不起，您输入的日期格式不正确!"); //请将“日期”改成你需要验证的属性名称! } } } //判断输入的字符是否为英文字母

词法分析小结

词法分析小结词法分析是编译器工作的第一阶段，它的工作就是从输入（源代码）中取得token，以作为parser（语法分析）的输入，一般在词法分析阶段都会把一些无用的空白字符（whitespace，即空格、tab和换行）以及注释剔除，以降低下一步分析的复杂度，词法分析器一般会提供一个gettoken()这样的方法，parser可以在做语法分析时调用词法分析器的这个方法来得到下一个token，所以词法分析器并不是一次性遍历所有源代码，而是采取这种on-demand的方式：只在parser需要时才工作，并且每次只取一个token。 token和lexeme 首先，token不等于lexeme。token和lexeme的关系就类似于面向对象语言中“类”和“实例”（或“对象”）之间的关系，这个用中文不知该如何解释才好，比如语言中的变量a和b，它们都属于同一种token：identifier，而a的lexeme是”a”，b则是”b”，而每个关键字都是一种token。token可以附带有一个值属性，例如变量a，当调用词法分析器的gettoken()时，会返回一个identifier类型的token，这个token带有一个属性“a”，属性可以是多样的，例如表示数字的token

可以带有一个表示数字值的属性，它是整型的。如下代码： intage=23; intcount=50; 可以依次提取出8个token：int(值为”int”)，id(值为”age”)，assign(值为”=”)，number(值为整型数值23)，int(值为”int”)，id(值为”count”)，assign(值为”=”)，number(值为50) 正则表达式正则表达式可以用来描述字符串模式，例如我们可以用digit+来表示number的token，其中digit表示单个数字（这里说正则表达式并不完全和实现的正则引擎所识别的正则表达式等价，这里只是为了描述问题而已）。然而像c语言的的多行注释，用正则表达式来描述就比较麻烦，此时更倾向于直接用有穷自动机（finiteautomaton）来描述，因为用它来描述非常直观且很容易。

正则表达式

1.验证用户名和密码：（"^[a-zA-Z]\w{5,15}$"）正确格式："[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位； 2.验证电话号码：（"^(\d{3,4}-)\d{7,8}$"）正确格式：xxx/xxxx-xxxxxxx/xxxxxxxx； 3.验证手机号码："^1[3|4|5|7|8][0-9]\\d{8}$"； 4.验证身份证号（15位或18位数字）："\d{14}[[0-9],0-9xX]"； 5.验证Email地址：("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$")； 6.只能输入由数字和26个英文字母组成的字符串：("^[A-Za-z0-9]+$")； 7.整数或者小数：^[0-9]+([.][0-9]+){0,1}$ 8.只能输入数字："^[0-9]*$"。 9.只能输入n位的数字："^\d{n}$"。 10.只能输入至少n位的数字："^\d{n,}$"。 11.只能输入m~n位的数字："^\d{m,n}$"。 12.只能输入零和非零开头的数字："^(0|[1-9][0-9]*)$"。 13.只能输入有两位小数的正实数："^[0-9]+(\.[0-9]{2})?$"。 14.只能输入有1~3位小数的正实数："^[0-9]+(\.[0-9]{1,3})?$"。 15.只能输入非零的正整数："^\+?[1-9][0-9]*$"。 16.只能输入非零的负整数："^\-[1-9][0-9]*$"。 17.只能输入长度为3的字符："^.{3}$"。 18.只能输入由26个英文字母组成的字符串："^[A-Za-z]+$"。 19.只能输入由26个大写英文字母组成的字符串："^[A-Z]+$"。 20.只能输入由26个小写英文字母组成的字符串："^[a-z]+$"。 21.验证是否含有^%&',;=?$\"等字符："[%&',;=?$\\^]+"。 22.只能输入汉字："^[\u4e00-\u9fa5]{0,}$"。 23.验证URL："^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。 24.验证一年的12个月："^(0?[1-9]|1[0-2])$"正确格式为："01"～"09"和"10"～"12"。 25.验证一个月的31天："^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为；"01"～"09"、"10"～"29"和“30”~“31”。 26.获取日期正则表达式：\\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日? 评注：可用来匹配大多数年月日信息。 27.匹配双字节字符(包括汉字在内)：[^\x00-\xff] 评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1） 28.匹配空白行的正则表达式：\n\s*\r 评注：可以用来删除空白行 29.匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? /> 评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力 30.匹配首尾空白字符的正则表达式：^\s*|\s*$

正则表达式

本文分十四个类别对正则表达式的意义进行了解释，这十四各类别是：字符/字符类/预定义字符类/POSIX字符类/https://www.360docs.net/doc/e713450048.html,ng.Character类/Unicode块和类别的类/边界匹配器/Greedy数量词/Reluctant数量词/Possessive数量词/Logical运算符/Back引用/引用/特殊构造。 1.1.字符 x 字符 x。例如a表示字符a \\ 反斜线字符。在书写时要写为\\\\。（注意：因为java在第一次解析时把\\\\解析成正则表达式\\，在第二次解析时再解析为\，所以凡是不是1.1列举到的转义字符，包括1.1的\\,而又带有\的都要写两次） \0n 带有八进制值 0的字符 n (0 <= n <= 7) \0nn 带有八进制值 0的字符 nn (0 <= n <= 7) \0mnn 带有八进制值 0的字符 mnn（0 <= m <= 3、0 <= n <= 7） \xhh 带有十六进制值 0x的字符 hh \uhhhh 带有十六进制值 0x的字符 hhhh \t 制表符 ('\u0009') \n 新行（换行）符 ('\u000A') \r 回车符 ('\u000D') \f 换页符 ('\u000C') \a 报警 (bell) 符 ('\u0007') \e 转义符 ('\u001B') \cx 对应于 x 的控制符 1.2.字符类 [abc] a、b或 c（简单类）。例如[egd]表示包含有字符e、g或d。 [^abc] 任何字符，除了 a、b或 c（否定）。例如[^egd]表示不包含字符e、g或d。 [a-zA-Z] a到 z或 A到 Z，两头的字母包括在内（范围） [a-d[m-p]] a到 d或 m到 p：[a-dm-p]（并集） [a-z&&[def]] d、e或 f（交集） [a-z&&[^bc]] a到 z，除了 b和 c：[ad-z]（减去） [a-z&&[^m-p]] a到 z，而非 m到 p：[a-lq-z]（减去） 1.3.预定义字符类(注意反斜杠要写两次，例如\d写为\\d) . 任何字符（与行结束符可能匹配也可能不匹配） \d 数字：[0-9] \D 非数字： [^0-9] \s 空白字符：[ \t\n\x0B\f\r] \S 非空白字符：[^\s] \w 单词字符：[a-zA-Z_0-9] \W 非单词字符：[^\w] 1.4.POSIX 字符类（仅 US-ASCII)(注意反斜杠要写两次，例如\p{Lower}写为\\p{Lower})

C#利用正则表达式实现字符串搜索

C#利用正则表达式实现字符串搜索 2005-08-04 22:27 作者：张志远来源：天极网【简介】本文给出了在C#下利用正则表达式实现字符串搜索功能的方法，通过对.NET框架下的正则表达式的研究及实例分析，总结了正则表达式的元字符、规则、选项等。加入收藏设为首页 -------------------------------------------------------------------------------- 3、.NET 框架的正则表达式类下面通过介绍 .NET 框架的正则表达式类，熟悉一下.NET框架下的正则表达式的使用方法。 3.1 Regex 类表示只读正则表达式 Regex 类包含各种静态方法，允许在不显式实例化其他类的对象的情况下使用其他正则表达式类。以下代码示例创建了 Regex 类的实例并在初始化对象时定义一个简单的正则表达式。请注意，使用了附加的反斜杠作为转义字符，它将 \s 匹配字符类中的反斜杠指定为原义字符。 Regex r; // 声明一个 Regex类的变量 r = new Regex("\\s2000"); // 定义表达式 3.2 Match 类表示正则表达式匹配操作的结果以下示例使用 Regex 类的 Match 方法返回 Match 类型的对象，以便找到输入字符串中第一个匹配。此示例使用 Match 类的 Match.Success 属性来指示是否已找到匹配。 Regex r = new Regex("abc"); // 定义一个Regex对象实例 Match m = r.Match("123abc456"); // 在字符串中匹配 if (m.Success) {

常用正则表达式

1. 平时做网站经常要用正则表达式，下面是一些讲解和例子，仅供大家参考和修改使用： 2. "^\d+$"//非负整数（正整数+ 0） 3. "^[0-9]*[1-9][0-9]*$"//正整数 4. "^((-\d+)|(0+))$"//非正整数（负整数+ 0） 5. "^-[0-9]*[1-9][0-9]*$"//负整数 6. "^-?\d+$"//整数 7. "^\d+(\.\d+)?$"//非负浮点数（正浮点数+ 0） 8. "^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"//正浮点数 9. "^((-\d+(\.\d+)?)|(0+(\.0+)?))$"//非正浮点数（负浮点数+ 0） 10. "^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"//负浮点数 11. "^(-?\d+)(\.\d+)?$"//浮点数 12. "^[A-Za-z]+$"//由26个英文字母组成的字符串 13. "^[A-Z]+$"//由26个英文字母的大写组成的字符串 14. "^[a-z]+$"//由26个英文字母的小写组成的字符串 15. "^[A-Za-z0-9]+$"//由数字和26个英文字母组成的字符串 16. "^\w+$"//由数字、26个英文字母或者下划线组成的字符串 17. "^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"//email地址 18. "^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"//url 19. /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日 20. /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年 21. "^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil 22. /^((\+?[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))?([0-9]{7,8})(\-[0-9]+)?$/ //电话号码 23. "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}| 1dd|2[0-4]d|25[0-5])$" //IP地址 24. 25. 匹配中文字符的正则表达式：[\u4e00-\u9fa5] 26. 匹配双字节字符(包括汉字在内)：[^\x00-\xff] 27. 匹配空行的正则表达式：\n[\s| ]*\r 28. 匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/ 29. 匹配首尾空格的正则表达式：(^\s*)|(\s*$) 30. 匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 31. 匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 32. 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 33. 匹配国内电话号码：(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 34. 匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$ 35. 36. 37. 元字符及其在正则表达式上下文中的行为：

java自我总结

Java基础部分复习： 1.Html/css: 什么是web应用？其实web应用就是一种标准化的c/s应用，即使用 “标准化”的客户端(浏览器)，“标准化"的服务器(web 服务器，比如tomcat)，然后，使用“标准化”的协议( http协议)进行通讯的程序。相对于以前的c/s应用，web应用最大的优点是：客户端不需要单独安装，开发相对简单(不需要再开发通讯相关的代码)。 1、html的基础知识 1)什么是html? hypertext markup language(超文本标记语言), 是一种用来设计页面的标记语言，用html标记编写的文件，不需要编译，直接由浏览器来解释执行。 2)如何写一个html文件? step1,写一个以.html或者.htm为后缀的文件。 step2,在该文件里面，添加如下的内容： html标记以及标记之间的内容(文本,css样式,javascript 脚本等等) a, head标记 head标记里面放置的内容一般用于描述 html文件，与显示的内容一般无关 head标记里，可以放置以下几个标记: :标题 <meta>:元标记 <meta http-equiv="content-type" content="text/html;charset=gbk"> <style>:定义内部样式 <link>:引入外部样式 <script>:引入外部的javascript脚本 b, body标记 body标记里的内容与显示相关。 2、几个重点的标记 1)链接 a, 链接的基本语法 <a href="链接地址" target="">链接的描述</a> href属性：指定一个地址，当点击链接的描述时，浏览器会向该地址发请求。 target属性：在哪一个窗口打开。 _blank:在一个新窗口中打开。 _self: 是缺省值,在当前窗口打开。 title属性:链接提示。 b,使用图片作为链接 <a href=""><img src=""/></a> c,使用链接发送邮件 <a href="mailto:eric@https://www.360docs.net/doc/e713450048.html,?subject=hello"></a> d,使用锚点(在页面内部跳转) step1,定义锚点 <a name="top"></a> step2,跳转 <a href="#top"></a> e,使用图片区域作为链接 step1,定义一个热点 <map name="Map"> <area shape="rect" coords="407,20,560,77" href="qy.html"> <area shape="rect" coords="580,22,734,76" href="gr.html"> </map></p><h2>Excel中使用正则表达式</h2><p>Excel另类条件化格式 1 前言我们知道，Excel的条件化格式可以根据单元个的内容来设置整个单元格的格式。如图1中的C列，当单元格的内容为“结束”时，字体颜色为绿色，为“进行中”时，颜色为黄色。但如果我们想把B列的部分特定文字(如日期2012-3-4)设置成不同的字体和颜色， Excel的条件化格式工具是不能实现的，需要另辟蹊径。图1 2 实现过程 2.1 目标实现B列单元格中日期字符串的字体设置成“Arial Black”字体，颜色为红色。 2.2 设计思路 Excel的VBA编程功能很强大，可以轻松实现上述目标。程序的设计思路是：找到日期字符串，然后设置字体格式。本例中利用了正则表达式来寻找日期字符串，通过Characters对象的Font属性来设置字符串的格式。 2.3 正则表达式我们在处理文本时，经常会遇到一些满足某种规则的字符串。比如，一个无符号的整数由一连串的数字构成，本例中的日期是满足“整数-整数-整数”规则的字符串。正则表达式就是用来指定这种规则的。如果某个字符串满足正则表达式指定的规则，则称该字符串为正则表达式的一个“匹配串”。正则表达式中用\d 来匹配单个数字，用\d+来匹配连续的多个数字，这样本例中用"\d+-\d+-\d+"就可以匹配日期字符串。Excel的VBA可以通过引用vbscript中的正则标定式对象"vbscript.regexp"来使用正则表达式。 2.4 Characters函数语法：Characters(start, length) 参数：Start是指从第几个字符处开始选择，length是要返回的字符数。返回：Characters对象。用来控件文本中某一范围的字符串。例如，通过Characters对象的Font属性可以设置字符串的字体格式。 2.5程序代码把FormatClick程序和“更新”按钮的Click事件关联起来，只要点击“更新”按钮就可以更新日期的字体的名称和颜色了。具体程序如下: Sub FormatClick() '声明正则表达式对象 Dim RegEx As Object '引用正则标定式对象 Set RegEx = CreateObject("vbscript.regexp")</p><h2>正则表达式.DOC</h2><p>正则表达式第一部分： ----------------- 正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。支持多种平台正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group 组织认定。正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML和XML，这些采纳通常只是整个标准的一个子集。比你想象的还要普通随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。正则表达式101 很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。</p><h2>前端常用的20个字符串方法和使用方式</h2><p>前端常用的20个字符串方法和使用方式主要给大家整理下js中常用的字符串的方法和其使用方式，希望对大家今后的工作有所帮助。 1.charAt(x） charAt(x)返回字符串中x位置的字符，下标从0开始。 //charAt(x) var myString='jQuery FTW!!!'; console.log(myString.charAt(7)); //output:F 2.charCodeA(x) charCodeAt(x)返回字符串中x位置处字符的unicode值。t(x) //charCodeAt(position) var message="jquery4u" //alert"113" alert(message.charCodeAt(1) 3.concat(v1,v2..) concat()方法用于连接两个或多个字符串，此方法不改变现有的字符串，返回拼接后的新的字符串。 //concat(v1,v2,..) var message="Sam" var final=message.concat("is a","hopeless romantic.") //alerts"Sam is a hopeless romantic."</p><p>alert(final) 4.fromCharcode(c1,c2) fromCharcode(c1,c2)转换一组Unicode值转换为字符。 //fromCharCode(c1,c2,...) console.log(String.fromCharCode(97,98,99,120,121,122)) //output:abcxyz console.log(String.fromCharCode(72,69,76,76,79)) //output:HELLO 5.indexOf(substr,[start]) indexOf方法搜索并(如果找到)返回字符串中搜索到的字符或子字符串的索引。如果没有找到，则返回-1。Start是一个可选参数，指定字符串中开始搜索的位置，默认值为0。 //indexOf(char/substring) var sentence="Hi,my name is Sam!" if(sentence.indexOf("Sam")!=-1) alert("Sam is in there!") https://www.360docs.net/doc/e713450048.html,stIndexOf(substr,[start]) lastIndexOf()方法返回指定文本在字符串中最后一次出现的索引,如果未找到，则返回-1。“Start”是一个可选参数，指定字符串中开始搜索的位置,默认值为string.length-1。 //lastIndexOf(substr,[start]) var myString='javascript rox';</p><h2>编译原理知识点总结哈工程</h2><p>第一章概论 1.什么是编译器？输入输出？编译器是将一种语言翻译为另一种语言的计算机程序。输入：源语言( source language) 编写的程序输出：目标语言( target language ) 编写的程序。 2.汇编语言的优缺点优点：汇编语言大大提高了编程的速度和准确度缺点：编写起来也不容易,阅读和理解很难；而且汇编语言的编写严格依赖于特定的机器，所以为一台计算机编写的代码在应用于另一台计算机时必须完全重写。 3.什么是解释器？与编译器的区别？解释程序是如同编译器的一种语言翻译程序。与编译器的区别：它立即执行源程序而不是生成在翻译完成之后才执行的目标代码。 4.乔姆斯基分类结构有几种文法？名称？相互关系？ 4种名称： 0型无限制文法 1型上下文相关文法 2型上下文无关文法 3型正则文法相互关系：其中的每一个都是其前者的专门化。 5.什么是扫描器？扫描器的功能是什么？扫描器就是语法分析程序。功能：依据词法规则，分析由字符组成的源程序，把它分割为一个一个具有独立意义的最小语法单位，即单词。 6.什么是编辑器？IDE中编辑器的新功能编译器通常接受由任何生成标准文件(例如ASCII 文件)的编辑器编写的源程序。 IDE 中编辑器的新功能：尽管编辑器仍然生成标准文件，但会转向正被讨论的程序设计语言的格式或结构。这样的编辑器称为基于结构的，且它早已包括了编译器的某些操作；因此，程序员就会在程序的编写时而不是在编译时就得知错误了。从编辑器中也可调用编译器以及与它共用的程序，这样程序员无需离开编辑器就可执行程序。</p><p>7.什么是调试器，与编译器的关系调试程序是可在被编译了的程序中判定执行错误的程序。运行一个带有调试程序的程序与直接执行不同，这是因为调试程序保存着所有的或大多数源代码信息(诸如行数、变量名和过程)。它还可以在预先指定的位置(称为断点)暂停执行，并提供有关已调用的函数以及变量的当前值的信息。为了执行这些函数，编译器必须为调试程序提供恰当的符号信息。 8.编译器有哪几个功能模块？各模块的功能及输入输出目标代码</p><h2>用正则表达式实现排版助手</h2><p>用正则表达式实现排版助手（GIDOT TYPESETTER）的部分排版功能 2009年08月06日星期四上午 08:42 副标题：用正则表达式实现段首缩进、修正换行、修正非段落换行、删除行尾空格、删除空行相信使用过排版助手的人应该都觉得这是一个好软件吧？不过，我对其中的“删除非段落换行”有一个不满的地方 [https://www.360docs.net/doc/e713450048.html,/gevolution90/blog/item/34cabb7fc2b8710128388ada. html]。于是才引发出这一篇文章。 *如果你还未有在windows下的正则表达式批量替换工具的话，推荐使用TextForever[https://www.360docs.net/doc/e713450048.html,/stronghorse/software/index.htm#Tex tForever]，很强大的文本整理工具 1.段首缩进：可以把每行（段）的前面格式化成指定的字符串，比如2个全角空格。正则：^[ ]*（？=[^\s]）你可以替换成2个全角空格或4个半角空格或你自己喜欢的任何字符串。 2.修正换行：有些文章一行紧接着一行，看起来有点不舒服，可以把每段内容段（有文字的段）之间的换行格式化成指定数量的换行比如双换行（两段之间空一行空行）。正则：[\r\n]+ 你可以替换成2个回车。 3.修正非段落换行：有点文章很变态的，它从文本内容中实现换行，比如：第一段的内容，内容，内容第一段第二行的内容内容内容。这样的换行，这对于资料的整理有点不利，所以，这个正则就是用来修正这样的换行的，把它们合并成一行，即一个段落。正则：^（。{25,}[^……“”！！：：？？]）\r\n 替换成：$1 把你认为不是段落结束的标点加入到那个中括号中，大括号中的“25”为作</p><h2>『总结』JS常用方法与片段</h2><p>『总结』JS常用方法与片段 1.javascript删除元素节点IE中有这样一个方法:removeNode()，这个方法在IE下是好使的，但是在Firefox等标准浏览器中就会报错了removeNode is not defined，但是在核心JS中有一个操作DOM节点的方法叫：removeChild()。我们可以先去找到要删除节点的父节点，然后在父节点中运用removeChild来移除我们想移除的节点。我们可以定义一个方法叫removeElement：function removeElement(_element){ var _parentElement = _element.parentNode; if(_parentElement){ _parentElement.rem oveChild(_element); }}2.js sort方法根据数组中对象的某一个属性值进行升序或者降序排列/**数组根据数组对象中的某个属性值进行排序的方法* 使用例子：newArray.sort(sortBy('number'),false) //表示根据number属性降序排列;若第二个参数不传递，默认表示升序排序* @param attr 排序的属性如number属性* @param rev true表示升序排列，false降序排序* */ sortBy: function(attr,rev){ //第二个参数没有传递默认升序排列if(rev == undefined){ rev = 1; }else{ rev = (rev) ? 1 : -1; }</p><p>return function(a,b){ a = a[attr]; b = b[attr]; if(a return rev * -1; } if(a > b){ return rev * 1; } return 0; } }3.charCodeAt()用法：charCodeAt() 方法可返回指定位置的字符的Unicode 编码。这个返回值是0 - 65535 之间的整数语法：stringObject.charCodeAt(index) index参数必填，表示字符串中某个位置的数字，即字符在字符串中的下标。注：字符串中第一个字符的下标是0。如果index 是负数，或大于等于字符串的长度，则charCodeAt() 返回NaN。例如：var str='Hello world!'document.write(str.charCodeAt(1))//结果：1014.js 页面刷新location.reload和location.replace的区别小结reload 方法，该方法强迫浏览器刷新当前页面。语法：location.reload([bForceGet]) 参数：bForceGet，可选参数，默认为false，从客户端缓存里取当前页。true, 则以GET 方式，从服务端取最新的页面, 相当于客户端点击F5(“刷新”)replace 方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，你不能通过“前进”和“后退”来</p><h2>正则表达式</h2><p>[23:39:35] 王尧说："^\d+$"//非负整数（正整数+ 0） "^[0-9]*[1-9][0-9]*$"//正整数 "^((-\d+)|(0+))$"//非正整数（负整数+ 0） "^-[0-9]*[1-9][0-9]*$"//负整数 "^-?\d+$"//整数 "^\d+(\.\d+)?$"//非负浮点数（正浮点数+ 0） "^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"//正浮点数 "^((-\d+(\.\d+)?)|(0+(\.0+)?))$"//非正浮点数（负浮点数+ 0） "^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"//负浮点数 "^(-?\d+)(\.\d+)?$"//浮点数 "^[A-Za-z]+$"//由26个英文字母组成的字符串 "^[A-Z]+$"//由26个英文字母的大写组成的字符串 "^[a-z]+$"//由26个英文字母的小写组成的字符串 "^[A-Za-z0-9]+$"//由数字和26个英文字母组成的字符串 "^\w+$"//由数字、26个英文字母或者下划线组成的字符串 "^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"//email地址 "^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"//url /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ //年-月-日 /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ //月/日/年 ^(\w+((-\w+)|(\.\w+))*)\+\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+$ //Emil "(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //电话号码 "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1, 2}|1dd|2[0-4]d|25[0-5])$" //IP地址匹配中文字符的正则表达式：[\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内)：[^\x00-\xff] 匹配空行的正则表达式：\n[\s| ]*\r 匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配首尾空格的正则表达式：(^\s*)|(\s*$) 匹配Email地址的正则表达式：^(\w+((-\w+)|(\.\w+))*)\+\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+$ 匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配国内电话号码：(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$ 漢字 Private Ps_KanjiRegex As String = "\u00A0-\u303F\u3200-\u33CF\u4E00-\uFF60\uFFA0-\uFFE5" ''入力可能漢字のコード（正規表現チェック用）</p><h2>正则表达式在垂直搜索引擎中的应用</h2><p>作者简介：张斌（1977-），硕士，讲师，研究方向：电子商务专业方向。收稿日期：2010-05-06 正则表达式在垂直搜索引擎中的应用张斌（浙江越秀外国语学院，绍兴312000）摘要：采用聚焦爬虫可以提高搜索引擎的检索效率，聚焦爬虫经常使用正则表达式来进行有效的信息检索，着重分析了网页检索中常用的正则表达式，为搜索引擎的构建提供帮助。关键词：正则表达式；聚焦爬虫；信息检索中图分类号：TP3 文献标识码：B 文章编码：1672－6251（2010）08－0162－02 Application of Regular Expressions in Vertical Search Engine ZHANG Bin (Zhejiang Yuexiu Foreign Language College,Shaoxing 312000) Abstract:Because focused crawler system can promote the efficiency of search engine and regular expression could used to get quick and efficient search.In this paper,regular expression used in web page index was analyzed for providing useful help for researcher in vertical search engine. Key words:regular expressions;focuses crawler;information retrieval 页面内容提取、分词、自然语言处理是聚焦爬虫的主要工作。在内容提取中采用正则表达可以明显提高效能，已在许多搜索程序中广泛应用。以下列举几个常用的正则表达，并分析其在聚焦爬虫中的应用方法，以供同行参考。 1正则表达式与文档内容提取正则表达式是一种编程语言中使用的特殊代码模式，可用其验证、查找、替换与划分文本内容。聚焦爬虫往往通过对主题网页的学习提取主题特征的正则表达式，以指导爬虫过滤与主题不相符的网页文本[4]。正则表达式基本技巧如下：（1）匹配多个字符之一。如匹配拼写错误的fac - tory ，可用:f [ae]ct [ou]ry ；（2）匹配文本行开始与结束。如以c 开始，a 结束，可用:^a.*b$；（3）匹配单词。如找dog ，可用:\bdog\b ；（4）Unicode 字母。如匹配中文，可用:[\u3400- \u4DB5\u4E00-\u9fa5]；（5）分组和捕获。如匹配年月日相同的日期，可用:\b\d\d (\d\d)-\1-\1\b ，其中1表示捕获分组1，即 (\d\d)中的内容，捕获分组可以表示临时存取的区域，用于引用和替换；（6）重复匹配。完整HTML 文件可用： <html>.*?<head>.*?<title>.*?.*.*?]*>.*>.*?. 其中：*表示一个或多个，?表示0个或一个，^表示否定。 Html 文件也可使用NekoHTML 做标签补偿，用HtmlParser 等解析程序将网页转换成一个个串联的Node ，用正则式过滤脚本、注释等标签，提取表格等结构化信息，实现网页去噪。其中包括为网页建立网站风格树和计算节点重要性来确定噪声元素。 2正则表达式编程使用C#、Java 等编程语言的步骤如下：①要先要导入函数库，其中C#用using System.Text.RegularEx - pressions ；Java 用import java.util.regex.*；②创建正则表达式对象，C#用Regex regexObj =new Regex (" regex pattern")；Java 用Pattern regex=https://www.360docs.net/doc/e713450048.html,pile ("regex pattern");Matcher regexMatcher =regex.matcher (subjectString)；③在网页信息提取中，拆分字符串、逐行查找为常用功能，C#代码如下：string []spli - tArray=Regex.Split (subjectString,"<[^<>]*>>")，其中

C#常用类总结

Array类 1.用括号声明数组是C#中使用Array类的记号。在后台使用C#语法，会创建一个派生于抽象基类Array的新类。这样，就可以使用Array 类为每个C#数组定义的方法和属性了。 2.Array类实现了IEumerable、ICollection和IList接口，以访问和枚举数组中的元素。由于用定制数组创建的类派生于Array抽象类，所以能使用通过数组变量执行的接口中的方法和属性。 a)IEumerable接口是由foreach语句用于迭代数组的接口。 b)ICollection接口派生于IEumerable接口，这个接口主要用于确定集合中的元素个数，或用于同步。 c)IList接口派生于ICollection接口，Array类实现IList接口的主要原因是IList接口定义了Item属性，以使用索引器访问元素。 3.Array类包含的如下属性和方法可以用于每个数组实例。

System.Text.String类 1.System.String是一个类，专门用于存储字符串，允许对字符串进行许多操作。由于这种数据类型非常重要，C#提供了它自己的关键字和相关的语法，以便于使用这个类来处理字符串。 2.使用“+”运算符重载可以连接字符串。 3.C#还允许使用类似于索引器的语法来提取指定的字符。 4.这个类可以完成许多常见的任务，例如替换字符、删除空白和把字母变成大写形式等。可用的方法如下：

System.Text.StringBuilder类 1.String 对象是不可改变的。每次使用System.String 类中的方法之一时，都要在内存中创建一个新的字符串对象，这就需要为该新对象分配新的空间。在需要对字符串执行重复修改的情况下，与创建新String 对象相关的系统开销可能会非常昂贵。如果要修改字符串而不创建新的对象，则可以使用System.Text.StringBuilder 类。 2.在使用String类构造一个字符串时，要给它分配足够的内存来保存字符串，但StringBuilder通常分配的内存会比需要的更多。开发人员可以选择显式指定StringBuilder要分配多少内存，但如果没有显式指定，存储单元量在默认情况下就根据StringBuilder初始化时的字符串长度来确定。它有两个主要的属性： 1)Length指定字符串的实际长度. 2)Capacity是字符串占据存储单元的最大长度。 3.主要的StringBuilder方法：