IK Analyzer中文分词工具包如何修改扩展词典和停止词典

IK Analyzer中文分词工具包如何修改扩展词典和停止词典
IK Analyzer中文分词工具包如何修改扩展词典和停止词典

IK Analyzer中文分词工具包如何修改扩展词典和停止词典

目录

IK Analyzer中文分词工具包如何修改扩展词典和停止词典 (1)

1. IK Analyzer概念 (1)

2. 配置文件 (2)

3. 配置扩展词典ext.dic (3)

4. 配置停止词典stopword.dic (3)

5. 测试效果 (4)

1.I K Analyzer概念

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer的结构如下图:

IK Analyzer 2012特性:

采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位,Sun JDK 1.6_29 64位普通pc 环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

2.配置文件

IKAnalyzer.cfg.xml 分词器扩展配置文件

ext.dic扩展词典

stopword.dic停止词典

在java项目中放置位置如下图:

备注:

【1】要把IKAnalyzer2012_u6.jar中的ext.dic删除掉。

【2】修改完配置文件后需要把Referenced Library中的IKAnalyzer2012_u6.jar删除掉,重新一次。如下图:

3.配置扩展词典ext.dic

ext.dic格式是无BOM的UTF-8格式,自己修改时可以直接替换成首行空一行的utf8格式文件,每个扩展词占一行。如下图:

4.配置停止词典stopword.dic

stopword.dic格式是无BOM的UTF-8格式,自己修改时可以直接替换成首行空一行的utf8格式文件,每个扩展词占一行。如下图:

5.测试效果

说明:

【1】由于扩展词典中包含:“色啊情”,“我是谁”,“诛仙诛仙2”,“梦幻诛仙梦幻诛”,“梦幻诛仙梦幻诛仙2”,所以分词后的结果中这些短语没有被切分。

【2】由于停止词典中包含“是”,所以切分后结果中不包含“是”

高中英语语法分类练习题8 分词

练习8 分词 () 1. __________ with the best students, I still have a long way to go. A. Having compared B. To compare C. Compared D. Compare () 2. The music of the film _________ by him sounds so ___________ . A. playing, exciting B. played, excited C. playing, excited D. played, exciting () 3. __________ against the coming hurricane, they dared not leave home. A. Warned B. Having warned C. To warn D. Warn () 4. In __________ countries, you can’t always make yourself _______ by speaking English. A. English-speaking, understand B. English-spoken, understand C. English-speaking, understood D. English-speaking, understood ()5. After _____________ the old man, the doctor suggested that he ___________ a bad cold. A. examining, should catch B. examined, had caught C. examining, had caught D. examined, catch () 6. _____________ , Tom jumped into the river and had a good time in it. A. Be a good swimmer B. Being a good swimmer C. Having been good swimmer D. To be a good swimmer ()7. ________ how to read the new words, I often look them up in the dictionary. A. Having not known B. Not to know C. Don’t know D. Not knowing ()8. As his parent, you shouldn’t have your child ___________ such a book. A. read B. to read C. reading D. be reading ()9. He returned from abroad ______________ that his mother had been badly ill. A. heard B. having been heard C. having phoned D. having been phoned

英语语法 -ing分词的用法

英语语法-ing分词的用法 ing分词的用法 1、-ing分词的构成 -ing分词是由动词原形加词尾-ing构成。-ing分词同样有时态和语态的变化,通常有下表几种形式(以do为例): 一般式完成式 主动形式doing 主动形式having done 被动形式being done 被动形式having been done -ing分词的否定形式是由not 加-ing分词构成。如: Not knowing his address, I could do nothing but stay at home and wait. 不知道他的地址,我只好在家里等着。 His not coming made all of us angry. 他没来使我们大家都很生气。 2. -ing分词的一般式和完成式: -ing分词的一般式表示和谓语动词所表示的动作同时进行的动作;完成式表示在谓语动词所表示的动作之前发生的动作。如: Being a student, he was interested in books. 作为一个学生,他对书本很感兴趣。 Not having studied his lessons very hard, he failed the examinations. 因为没有努力学习功课,他考试不及格。 3. -ing分词的被动式: -ing分词的被动式表示它的逻辑主语是-ing分词动作的承受者。根据-ing分词动作发生的时间,-ing分词的被动式有一般被动式(being done)和完成被动式(having been done)。如:The question being discussed is very important. 正在被讨论的问题很重要。 Having been criticized by the teacher, he gave up smoking. 被老师批评以后,他把烟戒了。 注意:在need, want, require, be worth等动词(短语)后,作宾语的-ing分词常用主动形式来表示被动含义。如: Your shoes need cleaning. = Your shoes need to be cleaned. 你的鞋需要清洗一下了。 This book is well worth reading. 这本书很值得一看。 4. -ing分词的语法作用 -ing分词一方面具有动词的性质,另一方面也相当于一个名词或形容词、副词,在句中可以作主语、表语、宾语、定语、状语和补语等。 1)–ing分词(短语)作主语: Laying eggs is the ant queen's full-time job. 产卵是蚁后的专职工作。 Saying is easier than doing. 说比做容易。 在下面两种结构中,-ing分词也作主语。 ①为了保持句子平衡,通常用作形式主语,而把真实主语放在句末。如: It is no use crying over spilt milk. 作无益的后悔是没有用的。 It's a waste of time arguing about it. 辩论这事是浪费时间。 ②在There is no结构中,通常用-ing分词。如: There is no joking about such matters. 这种事开不得玩笑。

考研英语语法分词解析(三)考研

三、分词的否定式 分词或分词短语表示否定意义时,将not置于分词之前,不能放在分词之后。 例句: Equipment not conforming to official safety standards has all been removed from the workshop. (2001年第24题) 分析:该句是简单句。not conforming to official safety standards是分词短语作后置定语修饰equipment。 译文:凡是不符合官方安全标准的设备都已经搬出了车间。 例句: Not having been destroyed by the heavy snow, our houses at last were kept perfect during last winter. 分析:该句是简单句。 Not having been destroyed by...在句中作状语表示原因,相当于because our houses had not been destroyed by...。 译文:由于没有遭到大雪的破坏,去年冬天我们的房子最终完好无损。 四、独立主格结构(Absolute Construction) 分词作状语时,分词的逻辑主语要与句子主语保持一致,即句子的主语便是它的逻辑主语,否则就会出现悬垂或荡空结构(前面已讲过),但有时分词有其独立的逻辑主语,即分词的逻辑主语与句子主语不一致,这就是独立主格结构。 (一)独立主格结构公式 逻辑主语A+分词(短语)+主B谓 在上述公式中,其中(逻辑主语+分词短语)属于独立主格结构,主谓是一完整句子,两者位置可以相互调换,A、B两主语不一致(A、B由名词或代词充当,有时也可在逻辑主语A 前加上介词with或without),如前面所述例句。 例句: All flights having been canceled because of the snowstorm, we decided to take the train. 分析: All flights...the snowstorm是独立主格结构部分, we decided...为一完整句子, all flights和we所指不一样,即分词的逻辑主语与句子主语不一致。另外,公式中分词短语也可用不定式、形容词等来代替。 (二)独立主格结构具体构成 1. 逻辑主语+分词(现在分词或过去分词)

hanlp中文分词器解读

中文分词器解析hanlp分词器接口设计:

提供外部接口: 分词器封装为静态工具类,并提供了简单的接口

标准分词是最常用的分词器,基于HMM-Viterbi实现,开启了中国人名识别和音译人名识别,调用方法如下: HanLP.segment其实是对StandardTokenizer.segment的包装。 /** * 分词 * * @param text 文本 * @return切分后的单词 */ publicstatic Listsegment(String text) { return StandardTokenizer.segment(text.toCharArray()); } /** * 创建一个分词器
* 这是一个工厂方法
* 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 * @return一个分词器 */ publicstatic Segment newSegment() }

publicclass StandardTokenizer { /** * 预置分词器 */ publicstaticfinalSegment SEGMENT = HanLP.newSegment(); /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(String text) { return SEGMENT.seg(text.toCharArray()); } /** * 分词 * @param text 文本 * @return分词结果 */ publicstatic Listsegment(char[]text) { return SEGMENT.seg(text); } /** * 切分为句子形式 * @param text 文本

高中英语语法:不定式和现在分词

高中英语语法:不定式和现在分词 一、不定式(to do的构成 1. 不定式的构成 不定式是由不定式符号to+动词原形构成,在某些情况下to也可省略。不定式一般有时式和语态的变化,通常有下表中的几种形式(以do为例: 主动式 被动式 一般式 to do to be done 完成式 to have done to have been done 进行式 to be doing / 完成进行式 to have been doing /

1 不定式的一般式 不定式的一般式所表示的动作通常与主要谓语的动作同时或几乎同时发生,或是在它之后发生。如: They invited us to go there this summer. 他们邀请我们今年夏天去那儿。He stood aside for me to pass. 他站到一边让我通过。 2 不定式的完成式 不定式的完成式所表示的动作在谓语所表示的动作之后发生,它在句中可作表语、状语、宾语,有时也可作主语、定语等。如: She seemed to have heard about this matter. 她似乎已听说过这件事。 I am sorry to have kept you waiting so long. 我很抱歉让你等了这么久。 I meant to have told you about it, but I happened to have an important thing to do. 我本来想告诉你这件事的,但我碰巧有一件重要的事要做。 It has been an honor for me to have traveled so much in your country. 对我来说,在你们国家旅行这么多地方是一件很荣幸的事情。 3 不定式的进行式 不定式的进行式表示正在进行的与谓语动词同时发生的动作。它在句中可以用作除谓语以外的所有成分。如: It’s nice of you to be helping us these days. 你真好,这些天一直帮我们。 He pretended to be listening to the teacher carefully. 他假装在认真地 听老师讲课。

英语语法:分词构句

分词构句 A.分词构句的形成 原则上,主要子句与分词构句主词一致 1.When I opened the door, I heard a strange sound. Opening the door, I heard a strange sound. 主次相同,省略; 连接词视情况省略 2.As I was ill, I couldn’t go to school. Being ill, I couldn’t go to school. B.分词构句的含义 a.表时间 意指when, while等 1.Seeing the accident, she began to cry. When she saw the accident, she began to cry. 2.Keeping him waiting outside, she did her shopping. do shopping在买, go shopping逛逛而已 While she kept him waiting outside, she did her shopping. b.表原因,理由 意指because, since, as等 1.Because he is a kind man, he is loved by everyone. Being a kind man, he is loved by everyone. 2.Because I didn’t know what to say, I remained silent.

Not knowing what to say, I remained silent. c.表附带状况 1.I ran all the way, and I arrived just in time. I ran all the way,arriving just in time. 2.I washed the dishes as I listen to my favorite music. I washed the dishes, listening to my favorite music. d.表条件if 1.If you turn left after the bank, you will see our house on you right. If turning left after the bank, you will see our house on you right. If 不可省 2.If you arrive earlier, you will have to wait for a while. If arriving earlier, you will have to wait for a while. e.表让步though, although 1.Though I admit (that) you’re right, I still can’t agree with you. Admitting you’re right, I stil l can’t agree with you. 子音+元音+子音 >双写加ing 2.Although he lives near my house, he seldom comes to see me.

中文自动分词技术

中文自动分词技术是以“词”为基础,但汉语书面语不是像西方文字那样有天然的分隔符(空格),而是在语句中以汉字为单位,词与词之间没有明显的界限。因此,对于一段汉字,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程词,就要应用到中文自动分词技术。下面依次介绍三种中文自动分词算法:基于词典的机械匹配的分词方法、基于统计的分词方法和基于人工智能的分词方法。 1、基于词典的机械匹配的分词方法: 该算法的思想是,事先建立词库,让它它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。由于汉字是单字成词的,所以很少使用最小匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词 a)、正向减字最大匹配法(MM) 这种方法的基本思想是:对于每一个汉字串s,先从正向取出maxLength 个字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。 b)、逆向减字最大匹配法(RMM ) 与正向减字最大匹配法相比,这种方法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。 机械匹配算法简洁、易于实现.其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。机械匹配算法实现比较简单,但其局限也是很明显的:效率和准确性受到词库

英语语法分词用法详解[英语语法详解:分词]

英语语法分词用法详解[英语语法详解:分词] 第八章分词 一.概念: 分词分为现在分词和过去分词两种,是一种非谓语动词形式 二.相关知识点精讲: 1.现在分词的用法: 1)做表语: Hewasveryamusing. Thatbookwasratherboring. 很多动词的现在分词都可以作表语: exciting,interesting,encouraging,disappointing,confusing ,touching,puzzling. 2)作定语: 上面所出现的现在分词都可以用作定语,修饰一个名词: Thatmusthavebeenaterrifyingexperience. Ifoundhimacharmingperson. 现在分词短语还可以放在名词的后面修饰名词,相当于一个定语从句: Thereareafewboysswimmingintheriver. Thereisacarwaitingoutside. 3)作状语: 现在分词短语可以表示一个同时发生的次要的或伴随的动作:

FollowingTom,westartedtoclimbthemountain. Openingthedrawer,hetookoutabox. Takingakeyoutofhispocket,heopenedthedoor. 现在分词短语还可以表示原因,相当于一个原因状语从句:Notknowingheraddress,wecouldn’tgetintouchwithher. Beingunemployed,hehasn’tgotmuchmoney. 现在分词短语还可以表示时间,相当于一个时间状语从句:Hearingthenews,theyalljumpedwithjoy. Returninghome,hebegantodohishomework. Jimhurthisarmwhileplayingtennis.

(英语语法)现在分词、过去分词和动名词的用法

现在分词和过去分词的用法 1)As Lily missed the bus, she was late for the class. Missing the bus, she was late for the class. 2)As the student was scolded by the teacher, she felt unhappy. scolded by the teacher, she felt unhappy. 一、现在分词 (一)现在分词的定义: 现在分词(Present Participle)(又称-ing形式、现在进行式) ,是分词的一种,由动词原形+ing形式组成。具有双重性,一面具有动词的特征,可以有自己的宾语和状语;另一面具有形容词和副词的特征,可以充当表语,定语,状语,补足语,可以表示主动或正在进行的动作,是非谓语动词的一种。 (二)现在分词的功能与用法: 1. 作定语 单个分词作定语时放在所修饰的名词前,分词短语作定语时放在后,并且名词与现在分词之间存有逻辑上的主谓关系。一般都可以转化为一个进行时的定语从句。 e.g. a running boy→ a boy who is running an old man standing there →an old man who is standing there 例如: The report indicated that 45% of students were in jobs not specific qualifications. A. requiring B. to be required C. being required D. to have required 2. 作补语 只有两类动词可以加现在分词作宾补: 1)感官动词:see hear watch feel notice observe find listen to look at 2)使役动词:have get make 注意:要想用现在分词来作宾补,只能是用于这些词后,但是并不代表这些动词后的宾补形式都要用现在分词(有些后面可以加不带to的不定式作宾补)。 eg. I saw Thomas playing computer games. Don’t have the students studying all day. 注意:宾语与作宾补的现在分词之间存在逻辑上的主谓关系,即宾语是现在分词动作的发出者。 3. 作表语 (1) 分词作表语有两种情况,一种是现在分词作表语,一种是过去分词作表语,究竟是用现在分词还是用过去分词作表语是学生们经常困惑的地方。一般来说,表示心理状态的动词如excite,interest等都是及物动词,汉语意思不是“激动”,“高兴”,而是“使激动”、“使高兴”,因而现在分词应该是“令人激动的”、“令人高兴的”,过去分词则是“感到激动的”和“感到高兴的”。所以,凡表示“令人……的”都是-ing形式,凡是表示“感到……”都用-ed形式。这类词常见的有: interesting 使人感到高兴— interested感到高兴的 exciting令人激动的— excited感到激动的

IKAnalyzer中文分词器V3.2.3使用手册

IKAnalyzer中文分词器 V3.2使用手册 目录 1.IK Analyzer3.X介绍 (2) 2.使用指南 (5) 3.词表扩展 (12) 4.针对solr的分词器应用扩展 (14) 5.关于作者 (16)

1.IK Analyzer3.X介绍 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer3.X则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.1IK Analyzer3.X结构设计

1.2IK Analyzer3.X特性 ?采用了特有的“正向迭代最细粒度切分算法“,具有80万字/秒的高速处理能力。 ?采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。?优化的词典存储,更小的内存占用。支持用户词典扩展定义 ?针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。 1.3分词效果示例 文本原文1: IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。 分词结果: ikanalyzer|是|一个|一|个|开源|的|基于|java|语言|开发|的|轻量级|量级|的|中文|分词|工具包|工具|从|2006|年|12|月|推出|1.0 |版|开始|ikanalyzer|已经|推出|出了|3|个大|个|版本 文本原文2: 永和服装饰品有限公司 分词结果: 永和|和服|服装|装饰品|装饰|饰品|有限|公司 文本原文3:

英语语法 分词

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 英语语法分词 高三英语总复习语法系列训练分词 1/ 20

一、形式△ 现在分词:现在分词:主动形式一般式完成式 doing having done被动形式being done having been done△ 过去分词只有一种形式。 过去分词只有一种形式。

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 二、功能1.作表语 2.作定语 3.作状语 4.作宾语补足语 5. 现在分词的完成形式和被动形式 6. 独立结构 3/ 20

1.作表语。 现在分词多表示主语所具有的特征或属性;过去分词作表语。 现在分词多表示主语所具有的特征或属性;多表示主语所处的状态,多表示主语所处的状态,如: The news was exciting. The situation is encouraging. She looked disappointed. He appeared satisfied with my answer. He seemed quite delighted at the idea. Don’t get excited. 注①:已经成为形容词的分词,可以用 very 修饰;没有完全成为已经成为形容词的分词,修饰;形容词的分词宜用 much 或 quite,有时也可用,有时也可用very much,如:,I’m very much pleased. He’s very much worried about his health.

中文分词技术

一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 下面简要介绍几种常用方法: 1).逐词遍历法。 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。 2).基于字典、词库匹配的分词方法(机械分词法) 这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下: (一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

英语语法:分词复合结构

英语语法:分词复合结构 某些分词独立结构由介词with或without引出,形式是: with(或without)+名词+分词 这种结构在英语中称为“分词复合结构”。它在句中可作定语和 状语,在科技文章中这种结构经常用来作为补充说明。 (1)The sun is a huge ball of gas, with the linear diameter of its “apparent disk” being 864,000 miles. 太阳是 一个巨大的球状气团,它那“明亮的圆盘”的直径为864,000英里。(作定语,说明ball)。 (2)The density of air varies directly as pressure, with temperature being constant. 若温度不变,则空气密度的变化 与压力乘正比。 (3)Maxwell pointed out that an object may be hot without the motion in it being visible. 麦克斯维尔指出,即使 看不见物体内部德分子运动,物体也可能是热的。(让步) (4)If something is moving, with nothing touching it, it will go on forever, coasting at a uniform speed in a straight line. 正在运动的某一物体,如果没有受到任何外力的出动,它将永远继续作匀速直线运动。(条件) (5)Ice, of relative density 0.9, floats in water with nine-tenth submerged. 冰的比重为0.9,它浮在水面上时,10分之 9淹没在水里。(方式方法) (6)An atom of oxygen has 8 protons and 8 neutrons in its nucleus, with 8 electrons circling about that nucleus. 一 个氧原子在其原子核内有八个质子和八个中子,还有八个电子绕着原 子核旋转。(附加说明)

搜索引擎中文分词原理与实现

while (ts.i ncreme ntToke n()) { //取得下一个词 搜索引擎中文分词原理与实现 因为中文文本中,词和词之间不像英文一样存在边界, 所以中文分词是一个专业处理中 文信息的搜索引擎首先面对的问题,需要靠程序来切分出词。 一、LUCene 中的中文分词 LUCene 在中处理中文的常用方法有三种,以 皎死猎人的狗"为例说明之: 单 字:【咬】 【死】 【猎】 【人】 【的】 【狗】 二元覆盖:【咬死】 【死猎】 【猎人】 【人的】 【的狗】 分 词:【咬】 【死】 【猎人】 【的】 【狗】 LUCene 中的StandardTokenizer 采用单子分词方式, CJKTokenize 采用二元覆盖方式。 1、LUCene 切分原理 LUCene 中负责语言处理的部分在 org.apache.Iucene.analysis 包,其中, TokenStream 类 用来进行基本的分词工作, Analyzer 类是TokenStream 的包装类,负责整个解析工作,Analyzer 类接收整段文本,解析出有意义的词语。 通常不需要直接调用分词的处理类 analysis ,而是由LUCene 内存内部来调用,其中: (1) 在索引阶段,调用 addDocument (doc )时,LUCene 内部使用 Analyzer 来处理每 个需要 索引的列,具体如下图: 图1 LUCene 对索引文本的处理 In dexWriter in dex = new In dexWriter(i ndexDirectory, new CnAn alyzer(), //用于支持分词的分析 器 !in Creme ntal, In dexWriter.MaxFieldLe ngth.UNLIMITED); (2) 在搜索阶段,调用 QUeryParSer.parse (queryText )来解析查询串时, QUeryParSer 会调用Analyzer 来拆分查询字符串,但是对于通配符等查询不会调用 Analyzer 。 An alyzer an alyzer = new CnAn alyzer(); //支持中文的分词 QUeryParSer ParSer = new QUeryParSer(VerSiO n.L UCENE_CURRENT, "title", an alyzer); 因为在索引和搜索阶段都调用了分词过程,索引和搜索的切分处理要尽量一致,所以 分词效果改变后需要重建索引。 为了测试LUCene 的切分效果,下面是直接调用 Analysis 的例子: Analyzer analyzer = new CnAnalyzer(); // 创建一个中文分析器 TokenStream ts = analyzer.tokenStream("myfield", new StringReader(" 待切分文本 ")); //

英语语法:分词练习

现在分词和过去分词的用法区别 (一)分词的作用 ·现在分词可用于: ·①构成进行时。e.g. We are studying English. ·②当副词作状语。e.g. The children came, singing and dancing. ·③当形容词作定语、宾补和表语。 ·e.g. Falling leaves danced in the air. ·I saw many birds flying along the river. ·The story is very moving. ·过去分词可用于: ·①构成完成时。 e.g. The play had begun when we arrived there. ·②构成被动语态。e.g. English is widely spoken in the world. ·③当副词作状语。e.g. Seen here, the city looks more beautiful. ·④当形容词作定语、宾补和表语。 ·e.g. a boy named Tom ·I saw the girl killed with my own eyes. ·I’m interested in English. (二)现在分词与过去分词的两大差别 1.在语态上:现在分词表主动,过去分词表被动。 2.在时态上:现在分词表进行,过去分词表完成。 (三)确定分词的使用的具体步骤 (1)根据句子结构确定分词的语法成分 (2)找准逻辑主语 (3)判断主、被动关系 (4)选定现在或过去分词 1. There was a terrible noise ____ the sudden burst of light. A. followed B. following C. to be followed D. being followed 2. The Olympic Games, ____ in 776 B. C., didn’t include women until 1912. A. first playing B. to be first played C. first played D. to be playing 3. What’s the language ____ in Germany? A. speaking B. spoken C. be spoken D. to speak 4. Most of the people ____ to the party were famous scientists. A. invited B. to invite C. being invited D. inviting 5. The first textbooks ____ for teaching English as a foreign language came out in the 16th century. A. having written B. to be written C. being written D. written (四)分词作表语 共同点:分词作表语时,它起着形容词的作用。

《IKAnalyzer中文分词器V3.1.6使用手册》

IKAnalyzer中文分词器 V3.X使用手册 目录 1.IK Analyzer3.0介绍 (2) 2.使用指南 (4) 3.词表扩展 (11) 4针对solr的分词器应用扩展 (13) 5.关于作者 (14)

1.IK Analyzer3.0介绍 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.1IK Analyzer3.0结构设计

1.2IK Analyzer3.0特性 ?采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 ?采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。?优化的词典存储,更小的内存占用。支持用户词典扩展定义 ?针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。 1.3分词效果示例 文本原文1: IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。 分词结果: ikanalyzer|是|一个|一|个|开源|的|基于|java|语言|开发|的|轻量级|量级|的|中文|分词|工具包|工具|从|2006|年|12|月|推出|1.0 |版|开始|ikanalyzer|已经|推出|出了|3|个大|个|版本 文本原文2: 永和服装饰品有限公司 分词结果: 永和|和服|服装|装饰品|装饰|饰品|有限|公司 文本原文3:

IKAnalyzer中文分词器介绍

IKAnalyzer3.2.8中文分词器介绍 2012年3月2日

1.IKAnalyzer简介 IKAnalyzer是一个开源基于JA V A语言的轻量级的中文分词第三方工具包,从2006年推出已经经历了三个较为完整的版本,目前最新版本为3.2.8,它基于lucene为应用主体,但是,它也支持脱离lucene,成为一个独立的面向JA V A的分词工具。 2.IKAnalyzer结构图 3.IKAnalyzer特性 a.算法采用“正向迭代最细粒度切分算法”,支持细粒度和最大词长两种分词 方式,速度最大支持80W字/秒(1600KB/秒)。 b.支持多子处理器分析模式:中文、数字、字母,并兼容日文、韩文。 c.较小的内存占用,优化词库占有空间,用户可自定义扩展词库。 d.扩展lucene的扩展实现,采用歧义分析算法优化查询关键字的搜索排列组

合,提高lucene检索命中率。 4.关键类介绍 org.wltea.analyzer.lucene.IKAnalyzer IK分词主类,基于Lucene的Analyzer接口实现。 org.wltea.analyzer.lucene.IKQueryParser IK分词器提供的Query解析、构造工具类,其中parseMultiField 函数(所有的重载函数)为关键函数。 org.wltea.analyzer.IKSegmentation IK分词器的核心类,真正分词的实现类。 5.IK分词算法理解 根据作者官方说法IK分词器采用“正向迭代最细粒度切分算法”,分析它的源代码,可以看到分词工具类IKQueryParser起至关重要的作用,它对搜索关键词采用从最大词到最小词层层迭代检索方式切分,比如搜索词:“中华人民共和国成立了”,首先到词库中检索该搜索词中最大分割词,即分割为:“中华人民共和国”和“成立了”,然后对“中华人民共和国”切分为“中华人民”和“人民共和国”,以此类推。最后,“中华人民共和国成立了”切分为:“中华人民| 中华| 华人| 人民| 人民共和国| 共和国| 共和| 成立| 立了”,当然,该切分方式为默认的细粒度切分,若按最大词长切分,结果为:“中华人民共和国| 成立| 立了”。核心算法代码如下: boolean accept(Lexeme _lexeme){ /* * 检查新的lexeme 对当前的branch 的可接受类型 * acceptType : REFUSED 不能接受 * acceptType : ACCEPTED 接受 * acceptType : TONEXT 由相邻分支接受

相关文档
最新文档