中文分词实验报告

合集下载

中文分词研究报告

中文分词处理第一阶段报告通信10班201221*** ***目录第一部背景——有关中文分词第二部知识储备1.文件2.中文文件的存储格式3.字符编码4.GBK编码基本原理第三部实践操作1.截图2.学到的知识3.疑难问题的处理4.学习心得第一部分：背景——有关中文分词记得刚抢上案例教学名额的时候，有人问我选的是什么课题，我说中文分“字”。

可见当时对这个课题是有多么的不了解。

后来查了一些材料，问了老师学姐，一个学长推荐我读一下吴军老师的《数学之美》。

慢慢的，我开始了解。

自计算机诞生以来，计算机无与伦比的运算速度与稳定性使得计算机在很多事情上做得比人好。

但是计算机用数字记录信息，人用文字记录信息，这就好比两个来自不同地区的人说着互相不懂得话，那么计算机到底有没有办法处理自然语言呢？起初，我们希望计算机能从语法语义上理解人类的自然语言，这种希望催生了基于规则的自然语言处理方法，然而，20年的时间证明，这种办法是行不通的，语言博大的语法语义语境体系无法移植到计算机。

20年弯路之后，我们找到了一条合适的路径——基于统计的自然语言处理方法，这种方法的大体思想是：拥有一个庞大的语料库，对句子的分析变为概率分析，而概率分析是将每一个词出现的条件概率相乘，也就是说，统计语言模型是建立在词的基础上的，因为词是表达语义的最小单位。

分词处理对自然语言处理起着至关重要的作用！对于西方拼音语言来讲，词之间有明确的分界符，统计和使用语言模型非常直接。

而对于中、日、韩、泰等语言，词之间没有明确的分界符。

因此，首先需要对句子进行分词。

（补充一点的是，中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就很清楚，中文分词方法可以帮助判别英文单词的边界。

）目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。

中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。

中文分词算法的研究与实现

中文分词算法的探究与实现导言中文作为世界上最为复杂的语言之一，具有很高的纷繁变化性。

对于计算机来说，要理解和处理中文文本是一项极具挑战的任务。

中文分词作为自然语言处理的核心步骤之一，其目标是将连续的中文文本按照词语进行切分，以便计算机能够更好地理解和处理中文文本。

本文将谈论。

一、中文分词的重要性中文是一种高度语素丰富的语言，一个复杂的中文句子往往由若干个词汇组成，每个词汇之间没有明显的分隔符号。

若果不进行适当的中文分词处理，计算机将无法准确理解句子的含义。

例如，对于句子“我喜爱进修机器进修”，若果没有正确的分词，计算机将无法区分“进修”是动词仍是名词，从而无法准确理解这个句子。

因此，中文分词作为自然语言处理的重要工具，被广泛应用于查找引擎、信息检索、机器翻译等领域。

二、基于规则的中文分词算法基于规则的中文分词算法是最早出现的一类中文分词算法。

它通过事先定义一些规则来进行分词，如使用词表、词典、词性标注等方法。

这类算法的优点是原理简易，适用于一些固定语境的场景。

但是，这类算法对语言的变化和灵活性要求较高，对于新词和歧义词的处理效果较差。

三、基于统计的中文分词算法基于统计的中文分词算法以机器进修的方法进行训练和处理。

这类算法通过构建统计模型，利用大量的训练样本进行进修和猜测，从而裁定文本中哪些位置可以进行分词。

其中最著名的算法是基于隐马尔可夫模型（Hidden Markov Model，简称HMM）的分词算法。

该算法通过建立状态转移概率和观测概率来进行分词猜测。

此外，还有一些基于条件随机场（Conditional Random Field，简称CRF）的分词算法，通过模型的训练和优化，得到更准确的分词结果。

四、基于深度进修的中文分词算法随着深度进修的兴起，越来越多的中文分词算法开始接受深度进修的方法进行探究和实现。

深度进修通过构建多层神经网络，并利用大量的训练数据进行训练，在分词任务中表现出了很强的性能。

自然语言理解中文分词报告

中文分词工程报告课程：自然语言理解姓名：学号：班级：日期：2013/11/6一、研究背景1、发展历程：机器翻译(Machine Translation)是自然语言理解研究的最早领域。

17世纪：笛卡儿(Descartes)莱布尼兹(Leibniz)试图用统一的数字代码编写词典；17世纪中叶贝克(Cave Beck)等人出版类似的词典。

1930s：亚美尼亚法国工程师阿尔楚尼提出了用机器来进行语言翻译的想法，并在1933年7月22日获得了一项“翻译机”的专利，叫做机器脑(mechanical brain)。

1933 年，前苏联发明家特洛扬斯基设计了用机械方法把一种语言翻译成为另一种语言的机器。

1946 年，世界上第一台电子计算机ENIAC诞生。

此后，英国工程师A. D. Booth 和美国洛克菲勒基金会(Rockefeller Foundation) 副总裁W. Weaver提出了利用计算机进行机器翻译的设想。

1949年，W. Weaver 发表了以‘Translation’为题目的备忘录，正式提出机器翻译问题。

1954年Georgetown 大学在IBM 协助下，用IBM-701计算机实现了世界上第一个MT 系统，实现俄译英翻译，1954年1月该系统在纽约公开演示。

系统只有250条俄语词汇，6 条语法规则，可以翻译简单的俄语句子。

随后10 多年里，MT研究在国际上出现热潮。

1964年，美国科学院成立语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC)，调查机器翻译的研究情况，并于1966年11月公布了一个题为“语言与机器”的报告，简称ALPAC 报告，宣称：“在目前给机器翻译以大力支持还没有多少理由”，“机器翻译遇到了难以克服的语义障碍(semantic barrier)”。

从此，机器翻译研究在世界范围内进入低迷状态。

中文分词实验

中文分词实验一、实验目的：目的：了解并掌握基于匹配的分词方法，以及分词效果的评价方法。

实验要求：1、从互联网上查找并构建不低于10万词的词典，构建词典的存储结构；2、选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等）。

3、在不低于1000个文本文件，每个文件大于1000字的文档中进行中文分词测试，记录并分析所选分词算法的准确率、分词速度。

预期效果：1、平均准确率达到85%以上二、实验方案：1.实验平台系统：win10软件平台：spyder语言：python2.算法选择选择正向减字最大匹配法，参照《搜索引擎-原理、技术与系统》教材第62页的描述，使用python语言在spyder软件环境下完成代码的编辑。

算法流程图：Figure 错误!未指定顺序。

. 正向减字最大匹配算法流程Figure 错误!未指定顺序。

. 切词算法流程算法伪代码描述：3.实验步骤1)在网上查找语料和词典文本文件；2)思考并编写代码构建词典存储结构；3)编写代码将语料分割为1500个文本文件，每个文件的字数大于1000字；4)编写分词代码；5)思考并编写代码将语料标注为可计算准确率的文本；6)对测试集和分词结果集进行合并；7)对分词结果进行统计，计算准确率，召回率及F值（正确率和召回率的调和平均值）；8)思考总结，分析结论。

4.实验实施我进行了两轮实验，第一轮实验效果比较差，于是仔细思考了原因，进行了第二轮实验，修改参数，代码，重新分词以及计算准确率，效果一下子提升了很多。

实验过程：(1)语料来源：语料来自SIGHAN的官方主页（/），SIGHAN是国际计算语言学会（ACL）中文语言处理小组的简称，其英文全称为“Special Interest Group forChinese Language Processing of the Association for ComputationalLinguistics”，又可以理解为“SIG汉“或“SIG漢“。

中科院中文分词系统调研报告

自然语言处理调研报告（课程论文、课程设计）题目：最大正向匹配中文分词系统作者：陈炳宏吕荣昌靳蒲王聪祯孙长智所在学院：信息科学与工程学院专业年级：信息安全14-1指导教师：努尔布力职称：副教授2016年10月29日目录一、研究背景、目的及意义 (3)二、研究内容和目标 (4)三、算法实现 (5)四、源代码 (7)1.seg.java 主函数 (7)2. dict.txt 程序调用的字典 (10)3.实验案例 (11)五、小结 (12)一、研究背景、目的及意义中文分词一直都是中文自然语言处理领域的基础研究。

目前，网络上流行的很多中文分词软件都可以在付出较少的代价的同时，具备较高的正确率。

而且不少中文分词软件支持Lucene扩展。

但不过如何实现，目前而言的分词系统绝大多数都是基于中文词典的匹配算法。

在这里我想介绍一下中文分词的一个最基础算法：最大匹配算法(Maximum Matching，以下简称MM算法) 。

MM算法有两种：一种正向最大匹配，一种逆向最大匹配。

二、研究内容和目标1、了解、熟悉中科院中文分词系统。

2、设计程序实现正向最大匹配算法。

3、利用正向最大匹配算法输入例句进行分词，输出分词后的结果。

三、算法实现图一：算法实现正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。

但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。

算法示例：待分词文本： content[]={"中"，"华"，"民"，"族"，"从"，"此"，"站"，"起"，"来"，"了"，"。

"}词表： dict[]={"中华"， "中华民族" ， "从此"，"站起来"}(1) 从content[1]开始，当扫描到content[2]的时候，发现"中华"已经在词表dict[]中了。

中文分词实验报告

实验：中文分词实验小组成员：黄婷苏亮肖方定山一、实验目的：1.实验目的（1）了解并掌握基于匹配的分词方法、改进方法、分词效果的评价方法等2.实验要求（1）从互联网上查找并构建不低于10万词的词典，构建词典的存储结构；（2）选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等），同时实现至少一种改进算法。

（3）在不低于1000个文本文件（可以使用附件提供的语料），每个文件大于1000字的文档中进行中文分词测试，记录并分析所选分词算法的准确率、召回率、F-值、分词速度。

二、实验方案：1. 实验环境系统：win10软件平台：spyder语言：python2. 算法选择（1）选择正向减字最大匹配法（2）算法伪代码描述：3. 实验步骤● 在网上查找语料和词典文本文件； ● 思考并编写代码构建词典存储结构；●编写代码将语料分割为1500 个文本文件，每个文件的字数大于1000 字；●编写分词代码；●思考并编写代码将语料标注为可计算准确率的文本；●对测试集和分词结果集进行合并；●对分词结果进行统计，计算准确率，召回率及 F 值（正确率和召回率的调和平均值）；●思考总结，分析结论。

4. 实验实施实验过程：（1）语料来源：语料来自SIGHAN 的官方主页（/ ），SIGHAN 是国际计算语言学会（ACL ）中文语言处理小组的简称，其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”，又可以理解为“SIG 汉“或“SIG 漢“。

SIGHAN 为我们提供了一个非商业使用（non-commercial ）的免费分词语料库获取途径。

我下载的是Bakeoff 2005 的中文语料。

有86925 行，2368390 个词语。

语料形式：“没有孩子的世界是寂寞的，没有老人的世界是寒冷的。

实验报告-中文分词

实验报告1 双向匹配中文分词•小组信息目录摘要--------------------------------------------------------------------------------------- 1理论描述--------------------------------------------------------------------------------- 1算法描述--------------------------------------------------------------------------------- 2详例描述--------------------------------------------------------------------------------- 3软件演示--------------------------------------------------------------------------------- 4总结--------------------------------------------------------------------------------------- 6•摘要这次实验的内容是中文分词，现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

而我们用到的分词算法是基于字符串的分词方法（又称机械分词方法）中的正向最大匹配算法和逆向匹配算法。

一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。

统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。

•理论描述中文分词指的是将一个汉字序列切分成一个一个单独的词。

实验1 中文分词实验

实验一中文分词
实验内容
• 请分别使用正向最大匹配算法和逆向最大匹配算法及给定的字典对以下句子进行分词，并分别显示结果：
一把青菜幼儿园地节目

实验一作业
• 请选择以下任意一个完成：

1.请使用双向匹配算法对给定测试文本进行分词：
• 给定测试文本为：实验1作业测试文本.txt • 词典为：chineseDic.txt • 要求：编程实现，并计算分词的P, R,F值和分词时间。

2.请使用概率最大方法及给定语料库对以下句子分词：
• “对外经济技术合作与交流不断扩大。” • 要求：利用人民日报语料库来计算每个候选词的概率值及最佳左邻词，及分词结果。并计算分词的P,R,F值和分词时间。

注意作业完成时间：

2周，请在第4周上课前提交，4人以内小组提交。最好是C++或JAVA 报告标题、理论描述、算法描述、详例描述、软件演示图, 请看样板

• 详例描述：

以“一把青菜”为例，详细描述算法如下
将程序实现的截图粘贴过来
• 软件演示：

另外，请每个小组将每次的作业实现在同一个软件平台中，班级及成员不要变化，这样学期结束，就实现了一个NLP的工具集，最后添加一个应用就是你的大作业了。
• 语言可以任意：

• 作业以程序软件+报告的格式，要求：

• 作业提交格式：
作业内容放置一个文件夹中，并压缩交给我文件夹命名：实验一+班级+姓名.rar

实验报告1 双向匹配中文分词 • 理论描述：

中文分词是。。。。,
• 算法描述：
本文实现双向匹配算法，具体算法描述如下： MM: RMM：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验：中文分词实验
小组成员：黄婷苏亮肖方定山
一、实验目的：
1.实验目的
（1）了解并掌握基于匹配的分词方法、改进方法、分词效果的评价方法等
2.实验要求
（1）从互联网上查找并构建不低于10万词的词典，构建词典的存储结构；（2）选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等），同时实现至少一种改进算法。

二、实验方案：
1. 实验环境
系统：win10
软件平台：spyder
语言：python
2. 算法选择
（1）选择正向减字最大匹配法
（2）算法伪代码描述：
3. 实验步骤
● 在网上查找语料和词典文本文件； ● 思考并编写代码构建词典存储结构；
●编写代码将语料分割为1500 个文本文件，每个文件的字数大于1000 字；
●编写分词代码；
●思考并编写代码将语料标注为可计算准确率的文本；
●对测试集和分词结果集进行合并；
●对分词结果进行统计，计算准确率，召回率及 F 值（正确率和召回率的调
和平均值）；
●思考总结，分析结论。

4. 实验实施
实验过程：
（1）语料来源：语料来自SIGHAN 的官方主页（/ ），SIGHAN 是国际计算语言学会（ACL ）中文语言处理小组的简称，其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”，又可以理解为“SIG 汉“或“SIG 漢“。

SIGHAN 为我们提供了一个非商业使用（non-commercial ）的免费分词语料库获取途径。

我下载的是Bakeoff 2005 的中文语料。

有86925 行，2368390 个词语。

语料形式：“没有孩子的世界是寂寞的，没有老人的世界是寒冷的。

”
（2）词典：词典用的是来自网络的有373 万多个词语的词典，采用的数据结构为python 的一种数据结构——集合。

（3）分割测试数据集：将原数据分割成1500 个文本文件，每个文件的词数大于1000 。

（4）编写分词代码：采用python 语言和教材上介绍的算法思路，进行编程。

（5）编写代码将语料标注为可计算准确率的文本：用 B 代表单词的开始字，E 代表结尾的字，BE 代表中间的字，如果只有一个字，用 E 表示。

例如：
原数据是：“人们常说生活是一部教科书”
而我将它转化为了如下格式：
（6）进行分词：使用之前编写的分词函数，载入文本，进行分词，将每个文本结果输出到txt 文本。

（7）对测试集和分词结果集进行合并：将测试集和分词结果集合并是为了进行准确率，召回率等的计算。

测试集和训练集都是下面的格式：
将它们合并为下面的格式，第二列为测试集的标注，第三列为训练集的结果：
（8）对分词结果进行统计，计算准确率P ，召回率R 及 F 值（正确率和召回率的调和平均值），设提取出的信息条数为C, 提取出的正确信息条数为CR, 样本中的信息条数O ：
计算结果如下：
（9）反思：平均准确率只有75.79% ，为何分词效果这么差，没有达到我们的预期效果85% ，经过思考和多次尝试才发现，原来是因为词典太大了，最大匹配分词效果对词典依赖很大，不是词典越大越好，还有就是我们的词典和我们的测试数据的相关性不大，于是我们小组修改了词典，进行了第二轮测试。

（10）修改词典：将词典大小裁剪，但是不能只取局部，例如前面10 万词或后面10 万词，于是我的做法是在373 万词的词典中随机取 3 万词，再用之前没用完的语料制作7 万词，组成10 万词的词典：
（11）再次实验：重新进行前面的步骤得到了下面的结果：
此时分词的平均准确率提高到了87.13% ，还是很不错的，说明我的反思是有道
理的。

三、实验结果及分析：
1.实验结果：
2.结果分析：
2018-2019-1学期《搜索引擎技术》实验报告
（1）第一轮分词结果只有75.79% ，而小组的预期效果或者说目标是85% 以上，我们先是讨论是不是这个算法只能达到这么多，于是通过网络和询问同学的分词准确率知道，这个结果是可以继续提升的。

于是，我们仔细思考了每一个环节，发现问题主要出在词典上面，因为词典中的词越多，利用做大匹配分出来的词的平均长度就越长，分得的词数也越少，错误率反而增大，而那些分法可能并不是我们想要的，而且我们的词典和我们的语料相关性很小，分词效果是依赖于这个词典的相关性的。

然后我们尝试减少词典的大小，见减小到150万词，发现效果确实好了点，于是干脆只在原词典中取出3万词，再用语料库没用过的同类型的语料做一份词典，再把它们合起来，结果分词准确率一下子提高到了87.13% 。

（2）影响中文分词效果的因素：词典的大小，数据集的规范性，算法的优越程度如何提高中文分词的准确率：规范的数据集，合理大小的词典，好的算法。

四、实验总结：
本次实验期间遇到过很多问题，幸好都一一解决了，比如在合并测试集和分词结果集时，合并测试集和分词结果集时中词语的位置有错位，想了好几个办法才解决，其实在实验之前多思考思考是可以避免这种情况的。

本次实验中，分词是实验的重点，但难点不在分词上面，而在数据的处理和计算准确率。

我们还应多练习，多运用，多思考才能真正提升自己的能力。

五、参考文献：
[1]百度文库“搜索引擎检索性能评价实验报告”
[2]数据集：SIGHAN bakeoff2005 数据集中的简体中文部分
[3]链接：/bakeoff2005/
[4]文献：1. 知乎：如何解释召回率与准确率？
[5]链接：https:///question/19645541
[6]《搜索引擎-- 原理、技术与系统》
[7]百度文库“中文分词实验”
11 / 11。