中文分词实验

合集下载

中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难，以下一些解决方案值得：
1、优化分词算法：针对分词算法的复杂性问题，可以尝试优化算法的设计和实现，提高其效率和准确性。例如，可以通过引入上下文信息、利用语言学知识等方式来改进算法。
2、改进信息检索技术：在信息检索领域，可以尝试将先进的排序算法、推荐系统等技术引入到检索过程中，以提高检索效果。此外，还可以研究如何基于用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准：中文分词技术的评价标准尚未统一，这使得不同研究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相关研究的发展至关重要。
4、特定领域的应用场景：中文分词技术在不同领域的应用场景中面临着不同的挑战。例如，在金融领域中，需要分词技术对专业术语进行精确识别；在医疗领域中，需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进行优化，是中文分词技术的重要研究方向。
3、建立大型标注语料库：通过建立大型标注语料库，可以为分词算法提供充足的训练数据，提高其准确性和自适应性。此外，标注语料库也可以用于开发基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景：针对不同领域的应用场景，可以研究如何将中文分词技术进行迁移和适配。例如，可以通过知识图谱等技术将不同领域的知识引入到分词过程中，以提高分词效果。
然而，各种分词方法也存在一定的局限性和不足。例如，基于规则的分词方法需要人工编写规则和词典，难以维护和更新；基于统计的分词方法需要大量标注语料库，而且训练模型的时间和计算成本较高；基于深度学习的分词方法虽然取得了较好的效果，但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战，以下是一些主要词方法：该方法主要依靠人工编写的分词规则来进行分词。代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发的“PKU中文分词系统”。这些系统均基于词典和规则，具有较高的准确率和召回率。

中文分词训练数据集

中文分词训练数据集1.引言1.1 概述中文分词是自然语言处理中的一个重要环节，其目的是将连续的中文文本切分成有意义的词语。

在中文语言中，词与词之间没有像英文一样的空格来进行分割，因此进行中文分词是必要的，可以方便其他自然语言处理任务的进行，如机器翻译、信息检索和文本分类等。

中文分词的挑战主要体现在以下几个方面：1. 词语歧义性：中文语言中，许多词语存在多种不同的含义，因此在进行中文分词时，需要根据上下文来确定词语的正确切分位置。

2. 未登录词问题：由于中文语言的复杂性，常常会出现许多新的未登录词，这些词语在分词系统的词典中并没有记录，因此识别和切分这些未登录词是一个挑战。

3. 命名实体识别：中文中有许多固有名词、专有名词和人名等命名实体，这些词语的切分通常需要特殊处理，因为它们的切分位置不能随意改变。

针对以上挑战，研究人员提出了多种中文分词算法和模型，并利用大规模的中文分词训练数据集进行训练和评估。

中文分词训练数据集是进行中文分词研究的基础，它包含了大量的中文文本及其对应的分词标注。

利用这些数据集，可以训练分词模型，提高分词系统的准确性和效果。

总之，中文分词在中文自然语言处理中具有重要的地位和应用前景。

而中文分词训练数据集则是进行中文分词研究和应用的关键资源，对于提升中文分词系统的性能具有重要意义。

1.2 文章结构本文将按照以下结构进行论述：第一部分，引言，将对文章的背景进行概述、介绍文章的结构以及阐述文章的目的。

第二部分，正文，将重点讨论中文分词的重要性和所面临的挑战。

首先，我们会探讨中文分词的重要性，包括其在文本处理、自然语言处理以及人工智能应用中的作用。

其次，我们会深入分析中文分词的挑战，包括语义歧义、未登录词、词性标注等问题，以及相关的解决方法和技术。

第三部分，结论，将总结为何需要中文分词训练数据集以及中文分词训练数据集的应用前景。

我们会探讨训练数据集在中文分词算法研究和模型开发中的重要性，并展望其在自然语言处理、机器翻译、信息检索等领域的应用前景。

PHP简易中文分词系统对闽菜名的分词实验与结果分析

“ 亿上上城”等。银
【莱考夫・２】约翰逊．我们赖以生存的隐喻［】芝加哥：芝加哥大学Ｍ．
出版社，２０．０３
宁波万科集团： “ 万科城 ” “ 万科云鹭湾” “ 科金万
域华府” “ 万科金色水岸” “ 万科金色城市”等。
（）以历史典故转喻小区名四以与该地区相关的历史典故来指代居民小区的专名。如：
（）宁波华泰股份有限公司： “ ７华泰银座” “ 华泰剑桥” “ 华泰星城”等。
宁波雅戈尔置业有限公司： “ 戈尔・雅钱湖比华利” “ 戈尔都市丽湾” “ 戈尔世纪花园” “ 戈尔锦绣东雅雅雅
转喻的思维方法，通过小区与客观物理世界的相关关系来命名。本文通过对宁波市居民小区命名中的转喻的探究发
断为动词，导致了切分错误或是词性判断错误。例如 “ 肉语言单位。只有少数菜名是直接由语言学上的 “ ”构成词烧白菜 ”这个菜名，若分词系统将 “ ” 判定为动词，本的，更多的菜名是由两个或者以上语言学上的 “ ”组合烧词为名词性短语的菜名就被切分为 “ 主语＋语＋语 ” 的成构成的名词性短语。所谓 “ 词性短语 ” ，也叫体词性短谓宾名分。又如福建名菜 “ 跳墙 ” ，若分词系统未能识别这是语。性质上是名词性的，功能上跟名词相当，经常充当主佛
【赵艳芳．知语言学概论．３】认上海：上海外语教育出版杜，２０．０１

中文分词实验

中文分词实验一、实验目的：目的：了解并掌握基于匹配的分词方法，以及分词效果的评价方法。

实验要求：1、从互联网上查找并构建不低于10万词的词典，构建词典的存储结构；2、选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等）。

3、在不低于1000个文本文件，每个文件大于1000字的文档中进行中文分词测试，记录并分析所选分词算法的准确率、分词速度。

预期效果：1、平均准确率达到85%以上二、实验方案：1.实验平台系统：win10软件平台：spyder语言：python2.算法选择选择正向减字最大匹配法，参照《搜索引擎-原理、技术与系统》教材第62页的描述，使用python语言在spyder软件环境下完成代码的编辑。

算法流程图：Figure 错误!未指定顺序。

. 正向减字最大匹配算法流程Figure 错误!未指定顺序。

. 切词算法流程算法伪代码描述：3.实验步骤1)在网上查找语料和词典文本文件；2)思考并编写代码构建词典存储结构；3)编写代码将语料分割为1500个文本文件，每个文件的字数大于1000字；4)编写分词代码；5)思考并编写代码将语料标注为可计算准确率的文本；6)对测试集和分词结果集进行合并；7)对分词结果进行统计，计算准确率，召回率及F值（正确率和召回率的调和平均值）；8)思考总结，分析结论。

4.实验实施我进行了两轮实验，第一轮实验效果比较差，于是仔细思考了原因，进行了第二轮实验，修改参数，代码，重新分词以及计算准确率，效果一下子提升了很多。

实验过程：(1)语料来源：语料来自SIGHAN的官方主页（/），SIGHAN是国际计算语言学会（ACL）中文语言处理小组的简称，其英文全称为“Special Interest Group forChinese Language Processing of the Association for ComputationalLinguistics”，又可以理解为“SIG汉“或“SIG漢“。

实验报告-中文分词参考模板

实验报告1 双向匹配中文分词•小组信息目录摘要--------------------------------------------------------------------------------------- 1理论描述--------------------------------------------------------------------------------- 1算法描述--------------------------------------------------------------------------------- 2详例描述--------------------------------------------------------------------------------- 3软件演示--------------------------------------------------------------------------------- 4总结--------------------------------------------------------------------------------------- 6•摘要这次实验的内容是中文分词，现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

而我们用到的分词算法是基于字符串的分词方法（又称机械分词方法）中的正向最大匹配算法和逆向匹配算法。

一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。

统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。

•理论描述中文分词指的是将一个汉字序列切分成一个一个单独的词。

中文分词案例

中文分词案例中文分词是自然语言处理中的一个重要任务，其目的是将连续的中文文本切分成单个的词语。

中文分词在很多应用中都起到了关键作用，例如机器翻译、信息检索、文本分类等。

本文将以中文分词案例为题，介绍一些常用的中文分词方法和工具。

一、基于规则的中文分词方法1. 正向最大匹配法（Maximum Matching, MM）：该方法从左到右扫描文本，从词典中找出最长的词进行匹配，然后将该词从文本中删除。

重复这个过程，直到文本被切分完毕。

2. 逆向最大匹配法（Reverse Maximum Matching, RMM）：与正向最大匹配法相反，该方法从右到左扫描文本，从词典中找出最长的词进行匹配，然后将该词从文本中删除。

重复这个过程，直到文本被切分完毕。

3. 双向最大匹配法（Bidirectional Maximum Matching, BMM）：该方法同时使用正向最大匹配和逆向最大匹配两种方法，然后选择切分结果最少的作为最终结果。

二、基于统计的中文分词方法1. 隐马尔可夫模型（Hidden Markov Model, HMM）：该方法将中文分词问题转化为一个序列标注问题，通过训练一个隐马尔可夫模型来预测每个字的标签，进而切分文本。

2. 条件随机场（Conditional Random Fields, CRF）：与隐马尔可夫模型类似，该方法也是通过训练一个条件随机场模型来预测每个字的标签，进而切分文本。

三、基于深度学习的中文分词方法1. 卷积神经网络（Convolutional Neural Network, CNN）：该方法通过使用卷积层和池化层来提取文本特征，然后使用全连接层进行分类，从而实现中文分词。

2. 循环神经网络（Recurrent Neural Network, RNN）：该方法通过使用循环层来捕捉文本的时序信息，从而实现中文分词。

四、中文分词工具1. 结巴分词：结巴分词是一个基于Python的中文分词工具，它采用了一种综合了基于规则和基于统计的分词方法，具有较高的准确性和速度。

中文bpe分词

中文bpe分词
BPE（Byte Pair Encoding）是一种子词切分算法，将稀有和未知的单词编码为子词单元的序列。

其主要步骤如下：
1. 准备足够大的训练语料。

2. 确定期望的subword词表大小。

3. 将单词拆分为字符序列并在末尾添加后缀“</w>”，统计单词频率。

本阶段的subword 的粒度是字符。

例如，“low”的频率为5，那么我们将其改写为“l o w </w>”：5。

4. 统计每一个连续字节对的出现频率，选择最高频者合并成新的subword。

5. 重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1。

BPE 算法可以将不同词类通过拆分为比单词更小的单元进行组合，从而实现对文本的分析和处理。

在实际应用中，BPE 算法可以与其他自然语言处理技术相结合，以提高文本分析的准确性和效率。

一种组合型中文分词方法

为了降低分词过程中歧义出现的概率和增加发现新词的机
合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。基于统计的分词方法的
如果单纯地对本文用统计方法来分词，那么需要处理的数
据量很大，而且准确率还有待于提高。在本文中，统计得到新词的范围仅限于单个汉字组成的连续的字符串中。步骤如下：
步骤１待处理的字符串按长度由小到大排序。
步骤２提取第一个字符串和后续的字符串进行比较，若后面的字符串等于或者包含第一个字符串则把第一个字符串提出，否则提取第二个字符串进行类似的比较，直到所有的字符串
（河海大学计算机与信息学院江苏南京２１０１１０）
摘
要
设计一种组合型的分词机制：于字典的双向最大匹配，基基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实
验的结果比较，明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。表
优点是：１（）不受待处理文本的领域限制；２（）不需要一个机器
率，本文设计了一种组合分词方法。一个句子通过正向最大匹
配和反向最大匹配得到分词的结果。如果得到的结果一致，那么说明这个句子没有歧义。如果得到的结果不一致，那么可以认为在两种匹配结果中，只有一种结果是正确的，需要通过学习

汉语分词简介

汉语分词
7
双向匹配法
比较FMM法与BMM法的切分结果，从而决定正确的切分可以识别出分词中的交叉歧义算法时间、空间复杂性较高
汉语分词
8
主要的分词方法（二）
基于理解的分词方法：通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
2011.12
汉语分词 1
分词的定义
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。通俗的说，中文分词就是要由机器在中文文本中词与词之间加上标记。
汉语分词
13
切分歧义（）切分歧义（2）
真歧义
歧义字段在不同的语境中确实有多种切分形式例：地面积这块/地/面积/还真不小地面/积/了厚厚的雪
伪歧义
歧义字段单独拿出来看有歧义，但在所有真实语境中，仅有一种切分形式可接受例：挨批评挨/批评（√）挨批/评（╳）
等
如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”
汉语分词 15
未登录词（OOV）
虽然一般的词典都能覆盖大多数的词语，但有相当一部分的词语不可能穷尽地收入系统词典中，这些词语称为未登录词或新词分类：

中文文本分词及词性标注自动校对方法研究

中文文本分词及词性标注自动校对方法研究【摘要】：语料库建设是中文信息处理研究的基础性工程。

汉语语料的基本加工过程，包括自动分词和词性标注两个阶段。

自动分词和词性标注在很多现实应用(中文文本的自动检索、过滤、分类及摘要，中文文本的自动校对，汉外机器翻译，汉字识别与汉语语音识别的后处理，汉语语音合成，以句子为单位的汉字键盘输入，汉字简繁体转换等)中都扮演着关键角色，为众多基于语料库的研究提供重要的资源和有力的支持。

语料库的有效利用在很大程度上依赖于语料库切分和标注的层次和质量。

当前对汉语语料的加工结果，虽已取得了一定的成绩，但国家的评测结果表明，其离实际需要的差距还是很大的，还有待于进一步的提高。

本文以进一步提高汉语语料库分词和词性标注的正确率，提高汉语语料的整体加工质量为目标，分别针对语料加工中的分词和词性标注两个阶段进行了研究和探讨：1．讨论和分析了自动分词的现状，并针对分词问题，提出了一种基于规则的中文文本分词自动校对方法。

该方法通过对机器分词语料和人工校对语料的学习，自动获取中文文本的分词校对规则，并应用规则对机器分词结果进行自动校对。

2．讨论和分析了词性标注的现状，并针对词性标注问题，提出了一种基于粗糙集的兼类词词性标注校对规则的自动获取方法。

该方法以大规模汉语语料为基础，利用粗糙集理论及方法为工具，挖掘兼类词词性标注校对规则，并应用规则对机器标注结果进行自动校对。

3．设计和实现了一个中文文本分词及词性标注自动校对实验系统，并分别做了封闭测试、开放测试及结果分析。

根据实验，分词校对封闭测试和开放测试的正确率分别为93.75％和81.05％；词性标注校对封闭测试和开放测试的正确率分别为90.40％和84.85％。

【关键词】：分词自动校对词性标注自动校对粗糙集中文信息处理语料库加工质量保证【学位授予单位】：山西大学【学位级别】：硕士【学位授予年份】：2003【分类号】：TP391.12【目录】：1引言8-141.1语料库加工及其意义81.2语料库加工现状及分析8-121.2.1机器自动加工现状8-101.2.2分词及词性标注校对现状10-121.3本论文的主要工作12-142基于规则的分词自动校对14-222.1问题提出142.2分词校对规则的自动获取14-182.2.1分词校对知识的获取及表示15-162.2.2分词校对规则的生成16-182.3分词自动校对18-212.3.1自动校对算法18-192.3.2机器学习19-212.4规则的评价及规则集维护21-223基于粗糙集的兼类词词性自动校对22-313.1问题提出223.2相关理论简介22-243.2.1知识表达系统及决策表22-233.2.2决策表的约简23-243.3构建词性校对决策表24-273.3.1词性校对决策表的建立24-253.3.2词性校对决策表属性的约简25-273.4词性校对规则集的生成27-293.4.1规则一致化27-283.4.2规则集的评价及优化28-293.5词性自动校对29-314中文文本分词及词性标注自动校对实验系统31-404.1中文文本分词自动校对系统31-344.1.1中文文本分词自动校对系统结构31-324.1.2各模块主要功能32-334.1.3测试结果及分析33-344.2中文文本词性标注自动校对系统34-404.2.1中文文本词性标注自动校对系统结构34-354.2.2各模块主要功能35-364.2.3测试结果及分析36-405结束语40-41致谢41-42参考文献42-44 本论文购买请联系页眉网站。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中文分词实验
一、实验目的：
目的：了解并掌握基于匹配的分词方法，以及分词效果的评价方法。

实验要求：
1、从互联网上查找并构建不低于10万词的词典，构建词典的存储结构；
2、选择实现一种机械分词方法（双向最大匹配、双向最小匹配、正向减字最大匹配法等）。

3、在不低于1000个文本文件，每个文件大于1000字的文档中进行中文分词测试，记录并分析所选分词算法的准确率、分词速度。

预期效果：
1、平均准确率达到85%以上
二、实验方案：
1.实验平台
系统：win10
软件平台：spyder
语言：python
2.算法选择
选择正向减字最大匹配法，参照《搜索引擎-原理、技术与系统》教材第62页的描述，使用python语言在spyder软件环境下完成代码的编辑。

算法流程图：
Figure Error! No sequence specified.. 正向减字最大匹配算法流程
Figure Error! No sequence specified.. 切词算法流程算法伪代码描述：
3.实验步骤
1)在网上查找语料和词典文本文件；
2)思考并编写代码构建词典存储结构；
3)编写代码将语料分割为1500个文本文件，每个文件的字数大于1000字；
4)编写分词代码；
5)思考并编写代码将语料标注为可计算准确率的文本；
6)对测试集和分词结果集进行合并；
7)对分词结果进行统计，计算准确率，召回率及F值（正确率和召回率的
调和平均值）；
8)思考总结，分析结论。

4.实验实施
我进行了两轮实验，第一轮实验效果比较差，于是仔细思考了原因，进行了第二轮实验，修改参数，代码，重新分词以及计算准确率，效果一下子提升了很多。

实验过程：
(1)语料来源：语料来自SIGHAN的官方主页
（/），SIGHAN是国际计算语言学会（ACL）
中文语言处理小组的简称，其英文全称为“Special Interest Group for
Chinese Language Processing of the Association for Computational
Linguistics”，又可以理解为“SIG汉“或“SIG漢“。

SIGHAN为我们提供了一
个非商业使用（non-commercial）的免费分词语料库获取途径。

我下载
的是Bakeoff 2005的中文语料。

有86925行，2368390个词语。

语料形
式：“没有孩子的世界是寂寞的，没有老人的世界是寒冷的。

”
Figure Error! No sequence specified.. notepad++对语料文本的统计结果
(2)词典：词典用的是来自网络的有373万多个词语的词典，采用的数据结
构为python的一种数据结构——集合。

Figure Error! No sequence specified.. notepad++对词典文本的统计结果
(3)分割测试数据集：将原数据分割成1500个文本文件，每个文件的词数大于
1000。

Figure Error! No sequence specified.. 测试数据集分解截图
Figure Error! No sequence specified.. 其中某文件的形式
Figure Error! No sequence specified.. notepad++对其中一个测试文本的统计结果
(4)编写分词代码：采用python语言和教材上介绍的算法思路，进行编程。

(5)编写代码将语料标注为可计算准确率的文本：用B代表单词的开始字，
E代表结尾的字，BE代表中间的字，如果只有一个字，用E表示。

例如：原数据是：“人们常说生活是一部教科书”
而我将它转化为了如下格式：
人 B
们 E
常 E
说 E
生 B
活 E
是 E
一 E
部 E
教 B
科 BE
书 E
(6)进行分词：使用之前编写的分词函数，载入文本，进行分词，将每个文
本结果输出到txt文本。

Figure Error! No sequence specified.. 分词结果文件
Figure 9. 测试数据的形式（文本截图）
Figure 10. 分词结果（文本截图）
用时17秒左右：
Figure 11. 运行时间
(7)对测试集和分词结果集进行合并：将测试集和分词结果集合并是为了进
行准确率，召回率等的计算。

测试集和训练集都是下面的格式：人 B
们 E
常 E
说 E
生 B
活 E
是 E
一 E
部 E
教 B
科 BE
书 E
我将他们合并为下面的格式，第二列为测试集的标注，第三列为训练集的结果：
人 B B
们 E E
常 E E
说 E E
生 B B
活 E E
是 E E
一 E BE
部 E E
教 B B
科 BE BE
书 E E
(8)对分词结果进行统计，计算准确率P，召回率R及F值（正确率和召回
率的调和平均值），设提取出的信息条数为C,提取出的正确信息条数为CR, 样本中的信息条数O：
P=CR C
R=CR O
F=2×P×R P+R
计算结果如下：
(9)反思：平均准确率只有75.79%，为何分词效果这么差，没有达到我的预期效果
85%，经过思考和多次尝试才发现，原来是因为我的词典太大了，最大匹配分词效果对词典依赖很大，不是词典越大越好，还有就是我的词典和我的测试数据的相关性不大，于是我修改了词典，进行了第二轮测试。

(10)修改词典：将词典大小裁剪，但是不能只取局部，例如前面10万词或后面10万
词，于是我的做法是在373万词的词典中随机取3万词，再用之前没用完的语料
制作7万词，组成10万词的词典：
Figure 12. notepad++对重新制作的词典文本的统计结果
(11)
此时分词的平均准确率提高到了87.13%，还是很不错的，说明我的反思是有道理的。

三、实验结果及分析：
实验结果：
第一轮分词结果只有75.79%，而我的预期效果或者说目标是85%以上，我先是思考是不是这个算法只能达到这么多，于是通过网络和询问同学的分词准确率知道，这个结果是可以继续提升的。

于是，我仔细思考了每一个环节，发现问题主要出在词典上面，因为词典中的词越多，利用做大匹配分出来的词的平均长度就越长，分得的词数也越少，错误率反而增大，而那些分法可能并不是我
们想要的，而且我的词典和我的语料相关性很小，分词效果是依赖于这个词典的相关性的。

然后我尝试减少词典的大小，见减小到150万词，发现效果确实好了点，于是干脆只在原词典中取出3万词，自己再用语料库没用过的同类型的语料做一份词典，再把它们合起来，结果分词准确率一下子提高到了87.13%，说明我的想法是有道理。

简言之：
影响中文分词效果的因素：词典的大小，数据集的规范性，算法的优越程度
如何提高中文分词的准确率：规范的数据集，合理大小的词典，好的算法
四、实验总结：
本次实验大概总耗时50个小时，代码量为300余行，期间遇到过很多问题，幸好都一一解决了，比如在合并测试集和分词结果集时，合并测试集和分词结果集时中词语的位置有错位，想了好几个办法才解决，其实在实验之前多思考思考是可以避免这种情况的。

本次实验中，分词是实验的重点，但难点不在分词上面，而在数据的处理和计算准确率。

我们还应多练习，多运用，多思考才能真正提升自己的能力。

五、参考文献：
数据集：SIGHAN bakeoff2005 数据集中的简体中文部分
链接：/bakeoff2005/
文献：1. 知乎：如何解释召回率与准确率？
链接：
2. 《搜索引擎--原理、技术与系统》。