中文命名实体识别方法研究及其在文本分类中的应用

中文命名实体识别方法研究及其在文本分类中的应用
中文命名实体识别方法研究及其在文本分类中的应用

中文命名实体识别方法研究及其在文本分类中的应用Chinese Named Entity Recognition Study and Application in Text

Categorization

(申请清华大学工程硕士专业学位论文)

培 养 单 位 : 软件学院

工 程 领 域 : 软件工程

申 请 人 : 刘彬

指 导 教 师 : 李 春 平 副教授

二○○九年五月

中文命名实体识别方法研究及其在文本分类中的应用

刘彬

关于学位论文使用授权的说明

本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆报送可以公开的学位论文。

本人保证遵守上述规定。

(保密的论文在解密后遵守此规定)

作者签名:导师签名:

日期:日期:

摘要

命名实体是一篇文章的基本信息元素,是正确理解文本的基础。命名实体识别就是判断文本中的一个字符串是否代表实体并确定实体的类别。由于中文自身的特点,中文命名实体识别相比于英文命名实体识别具有更大的难度。哪些措施可以尽可能的提高中文命名实体识别的效果?如何减少分词的确定性切分误差导致的命名实体识别的错误?命名实体识别技术如何有效的用到其他自然语言处理技术当中?本文将围绕这些问题展开研究。

本文首先采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。在此基础上,对利用中文语言学特点提高中文命名实体识别效果,动态随机场模型用于组织机构名识别,中文命名实体识别技术用于文本分类等问题做了研究。本文的主要贡献包括:

采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。同时,收集整理了若干语言学资料,以字典和词典的形式加入到链式条件随机场的特征模板当中,丰富了此方法的特征模板。通过和同类方法的比较,证明了我们的方法能够得到较好的识别效果。

提出了一种基于动态条件随机场的识别方法用于中文组织机构名的识别。此方法将中文分词和组织机构名识别融合到一个统一的过程当中,与同类方法相比能够取得更高的召回率,此方法尽可能的避免了分词的确定性切分的误差导致的命名实体识别的错误。

将中文命名实体识别技术用于中文文本分类任务。考虑到现有的特征选择方法都是基于概率统计模型,没有考虑到文章本身的语义信息,我们提出了一种引入命名实体识别技术的文本分类特征选择方法,并针对命名实体提出了对应的特征加权方法。通过和文本分类中常用的特征选择及特征加权方法比较,证明我们的方法是有效的。

关键词:中文命名实体识别 链式条件随机场 动态条件随机场 文本分类

I

Abstract

Named Entity, as the basic information unit of text, is important to the correct understanding of a text. Named Entity Recognition is to identify the words in a document belonging to Named Entities and further classify them into some predefined categories. Chinese Named Entity Recognition is more difficult than English Named Entity Recognition because of the special characteristics of Chinese language. How to gain better recognition effect of the Chinese Named Entity Recognition? How to reduce the Named Entity Recognition error which caused by the uncertainty error of segmentation? How to use Named Entity Recognition technology on other natural language processing tasks? We will research on these problems in the paper.

We design a Chinese Named Entity Recognition method and implement it at first. And then, we research the application of Dynamic Conditional Random Fields in organization names recognition and the application of Chinese named entity recognition in Chinese text categorization. In this paper, the main work and contribution include:

Design a Chinese Named Entity Recognition method and implement it based on linear-chain conditional random fields. We propose a new labeling solution which using different strategy for simply entities and complex entities. At the same time, we collect some Chinese language material and build some dictionaries for person names, location names and organization names. These dictionaries are helpful us building our feature templates and these feature templates are useful through experiments. Comparing with other named entity recognition mehtod, our method can get better performance in experiments. Propose a new organization name recognition method based on Dynamic Conditional Random Fields. The method merges word segmentation and Name Entity Recognition into one process. It can get higher recall than similar methods and reduce the Named Entity Recognition error which caused by the uncertainty error of segmentation as fully as possible.

Use Chinese Named Entity Recognition technology in text categorization. Considering existing feature selection methods are all based on statistical probability model, we propose a feature selection method which uses Named Entity Recognition technology. At the same time, we design a term weighting method for Named Entity. Comparing with other common feature selection methods in text categorization, our method is effective.

Keywords:Chinese Named Entity Recognition

Linear-chain Conditional Random Fields

Dynamic Conditional Random Fields Text Categorization

II

目录

第1章 绪论1

1.1 研究背景1

1.2 问题描述1

1.2.1 命名实体识别的定义1

1.2.2 中文命名实体识别的难点2

1.3 国内外研究综述2

1.3.1 中文命名实体识别的研究现状2

1.3.2 命名实体识别的相关评测会议4

1.4 论文研究主要工作6

第2章 条件随机场的相关理论知识8

2.1 条件随机场8

2.1.1 条件随机场的定义8

2.1.2 条件随机场的相关研究8

2.1.3 条件随机场的应用领域9

2.2 链式条件随机场9

2.2.1 模型表示 10

2.2.2 参数估计 11

2.3 动态条件随机场 12

2.3.1 模型表示 12

2.3.2 推理过程 13

2.3.3 参数估计 14

2.4 本章小结 14

第3章 基于链式条件随机场的中文命名实体识别方法 15 3.1 识别方法的设计方案 15

3.1.1 整体设计思想 15

3.1.1.1 基于字标注的方法 15

3.1.1.2 基于词标注的方法 16

3.1.2 语料预处理方法 17

3.1.3 模型训练方法 17

3.1.3.1 特征模板构造 18

3.1.3.2 特征选择方法 20

3.1.3.3 L-BFGS参数训练方法 20

3.1.4 实体识别标记方法 21

3.2 识别方法的系统实现 22

3.3 实验结果与分析 23

3.3.1 实验语料与评测标准 23

3.3.2 实验设计 24

3.3.3 实验结果及评价 24

III

3.4 本章小结 27

第4章 基于动态条件随机场的中文组织机构名识别方法 28 4.1 引言 28

4.1.1 中文组织机构名识别的研究现状 28

4.1.2 中文组织机构名识别的难点 28

4.2 基于动态条件随机场的组织机构名识别方法 29

4.2.1 整体设计思想 29

4.2.2 语料预处理 30

4.2.3 模型训练 30

4.2.4 组织机构名识别标注 30

4.3 实验结果与分析 31

4.3.1 实验语料 31

4.3.2 动态条件随机场实验工具包 31

4.3.3 实验设计 32

4.3.4 实验结果 32

4.4 本章小结 33

第5章 中文命名实体识别技术在中文文本分类上的应用 35 5.1 引言 35

5.1.1 问题的提出 35

5.1.2 文本分类的相关工作 35

5.1.2.1 特征选择 35

5.1.2.2 特征加权 36

5.2 中文命名实体识别技术用于文本分类的方法 36

5.2.1 特征选择 36

5.2.2 特征加权 37

5.3 基于命名实体识别的文本分类方法的系统实现 38 5.4 实验结果与分析 39

5.4.1 实验语料 39

5.4.2 实验评测标准 39

5.4.3 实验设计 39

5.4.4 实验结果与分析 39

5.5 本章小结 41

第6章 总结和进一步工作 42

6.1 全文总结 42

6.2 进一步工作 42

参考文献 43

致谢 47

个人简历、在学期间发表的学术论文与研究成果 48

IV

第1章 绪论

1.1 研究背景

为了应对信息爆炸带来的严峻挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)的研究正是在这种背景下产生的。信息抽取系统的主要功能是从文本中抽取出特定的事实信息。比如,从购物网站抽取某类商品的详细信息,包括品牌,型号,价格,供货商,经销商等信息[1]。

根据MUC的定义,目前共有5种类型的信息抽取,包括命名实体识

别,指代消解,模板元素构建,模板关系构建以及情景模板建立[2]。

其中,命名实体的抽取是上面所说的模板元素任务的核心,同时也是整个信息抽取系统的基础。

命名实体是一篇文章的基本信息元素,往往指示了文章关注的主题信息。识别出文章的命名实体,能够帮助我们得到文章的一些重要信息。

命名实体识别不仅是信息抽取的重要组成部分,同时也是多种自然语言处理技术的重要基础。命名实体识别是对文本进行理解的前提工作,它的质量将直接影响后续的文本分析工作,例如在信息检索中,命名实体识别可以改善系统检索文档的相关度,并提高检索系统的召回率和准确率;在机器翻译领域,准确和高效的自动抽取文本中的命名实体,对于提高双语翻译的准确率和实用性都具有重要的意义;在组块分析过程中,可以通过命名实体识别将一些重要的命名实体进行修正,减少组块分析的错误率和复杂度;在问答系统中,基础工作就是识别出文档中的各类命名实体,然后根据实体的类别对各种问题进行答案匹配。由此可见,命名实体识别的研究具有重要的实用意义。

1.2 问题描述

1.2.1 命名实体识别的定义

命名实体识别最初是在MUC-6 (Message Understanding

Conference)上作为一个子任务提出的。它的主要任务就是判断一

个字符串是否代表一个命名实体,并确定它的类别,即发现命名

实体和标注命名实体。所谓命名实体(Named Entity)主要包括实

体(人名,地名,组织名),时间表达式(日期,时间),数字表

达式(货币值,百分数)等。

根据国家863命名实体识别评测小组发布的《2004年度命名实体

识别评测大纲》,命名实体任务被定义为:“命名实体任务由三个

子任务组成(命名实体、时间式、数字表达式)。被标注的表达式

为命名实体(组织、人、地点)、时间(日期、时间)及数量”。

从这个定义上可以看出,狭义的讲,命名实体有三种:人名、地

名、组织机构名。广义的讲,命名实体有六种:人名、地名、组

织机构名、日期、时间和数量,这和MUC-7的定义是一致的。其

中人名,地名和组织机构名是识别难度较大也是最重要的三类命

1

名实体,一般的命名实体识别技术研究也是主要关注于这三类实体。图1.1就是一个中文命名实体识别的实例。

图1.1 中文命名实体识别实例

在上面的例子中,“李鹏”,“贾庆林”为人名,标记为PER;“北京”为地名,标记为LOC;“北京市委”,“北京石景山发电总厂”,“华北电力集团公司”为组织机构名,标记为ORG。

1.2.2 中文命名实体识别的难点

命名实体识别在英语中已经取得了较好的研究成果,然而中文的命名实体识别研究仍处在不成熟的阶段。命名实体本身所具有的发展性和构词方式的随意性,以及各类词之间的共享性和制约性都对命名实体识别带来了一定的困难,相对于其它语言中的命名实体识别问题,中文命名实体识别又有一些特殊的难点,总结起来有以下四点:

1)中文命名实体识别的结果和分词结果相互影响。词在汉语中是个模糊的概念,没有明确的定义。分词仍然是中文信息处理的一个技术难题。边界模糊不仅存在于非实体词之间,也出现于实体词和非实体词之间。因此对于分词中的错误,相应地也会造成命名实体识别中的错误。同时,在命名实体识别时也会对分词结果作一些调整。这样导致了命名实体识别和分词相互交叉,使得中文命名实体识别面临更多的问题。

2)中文命名实体的生成规律以及结构相比英文更加复杂。比如缩略语的表示形式具有多样性,较难提取构成规则,例如中(中国)美(美国)关系,北(北京)大(大学)等。因此较难用一种识别模型应用于所有的命名实体。

3)中文缺少在命名实体识别中起重要作用的词形变换特征。英语

2

中的这类信息能很好地指出实体的位置和边界,比如英语中的命

名实体大都是以大写字母开头,而中文并不具备这类显式的特征。

4)除了一些比较特殊的字词外,命名实体中包含了大量的普通

字词。几乎所有的字词都有可能作为命名实体,这给命名实体的

识别带来了很大的困难。

1.3 国内外研究综述

1.3.1 中文命名实体识别的研究现状

命名实体识别主要有两类方法:基于规则的方法和基于机器学习

的方法。总的来说,规则的方法准确率较高,且接近人的思维方

式。但是规则往往依赖于具体语言,领域,文本格式,可移植性

差。和规则的方法比,基于机器学习的方法的健壮性和灵活性更

好,且比较客观,不需要太多的人工干预和领域知识,但数据稀

疏问题比较严重,效率相对较低,同时这类方法还要求大规模的

语料库[3]。本文主要是立足于机器学习的方法来实现命名实体识

别,下面我们介绍近年来基于机器学习方法的中文命名实体识别

的主要研究成果。

1998年国立台湾大学的Hsinhis Chen,Yungwei Ding等设计了

NTU系统[4]。NTU系统采用了不同的模型识别不同类别的命名实体。识别人名时使用统计模型,识别地名和机构名时使用规则,

利用MET-2测试时,总的F值为79.61%。但是该系统很容易因为概率低于阈值漏标人名,因为规则不匹配而漏标地名和机构名。

这是早期中文命名实体识别研究工作的代表。

在2002年的计算语言学国际会议(COLING2002)上,新加坡大学的Shiren Ye和Tat-Seng Chua提出一种基于多重主体结构推理

模型[5]的中文命名实体识别方法。它将中文命名实体的识别过程

分为两步,首先使用贪心算法和命名实体的推理模型来评价和检

测出文本中所有候选的命名实体,然后将选出的最有可能是命名

实体的过程作为一个多重主题协商问题来处理。这种方法可以识

别很多复杂的命名实体,但是系统的运行效率不高。

同样在COLING2002上,北京大学的Jian Sun则用基于类的语言

模型将分词和命名实体识别合并到一个过程中处理[6]。系统包含

上下文模块和实体模块两个子模块,前者用于估计在给定的上下

文环境下产生命名实体的概率,后者用于估计输入的汉字序列成

为某种命名实体的概率。利用MET-2集测试F值为81.79%,利用IEER测试集测试F值为78.75%。但是该系统过于依赖统计信息,必须用大规模的标注语料训练,且不可避免的遇到数据稀疏问题。

IBM CRL(IBM中国研究院)的Honglei Guo在2004年使用鲁棒性风险最小化(Robust Risk Minimization,RRM)作为命名实体

分类器,并有效结合了基于字和基于词的模型的优点用于命名实

体识别[7]。他以字为基本单元,将分词信息,语义特征,词性,

3

命名实体触发器等融入其中。为了体现某些特征的重要性,还引入了一种特征权重机制,即在构造输入向量时将这些特征重复两次或多次。使用IBM的标注语料测试,总的准确率,召回率和F 值分别为86.79%,82.49%和84.59%。

在2004年机器学习国际会议(ICML2004)上,马萨诸塞州大学的Charles Sutton等人对条件随机场模型(Conditional Random Fields,CRFs)进行了改进,提出了动态条件随机场模型[8](Dynamic Conditional Random Fields,DCRF)用于序列标注问题。相对于条件随机场模型,动态条件随机场模型更为复杂,它不仅能够处理一般的线性条件随机场模型,而且可以处理复杂的阶乘条件随机场模型。和动态贝叶斯网络相似,在同一时间段,它可以处理多个状态变量。由于精确的数学模型难以推导,在描述动态条件随机场模型信念网络传播时采用了基于树的重新参数化(Tree-based Reparameterization,TRP)等近似的时间度量方法。在处理自然语言组块分析任务时,动态条件随机场模型比一般的线性条件随机场效率更高,同时更为重要的是动态条件随机场模型达到预定试验效果只需一般的训练集,这对于序列标注问题来说是十分重要的特性。

在2005年知识发现和数据挖掘会议(SIGKDD2005)上,香港大学的Guohong Fu提出一种基于词汇的隐马尔可夫算法的中文命

名实体识别方法[9]。他将未知词语识别和命名实体识别统一起来,并利用词汇的特点提出新的命名实体标注方式。本方法利用

MET-2测试集F值对应人名,地名和机构名分别为78.00%,77.21%和70.72%。

在2006年的国际计算语言学学术会议(ACL2006)上,上海交通大学的Tianfang Yao等人设计出了一种自然语言处理任务解决方案的综合处理系统[10],能够进行中文分词,词性标注,命名实体识别和命名实体关系抽取等任务。特别是其将命名实体识别和命名实体关系抽取结合起来,应用上起到了良好的效果。其中分词和词性标注的F值分别可以达到92.86%和90.01%,针对6种实体和14中关系的实体识别和关系抽取,F值分别达到83.08%和74.46%。

在2007年的自然计算国际会议(ICNC2007)上,中科院自动化所的PENG LU等人提出了层次条件随机场[11](Hierarchical Conditional Random Fields,HCRF)方法用于中文命名实体识别。层次条件随机场方法仍然以条件随机场模型作为实体识别的训练模型,但是将人名,地名和机构名联系起来,根据实体识别的难易程度将人名,地名和机构名分为三个层次来分别使用条件随机场模型训练,同时人名和地名的识别结果将影响复杂的机构名的识别,提高了整体的实体识别效果。单独使用条件随机场模型,

4

人名,地名和机构名实体识别的F值分别达到91.21%,90.78%,84.34%,使用层次条件随机场模型,三种实体的F值分别达到了95.44%,93.13%,87.14%。

2007年的一系列会议上,命名实体识别在Wikipedia上的应用成了热点,其中Yotaro Watanabe等人在自然语言处理经验方法会议(EMNLP2007)上提出的一种基于图的命名实体识别方法在Wikipedia上的应用[12]是众多应用的代表。处理Wikipedia数据可以看成处理与命名实体关联的HTML页面。将每个页面看成一个节点,采用图结构来对这些节点对应的实体进行分类。这种方法仍然是基于条件随机场模型来进行序列标注,由于这种图结构包括闭环,所以采用基于树的重新参数化方法来对模型近似求解。与支持向量机(Support Vector Machine,SVM)模型相比,此图结构模型的试验效果有较大的提高。这也是命名实体识别技术在Web领域比较成功的应用。

上述工作就是国内外近年来中文命名实体识别的主要研究成果。

1.3.2 命名实体识别的相关评测会议

高水平的评测会议是推动相关技术发展的重要动力,也为相关领域的技术交流提供了良好的平台。命名实体识别技术的发展同样离不开一系列重要的评测会议,这里我们介绍一些包含命名实体识别任务的评测会议。

1)消息理解会议

80年代末,美国国防高级研究计划委员会(the Defense Advanced Research projects Agency,DARPA)资助发起的消息理解会议(Message Understanding conference,MUC)[13],从1987年到1998年举办过七次,极大的推动了信息抽取技术的发展, 现已停办。MUC会议目的是为了对各研究小组开发的信息提取系统进行评测。评测时使用限定领域的自由文本。每次会议选择不同的领域。从MUC-1到MUC-5的前五次会议是带有探索性质的,摸索如何能够更好的评价参加评测的信息提取系统。MUC-1(1987),既没有定义评测任务也没有定义评测标准。在MUC-2(1989),明确了评测任务,但是没有确定评测标准。MUC-3(1991),定义了二个评价指标:召回率R和准确率P。MUC-4(1992),在前一届的基础上,增加了F值来综合评价系统。MUC-5(1993),增加了基于错误的评价标准。MUC-6(1995),组织者设置了一个命名实体识别的子任务,专门处理人名、机构名、地名、日期。这是命名实体识别技术第一次被明确提出作为单独的基础技术研究。MUC-7(1998),增加了中文命名实体识别的评测。

2)自动内容抽取评测会议

随着MUC会议的停办,自动内容抽取(Automatic Content Extraction, ACE)评测[14]于2000年12月正式启动。ACE评测会

5

议是由美国国家标准技术研究所(National Institute of Standard Technology, NIST)组织的,至今已经举办了八届,从2009年起并入文本分析会议(Text Analysis Conference, TAC)。ACE评测会议的目的是为了发展从自然语言描述的文本中自动提取内容的技术,其主要内容是从新闻语料中自动抽取实体、关系、事件等内容。目前ACE评测主要有三个阶段的任务:实体识别(Entity Detection and Recognition,EDR)、关系识别(Relation Detection and Recognition,RDC)、事件检测与识别(Event Detection and Characterization)。从2003年起,ACE增加了中文评测。在MUC 评测结束之后, ACE评测一直将命名实体识别作为所有评测任务中的第一阶段任务,使得命名实体识别技术的不断向前发展。3)国际中文自然语言处理竞赛

国际计算语言学协会(Association for Computational Linguistics,ACL)下属的中文处理专业委员会(Special Interest Group on Chinese Language Processing,SIGHAN),在2003、2005、2006

和2008年先后举办了四届中文自然语言处理竞赛(Bakeoff)[15] [16] [17] [18]。前两届均为中文分词评测,从第三届开始还增加了命名实体识别评测任务。在2008年的命名实体识别评测中,提供了两种语料以供训练和测试,分别来自香港城市大学(CityU),微软亚洲研究院(MSRA)。每种语料包括一个训练集和一个测试集,在每种语料上分别进行封闭和开放两种评测。在封闭测试中,评测系统在训练系统时,只能使用指定的训练语料,不能使用除此以外的任何知识。而在开放测试中,除了指定的训练语料,评测系统可以使用任何知识来训练自己的系统,比如各种词表、分词、词性以及来自其它语料库的信息等。由于SIGHAN的评测活动是专门针对中文信息处理而举办的,由此极大地推动了中文分词和命名实体识别的发展。

4)863评测会议

在国内,国家863计划智能计算机专家组从1995年起,组织了中文信息处理与智能人机接口技术评测。并于2003年首次将中文命名实体识别作为其分词标注评测的子任务,在2004年更将其作为一个独立的评测项目。2004年的命名实体任务由三个子任务组成:命名实体、时间表达式、数字表达式,其中命名实体又分为人名、地名和组织名三类。

目前,在英文命名实体识别方面,学者们已经进行了许多的研究工作并取得了不错的效果。在MUC-7评测中,表现最好的命名实体识别系统达的准确率和召回率分别达到95%和92%;在CoNLL-2003(Conference on Computational Natural Language Learning,CoNLL)的命名实体识别评测任务中,成绩最好的命名实体识别系统的准确率、召回率和F值分别为88.99%、88.54%和

6

88.76%。

在中文命名实体识别方面,近期的研究也取得了不错的成果,在

第四届中文自然语言处理竞赛中,在CITYU的测试语料上,封闭测试成绩最好的系统的准确率、召回率和F值分别为87.7%、82.5%和85%。

1.4 论文研究主要工作

尽管经过多年的研究,中文命名实体识别技术取得了不少的进展,但是仍然存在一些问题有待解决,以下三点是较有代表性的问题:

1)与英文相比,中文更加复杂,中文的人名,地名和组织机构名的组成包含了很多中文的语言习惯。如何充分利用中文语言学的特点提高中文命名实体识别的精度,是中文命名实体识别研究的一大问题。2)中文命名实体识别和英文命名实体识别最大的区别在于中文命名实体识别比英文命名实体识别多一个中文分词的步骤。目前大多数的中文命名实体识别方法都是将分词和命名实体识别分为两个独立的步骤,即先对文本进行分词,得到确定的分词结果之后再识别人名,地名和组织机构名。这种确定性的切分很可能导致命名实体识别的错误,影响命名实体识别的精度。如何最大程度的消除这种确定性切分的影响也是中文命名实体识别研究的一大问题。

3)在研究背景中我们提到,中文命名实体识别是对文本进行理解的前提工作,它是多种自然语言处理技术的重要基础,在信息检索,机器翻译,组块分析以及问答系统中都得到了重要的应用。如何将中文命名实体识别技术有效合理的用到其他中文语言处理技术中,也是命名实体识别研究的问题之一。

针对上述中文命名实体研究中存在的问题,本文从以下三方面展开研究:

1)充分考虑中文语言学的特点,采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。同时,通过收集整理若干语言学资料,将其以字典和词典的形式加入到链式条件随机场的特征模板当中,扩展链式条件随机场特征模板。从以上两方面著手,尽可能充分利用中文语言学的特点提高中文命名实体识别的精度。

2)提出了一种基于动态条件随机场模型的命名实体识别方法,这种方法将分词和命名实体识别两个步骤融合到一个统一的过程当中,利用两者结果的互相作用分别提高分词和命名实体识别的精度,最大程度上消除分词的确定性切分对中文命名实体识别精度的影响。

3)考虑如何将中文命名实体识别技术用于文本分类任务当中。我们提出一种基于命名实体识别结果的文本分类特征选择方法,即在对文本分词之后先对文本进行命名实体识别,抽取其中的人名,地名和组织机构名,然后将这些实体作为特征再结合原有的特征选择算法得到更为有效的特征。同时针对这种特征选择方法提出对应的特征加权方法。

7

本文的主要研究工作将从上述三点展开,论文章节具体安排如下:第2章主要介绍本文使用的主要理论,包括链式条件随机场和动态条件随机场的相关理论知识。

第3章介绍一种基于链式条件随机场模型的中文命名实体识别方法。此方法将命名实体分为简单实体和复杂实体,针对不同实体采用不同的标注策略。这一章首先详细介绍此命名实体识别方法的各个步骤,然后描述此方法的系统实现,最后设计了两组实验来验证我们方法的识别效果。

第4章介绍一种基于动态条件随机场模型的命名实体识别方法。此方法将分词和命名实体识别融合到一个统一的过程中并以组织机构名为识别对象,基于动态条件随机场模型的实体识别方法,最大程度上克服了分词的确定性切分误差导致的实体识别错误。这一章首先对第3章中组织机构名识别的实验结果进行分析,然后详细介绍了这种基于动态条件随机场的命名实体识别方法,最后设计三组实验来验证我们这种方法对组织机构名的识别效果。

第5章介绍如何将中文命名实体识别技术用于中文文本分类的特征选择方法中以提高文本分类的效果。这一章首先介绍当前文本分类中特征选择方法的研究状况,然后详细介绍我们提出的一种引入文本命名实体识别结果的特征选择方法以及针对这种特征选择方法的特征加权方法,最后设计两组实验来验证我们提出的特征选择方法和特征加权方法的有效性。

第6章对本文的研究工作进行总结并提出了进一步的研究内容。

8

第2章条件随机场的相关理论知识

第2章 条件随机场的相关理论知识

本章首先介绍了条件随机场的基本概念和研究现状,然后统计条件随机场的应用领域。接着详细描述链式条件随机场的模型表示和参数估计,链式条件随机场是最基本和应用最广泛的条件随机场模型,我们在第3章提出的中文命名实体识别方法就是基于链式条件随机场模型的。然后我们详细描述了动态条件随机场的模型表示,推理过程和参数估计,动态条件随机场是一种衍生的条件随机场模型,与链式条件随机场相比,它能够处理更为复杂的情况。我们在第4章提出的复杂组织机构名识别方法是基于动态条件随机场模型的。

2.1 条件随机场

条件随机场(Conditional Random Fields, CRFs)是一种用于在给定输入结点值时计算指定输出结点值的条件概率的无向图模型,它具有表达元素长距离依赖性和交叠性特征的能力、能方便地在模型中包含领域知识、较好地解决了标注偏置问题等优点。McCallum等人的研究[21]表明该模型在解决英文命名实体的识别任务时,具有较好的效果和性能。

2.1.1 条件随机场的定义

条件随机场是一种无向图模型[19],假设X,Y分别表示需要标记的

观察序列和相对应的标记序列的联合分布随机变量,那么条件随

机场(X,Y)就是一个以观察序列X为条件的无向图模型。

定义G=(V,E)为一个无向图,Y={Y v|v∈V}即V中的每个节点对

应于一个随机变量所表示的标记序列的元素Y v。如果每个随机变

量Y v对于G遵守马尔可夫属性,即前面所提到的条件独立性,那

么(X,Y)就构成一个条件随机场,而且在给定X和所有其他随

机变量Y{u|u≠v,{u,v}∈V}的条件下,随机变量Y v的概率p(Y v|X, Y u,u≠

v,{u,v}∈V)等于p(Y v|X, Y u,u≠v,{u,v}∈E)。

根据条件随机场的定义,我们可以把中文命名实体识别任务看作

是对一个中文序列中的每个词选择正确的命名实体标记的过程,

这样条件随机场就可以处理命名实体识别这种标注序列化数据的

任务。

2.1.2 条件随机场的相关研究

在2001年条件随机场提出之后,它在理论上有了迅速的发展,主

要体现在条件随机场结构的发展和条件随机场训练和推理方法的

发展,其中条件随机场结构的发展包括标注变量结构的变化和观

察变量结构的变化。这里我们从标注变量结构和观察变量结构出

发,介绍近年来条件随机场结构发展的情况,简单描述一些对条

件随机场结构改进的衍生模型。

标注变量结构的变化主要指其由一元标记发展为多元标记。多元

标记的马尔可夫随机场[22]早在1993年就由Luettgen等人提出,在

9

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

智能问答系统中命名实体识别问题研究

龙源期刊网 https://www.360docs.net/doc/ce12420483.html, 智能问答系统中命名实体识别问题研究 作者:费建军 来源:《数字技术与应用》2017年第07期 摘要:信息化时代的到来,人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起,促进了问答系统的发展。问答系统是构架于信息抽取之上,其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究,本文介绍了三中主流实体识别模型的,并将股票实体作为研究对象,最终采用了CRF(Conditional Random Field)条件随机场模型。在该模型基础上根据上下文和词性特征,提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。 关键词:股票;命名实体识别;CRF模型 中图分类号:TP391.6 文献标识码:A 文章编号:1007-9416(2017)07-0093-04 命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理 解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中,命名实体识别作为重要分支[3],其任务是标注语句中的实体,所以命名实体的识别有着非常关键的意义。作为文本的基本单位,它包含大量的语义信息,因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体,实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中,还需要根据具体要求来确定。本文中,要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的 构建方面发挥着关键性的作用。 命名实体识别的方法主要有:基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。 本文介绍了四种命名实体识别模型(基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型)以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点,选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型,并对模型的识别效果进行测试。 1 相关工作与常规实体识别模型 1.1 基于规则和词典的方法

文本分类入门(五)训练Part 2

将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。 再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做一个“假设”,因为毕竟是对真实分类规则的一个猜测),一旦这个分类满足一些条件,我们就认为这个分类规则大致正确并且足够好了,便成为训练阶段的最终产品——分类器!再遇到新的,计算机没有见过的文档时,便使用这个分类器来判断新文档的类别。 举一个现实中的例子,人们评价一辆车是否是“好车”的时候,可以看作一个分类问题。我们也可以把一辆车的所有特征提取出来转化为向量形式。在这个问题中词典向量可以为: D=(价格,最高时速,外观得分,性价比,稀有程度) 则一辆保时捷的向量表示就可以写成 vp=(200万,320,9.5,3,9) 而一辆丰田花冠则可以写成 vt=(15万,220,6.0,8,3) 找不同的人来评价哪辆车算好车,很可能会得出不同的结论。务实的人认为性价比才是评判的指标,他会认为丰田花冠是好车而保时捷不是;喜欢奢华的有钱人可能以稀有程度来评判,得出相反的结论;喜欢综合考量的人很可能把各项指标都加权考虑之后才下结论。

可见,对同一个分类问题,用同样的表示形式(同样的文档模型),但因为关注数据不同方面的特性而可能得到不同的结论。这种对文档数据不同方面侧重的不同导致了原理和实现方式都不尽相同的多种方法,每种方法也都对文本分类这个问题本身作了一些有利于自身的假设和简化,这些假设又接下来影响着依据这些方法而得到的分类器最终的表现,可谓环环相连,丝丝入扣,冥冥之中自有天意呀(这都什么词儿……)。 比较常见,家喻户晓,常年被评为国家免检产品(?!)的分类算法有一大堆,什么决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等等等等(这张单子还可以继续列下去)。在这里只挑几个最具代表性的算法侃一侃。Rocchio算法 Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有“体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。稍微改进一点的Rocchio算法不尽考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设,使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝

结合中文分词的贝叶斯文本分类

结合中文分词的贝叶斯文本分类 https://www.360docs.net/doc/ce12420483.html,/showarticle.aspx?id=247 来源:[] 作者:[] 日期:[2009-7-27] 魏晓宁1,2,朱巧明1,梁惺彦2 (1.苏州大学,江苏苏州215021;2.南通大学,江苏南通226007) 摘要:文本分类是组织大规模文档数据的基础和核心。朴素贝叶斯文本分类方法是种简单且有效的文本分类算法,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型,结合中文分词过程,引入特征词条权重,给出了改进Bayes方法。并由实验验证和应用本方法,文本分类的效率得到了提高。 1. Using Bayesian in Text Classification with Participle-method WEI Xiao-ning1,2,ZHU Qiao-ming1,LIANG Xing-yan2 (1.Suzhou University,Suzhou 215006,China;2.Nantong University,Nantong 226007,China) Abstract:Text classification is the base and core of processing large amount of document data.Native Bayes text classifier is a simple and effective text classification method.Text classification is the key technology in organizing and processing large amount of document data.The practical Bayes algorithm is an useful technique which has an assumption of strong independence of different properties.Based on the polynomial model,a way in feature abstraction considering word-weight and participle-method is introduced. At last the experiments show that efficiency of text classification is improved. 1.0引言 文档分类是组织大规模文档数据的基础和核心,利用计算机进行自动文档分类是自然语言处理和人工智能领域中一项具有重要应用价值的课题。现有的分类方法主要是基于统计理论和机器学习方法的,比较著名的文档分类方法有Bayes、KNN、LLSF、Nnet、Boosting及SVM等。 贝叶斯分类器是基于贝叶斯学习方法的分类器,其原理虽然较简单,但是其在实际应用中很成功。贝叶斯模型中的朴素贝叶斯算法有一个很重要的假设,就是属性间的条件独立[1][2],而现实中属性之间这种独立性很难存在。因此,本文提出了一种改进型的基于朴素贝叶斯网络的分类方法,针对于文本特征,结合信息增益于文本分类过程,实验表明文本分类的准确率在一定程度上有所提高。

文本分类入门(八)中英文文本分类的异同

从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。 对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段“特征”的最基本单位),例如原文是“中华人民共和国今天成立了”的文本就要被切分成“中华/人民/共和国/今天/成立/了”这样的形式。而对英文来说,没有这个步骤(更严格的说,并不是没有这个步骤,而是英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来)。中文分词的效果对文本分类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。分词本身也是一个值得大书特书的问题,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。 预处理中在分词之后的“去停止词”一步对两者来说是相同的,都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“我们”,“在”,“了”,“的”这样的词汇都会被去除,英文中的“ an”,“in”,“the”等也一样。这一步骤会参照一个被称为“停止词表”的数据(里面记录了应该被去除的词,有可能是以文件形式存储在硬盘上,也有可能是以数据结构形式放在内存中)来进行。 对中文文本来说,到此就已初审合格,可以参加训练了(笑)。而英文文本还有进一步简化和压缩的空间。我们都知道,英文中同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。而正因为词义本身没有变化,仅仅词形不同的词就不应该作为独立的词来存储和和参与分类计算。去除这些词形不同,但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,例如在一篇英文文档中,经过词根还原后,“computer”,“compute”,“computing”,“computational”这些词全都被处理成“compute”(大小写转换也在这一步完成,当然,还要记下这些词的数目作为compute的词频信息)。 经过预处理步骤之后,原始文档转换成了非常节省资源,也便于计算的形式,后面的训练阶段大同小异(仅仅抽取出的特征不同而已,毕竟,一个是中文词汇的集合,一个是英文词汇的集合嘛)。 下一章节侃侃分类问题本身的分类。

【CN109977402A】一种命名实体识别方法及系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910202512.9 (22)申请日 2019.03.11 (71)申请人 北京明略软件系统有限公司 地址 102218 北京市昌平区东小口镇中东 路398号中煤建设集团大厦1号楼5层 (72)发明人 张金贺 徐安华 欧阳佑  (74)专利代理机构 北京安信方达知识产权代理 有限公司 11262 代理人 柳倩 栗若木 (51)Int.Cl. G06F 17/27(2006.01) (54)发明名称 一种命名实体识别方法及系统 (57)摘要 本申请公开了一种命名实体识别方法及系 统,所述方法包括:对待处理文本进行预处理,得 到预处理结果;根据所述预处理结果得到对应所 述待处理文本的上下文信息敏感的字符级表达 信息;创建与不同命名实体类型一一对应的条件 随机场CRF解码单元,各条件随机场CRF解码单元 分别对所述上下文信息敏感的字符级表达信息 进行解码,生成各命名实体类型对应的标签序 列;分别根据各标签序列抽取对应的命名实体。 本申请解决了现有技术中对于重叠的命名实体 识别方案中所存在的效率低下的问题,通过共享 机制减少了冗余信息,降低了推理时间,使得不 同类型实体识别时能够进行相互协助,从而提升 了单类实体的识别效果。权利要求书2页 说明书6页 附图3页CN 109977402 A 2019.07.05 C N 109977402 A

权 利 要 求 书1/2页CN 109977402 A 1.一种命名实体识别方法,其特征在于,包括: 对待处理文本进行预处理,得到预处理结果; 根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息; 创建与不同命名实体类型一一对应的条件随机场CRF解码单元,各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码,生成各命名实体类型对应的标签序列; 分别根据各标签序列抽取对应的命名实体。 2.根据权利要求1所述的方法,其特征在于,其中,所述预处理结果的类型包括:对应所述待处理文本的字符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。 3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息,包括: 根据所述预处理结果的类型构建与所述类型对应的特征信息; 对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息。 4.根据权利要求3所述的方法,其特征在于,其中,所述特征信息包括:对应所述字符集的字符编码信息,对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息和对应所述词性集的词性特征信息。 5.根据权利要求4所述的方法,其特征在于,所述对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息,包括: 利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特征信息,构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。 6.一种命名实体识别系统,其特征在于,包括: 文本预处理模块,设置为对待处理文本进行预处理,得到预处理结果; 编码模块,设置为根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息; 多任务CRF解码模块,设置为创建与不同命名实体类型一一对应的条件随机场CRF解码单元,各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码,生成各命名实体类型对应的标签序列; 输出整合模块,设置为分别根据各标签序列抽取对应的命名实体。 7.根据权利要求6所述的系统,其特征在于,其中,所述预处理结果的类型包括:对应所述待处理文本的字符集,对所述待处理文本进行分词后的词汇集,对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。 8.根据权利要求7所述的系统,其特征在于,所述编码模块,具体设置为: 特征抽取模块,设置为根据所述预处理结果的类型构建与所述类型对应的特征信息; 上下文表达构建模块,设置为对所述特征信息进行处理,得到对应所述待处理文本的上下文信息敏感的字符级表达信息。 9.根据权利要求8所述的系统,其特征在于,其中,所述特征信息包括:对应所述字符集的字符编码信息,对应所述词汇集的分词边界信息,对应所述句子集的句子边界距离信息 2

中文文本分类语料

中文文本分类语料 文本自动分类就是用电脑对文本按照一定的分类体系或标准进行自动分类标记。 文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。现如今,统计学习方法已经成为了文本分类领域绝对的主流。 统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。 1.中科院自动化所的中英文新闻语料库https://www.360docs.net/doc/ce12420483.html,/data/13484 中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。 2.搜狗的中文新闻语料库https://www.360docs.net/doc/ce12420483.html,/labs/dl/c.html 包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。 3.李荣陆老师的中文语料库 https://www.360docs.net/doc/ce12420483.html,/data/11968 压缩后有240M大小 4.谭松波老师的中文文本分类语料https://www.360docs.net/doc/ce12420483.html,/data/11970 不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。 5.网易分类文本数据https://www.360docs.net/doc/ce12420483.html,/data/11965 包含运动、汽车等六大类的4000条文本数据。 6.中文文本分类语料https://www.360docs.net/doc/ce12420483.html,/data/11963 包含Arts、Literature等类别的语料文本。 7.更全的搜狗文本分类语料 https://www.360docs.net/doc/ce12420483.html,/labs/dl/c.html 搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载 8.2002年中文网页分类训练集https://www.360docs.net/doc/ce12420483.html,/data/15021 2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.360docs.net/doc/ce12420483.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.360docs.net/doc/ce12420483.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.360docs.net/doc/ce12420483.html,/p-030716713857.html TF-IDF的线性图解:https://www.360docs.net/doc/ce12420483.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.360docs.net/doc/ce12420483.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

人工智能在自动文本分类系统中的应用研究

人工智能在自动文本分类系统中的应用研究摘要:人工智能与信息社会人工智能研究的就是怎样利用机器模仿人脑从事推理规 划、设计、思考、学习等思维活动。文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。该文阐述了自动文本分类分类在利用人工智能技术设计时的必要性 和重要性,通过对当前具有代表性的分类算法原理进行分析、比较, 总结出每种算法的性 能特征, 既便于使用者了解掌握各种分类算法、更好地选择合适的算法, 又便于研究者对 算法进行研究改进, 提出性能更好的分类算法。 关键词:人工智能;分类; 文本分类; 分类方法 1 引言 数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据被描述为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的 工具, 理解它们已经远远超出了人的能力。 人工智能的一个重要支柱是数据挖掘技术。数据挖掘一开始只是一种从大规模数据库或数据仓库中提取隐藏的预测性信息的科学方法。它让人们有能力最终认识数据的真正价值,即数据中潜在的可用信息和知识。数据挖掘是数据库知识发现的核心步骤,它研究的主要目标是发展有关的方法论、理论工具,以支持从大量数据中提取有用的和让人们感兴趣的知识、模式和规则。其主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、知识分类算法、半结构化和非结构化数据中的知识发 现以及网上数据挖掘等 而分类作为数据挖掘的一种模式, 可以用于提取描述重要数据的模型, 通常是预测分 类标号( 或离散值) 。例如, 可以建立一个分类模型, 对银行贷款的安全或风险进行分 类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。 文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分 类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交互和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并 且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。 文本分类处理的研究是计算机、信息处理领域的重要内容, 特别是随着网络技术的快 速发展, 这种应用也变得更加迫切。 2 基本概念 2.1 人工智能

基于libsvm的中文文本分类原型

基于libsvm的中文文本分类原型 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。SVM理论的学习,请参考jasper的博客。 LIBSVM 是台湾大学林智仁(Chih-Jen Lin)博士等开发设计的一个操作简单、易于使用、快速有效的通用SVM 软件包,可以解决分类问题(包括C?SVC 、ν?SVC ),回归问题(包括ε ? SVR 、v? SVR )以及分布估计(one ? class ? SVM ) 等问题,提供了线性、多项式、径向基和S 形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。LIBSVM是一个开源的软件包,。他不仅提供了LIBSVM 的C++语言的算法源代码,还提供了Python、Java、R、MATLAB、Perl、Ruby、LabVIEW以及C#.net 等各种语言的接口,可以方便的在Windows 或UNIX 平台下使用,也便于科研工作者根据自己的需要进行改进(譬如设计使用符合自己特定问题需要 的核函数等)。 更多案例到WX 公zhong hao : datadw 文本分类,大致分为如下几件事情:样本,分词,特征提取,向量计算,分类训练,测试和调试。 1.样本选择 搜狗语料https://www.360docs.net/doc/ce12420483.html,/labs/dl/c.html,下精简版吧,如果实验用用,这足够了,你要下107M的也可以。当然,你也可以自己找语料,不过麻烦点而已,把各大门户网站的对应频道下的文章都爬下来。 2.分词

中文命名实体识别方法研究及其在文本分类中的应用

中文命名实体识别方法研究及其在文本分类中的应用Chinese Named Entity Recognition Study and Application in Text Categorization (申请清华大学工程硕士专业学位论文) 培 养 单 位 : 软件学院 工 程 领 域 : 软件工程 申 请 人 : 刘彬 指 导 教 师 : 李 春 平 副教授 二○○九年五月

中文命名实体识别方法研究及其在文本分类中的应用 刘彬

关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国家图书馆报送可以公开的学位论文。 本人保证遵守上述规定。 (保密的论文在解密后遵守此规定) 作者签名:导师签名: 日期:日期:

摘要 命名实体是一篇文章的基本信息元素,是正确理解文本的基础。命名实体识别就是判断文本中的一个字符串是否代表实体并确定实体的类别。由于中文自身的特点,中文命名实体识别相比于英文命名实体识别具有更大的难度。哪些措施可以尽可能的提高中文命名实体识别的效果?如何减少分词的确定性切分误差导致的命名实体识别的错误?命名实体识别技术如何有效的用到其他自然语言处理技术当中?本文将围绕这些问题展开研究。 本文首先采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。在此基础上,对利用中文语言学特点提高中文命名实体识别效果,动态随机场模型用于组织机构名识别,中文命名实体识别技术用于文本分类等问题做了研究。本文的主要贡献包括: 采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。同时,收集整理了若干语言学资料,以字典和词典的形式加入到链式条件随机场的特征模板当中,丰富了此方法的特征模板。通过和同类方法的比较,证明了我们的方法能够得到较好的识别效果。 提出了一种基于动态条件随机场的识别方法用于中文组织机构名的识别。此方法将中文分词和组织机构名识别融合到一个统一的过程当中,与同类方法相比能够取得更高的召回率,此方法尽可能的避免了分词的确定性切分的误差导致的命名实体识别的错误。 将中文命名实体识别技术用于中文文本分类任务。考虑到现有的特征选择方法都是基于概率统计模型,没有考虑到文章本身的语义信息,我们提出了一种引入命名实体识别技术的文本分类特征选择方法,并针对命名实体提出了对应的特征加权方法。通过和文本分类中常用的特征选择及特征加权方法比较,证明我们的方法是有效的。 关键词:中文命名实体识别 链式条件随机场 动态条件随机场 文本分类 I

Text-CNN 文本分类

Text-CNN 文本分类 1.简介 TextCNN 是利用卷积神经网络对文本进行分类的算法,由Yoon Kim 在“Convolutional Neural Networks for Sentence Classification” 一文(见参考[1]) 中提出. 是2014年的算法. 图1-1 参考[1] 中的论文配图

图1-2 网络盗图 合理性: 深度学习模型在计算机视觉与语音识别方面取得了卓越的成就. 在NLP 也是可以的. 卷积具有局部特征提取的功能, 所以可用CNN 来提取句子中类似n-gram 的关键信息. 2.参数与超参数 ?sequence_length Q: 对于CNN, 输入与输出都是固定的,可每个句子长短不一, 怎么处理? A: 需要做定长处理, 比如定为n, 超过的截断, 不足的补0. 注意补充的0对后面的结果没有影响,因为后面的max-pooling只会输出最大值,补零的项会被过滤掉.

?num_classes 多分类, 分为几类. ?vocabulary_size 语料库的词典大小, 记为|D|. ?embedding_size 将词向量的维度, 由原始的|D| 降维到embedding_size. ?filter_size_arr 多个不同size的filter. 3.Embedding Layer 通过一个隐藏层, 将one-hot 编码的词投影到一个低维空间中. 本质上是特征提取器,在指定维度中编码语义特征. 这样, 语义相近的词, 它们的欧氏距离或余弦距离也比较近. 4.Convolution Layer 为不同尺寸的filter 都建立一个卷积层. 所以会有多个feature map. 图像是像素点组成的二维数据, 有时还会有RGB三个通道, 所以它们的卷积核至少是二维的. 从某种程度上讲, word is to text as pixel is to image, 所以这个卷积核的size 与stride 会有些不一样. ?x i x i∈R k, 一个长度为n的句子中, 第i 个词语的词向量, 维度为k. ?x i:j x i:j=x i⊕x i+1⊕...⊕x j 表示在长度为n的句子中, 第[i,j] 个词语的词向量的拼接.

文本分类概述

第一章绪论 研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为万万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从%增长到%,到80年代每年增长率达%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前

文本分类方法研究

毕业论文 题目:文本分类方法研究 姓名:贾云璠 院系:理学院物理系 专业:物理学 年级: 2013级 学号: 201341021 指导教师:郑伟 二〇一七年六月

摘要 近些年来,随着信息技术的发展与应用,互联网上的数据错综复杂,面对如此纷繁复杂的数据,需要借助数据挖掘对数据进行处理来实现对数据的分类,以便查询和搜索,实现数据的最大利用价值。 文本分类在信息处理方面占有重要的作用,到目前为止,有很多种方法:KNN SVM 决策树,以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类,本文主要研究KNN SVM两种方法,在比较这两种分类对中文文本分类的基础之上,分析了K 临近算法和支持向量机的优缺点,因SVM和KNN具有互补的可能性,提出了SVM和KNN组合[1]的算法。实验表明:SVM和KNN有很好的分类效果。 关键词:文本分类,SVM、KNN,线性组合

Abstract In recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value. Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented. Key words: Text classification, SVM, KNN, linear combination

自动文本分类

摘要 九十年代以来,Internet 以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。 自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。 在本设计中,我们实现了一个基于支持向量机(SVM)的网页分类器,使用LTC权重作为特征项的权重表示,利用SVM的方法进行分类;并结合Unigram模型进行特征提取,实验证明,该方法提高了分类的准确率。 关键词 自然语言理解 向量空间模型 支持向量机 文本分类 Unigram模型 - 1 -

Abstract Since 1990s, Internet developed vapidly. There’re large amounts of information of any field, including text information, sound information, image information and so on. In recent years, how to find the most efficient information from the plentiful and disordered texts has become a target of information processing field. The Text Categorization System based on AI technique can automatically classify the texts according to their senses, thus help people control the information. Text Categorization has gradually been combined with other information processing techniques such as searching engine, information pushing, and information filter, in this way, the quality of information service has been effectively improved. Automatically Text Categorization is the problem of categorizing natural language texts according to given topics, which is a very important problem in natural language processing. Text Categorization can be applied in the task of information retrieval, machine translation, automatic summarization, information filter, e-mail filter and so on. The main problem of Text Categorization is how to select the features (words) and assign the weighting of them. In my work, I implemented a Chinese Web Page Classifier based on Support Vector Machine (SVM). The classifier uses LTC weighting as the representation of the features and uses SVM algorithm to categorize. Furthermore, I had combined the Unigram Model for feature selection, experimental results showed that this method can improve the categorization accuracy. Keywords Natural Language Processing, Vector Space Model, Support Vector Machine, Text Categorization, Text Classification, Unigram Model - 2 -

相关文档
最新文档