信息检索课件精简版文本分类

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文本分类
• 给定分类体系，将文本分到某个或者某几个类别中。 • 分类体系一般人工构造
– 政治、体育、军事 – 中美关系、恐怖事件 – 这里讲的分类主要基于内容
• 其他分类:文体、态度、风格…… • 人工方法
– 费时费力费钱 – 难以保证一致性 – 专家有时候凭空想象
• 自动方法
– 快速 – 一致性好 – 来源于真实文本，可信度高
• 对这K的文本的类别进行统计，若第i个类别的文本数目最多，则认为测试文本属于第i类。
可编辑ppt
11
K-Nearest Neighbor
训练文本
+ 政治
待分类文本
KNN分类（K = 5）
- 军事可编辑ppt * 体育
12
– 人类的判断大多依据经验以及直觉
• 因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验，作为今后分类的依据。
•
这便是统计学习方法的基本思想可编辑ppt
6
统计学习法
• 需要一批由人工进行了准确分类的文档作为学习的材料（称为训练集）
– 注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多
– 一个针对金融领域构建的分类系统，如果要扩充到医疗或社会保险等相关领域，则除了完全推倒重来以外没有其他办法，常常造成巨大的知识和资金浪费。
可编辑ppt
5
统计学习法
• 后来人们意识到，究竟依据什么特征来判断文本应当隶属的类别这个问题，就连人类自己都不太回答得清楚
– 有太多所谓“只可意会，不能言传”的东西在里面
– 相比之下，知识工程方法中专家的主观因素居多
可编辑ppt
7
文本分类的过程
文本表示
训练过程
训练文本
统计
统计量
新文本
特征表示学习
特征表示
分类过程
可编辑ppt
分类器
类别
8
Rocchio 核心向量法
• Rocchio是一种传统的分类方法 • 该方法为每一类别都构造一个核心向量
– 该核心向量是通过求这个训练集合的正负反馈的特征项权重(Feature Weight)的平均值
• 这里与特定规则的匹配程度成为了文本的特征。
• 由于在系统中加入了人为判断的因素，准确度比词匹配法大为提高。
可编辑ppt
4
知识工程方法的缺陷
• 分类的质量严重依赖于这些规则的好坏，也就是依赖于制定规则的“人”的好坏
• 制定规则的人都是专家级别，人力成本大幅上升常常令人难以承受
• 而知识工程最致命的弱点是完全不具备可推广性
• 计算机从这些文档中挖掘出一些能够有效分类的规则
– 这个过程被形象的称为训练 – 而总结出的规则集合常常被称为分类器
• 训练完成后，用分类器对计算机从来没有见过的文档进行分类
• 现如今，统计学习方法已经成为了文本分类领域绝对的主流
– 主要的原因在于其中的很多技术拥有坚实的理论基础，存在明确的评价标准，以及实际表现良好
可编辑ppt
1
自动文本分类的核心问题
• 文本分类与其它分类一样，其方法可以归结为根据待分类数据的某些特征来进行匹配
– 当然完全的匹配不太可能 – 必须根据某种评价标准选择最优的匹配结果
• 核心问题
– 用哪些特征表示文本才能准确、快速地分类
• 对特征的选择主导了不同的文本分分类方法流派
– 词匹配法、知识工程方法、统计学习法
• 在分类中，比较测试文本的向量和核心向量的相似度。
ຫໍສະໝຸດ Baidu
可编辑ppt
9
Rocchio 核心向量法
训练文本
Rocchio分类
+ 政治
- 军事可编辑ppt * 体育
10
K-Nearest Neighbor
• 给定一组分完类的训练文本，在此基础上对一个未知文本进行分类。
• 当指定K的个数时，计算每一个训练文本与测试文本的相似度，从其中取K个相似度最大的文本。
可编辑ppt
2
词匹配法
• 词匹配法是最早被提出的分类算法
• 该方法仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别
– 至多再加入同义词的处理
• 很显然，这种过于简单机械的方法无法带来良好的分类效果。
可编辑ppt
3
知识工程方法
• 后来兴起过一段时间的知识工程的方法
• 借助于专业人员的帮助，为每个类别定义大量的推理规则，如果一篇文档能满足这些推理规则，则可以判定属于该类别。