文本文献自动分类综述课件
合集下载
文献检索与文献综述PPT课件

昆明
昆明物理研究所
20
光通信技术
桂林
电子工业部第34研究所
21
固体电子学研究与进展 南京
南京电子器件研究所
22
广播与电视技术
北京
国家广播电影电视总局科技信息研究所
23
发光学报
沈阳
中国物理学会发光分学会等
24
压电与声光
重庆
机械电子工业部第26研究所
25
光电子、激光
天津
国家自然科学基金委员会信息科学部
26
2021/3/9
CHENLI
外事不决问google,内事不决问Wife
……
2021/3/9
CHENLI
18
IT领域常用文献资源——电子文献数据库
/Xplore/DynWel.jsp
/dl.cfm
/publications/dlib/
2021/3/9
CHENLI
7
文献综述的意义——与研究/论文的关系
查找文献资料、撰写文献综述是研究选 题与论文写作的第一步,是从事研究工 作必备的基本素质
用于表明你已经充分掌握了本领域的研究现 状,明确了别人已经做到了什么程度,你做 的工作与别人的工作有什么不同——借此说 明自己所做工作的意义
是开题报告的核心内容之一
第二,有助于研究者通过比较、分析,从众多可能选择的课题中确 定更有价值、更有前途、更适合研究者兴趣和发展专长的研究课题
第三,在确定研究课题时,充分查阅已有研究文献的最大好处就是 它有助于研究者避免选题上的重复,从而避免经济和时间上的损失
血的教训
2021/3/9
CHENLI
5
什么是文献综述
文献综述是文献综合评述的简称
文本分类过程PPT课件

支持向量机(Support Vector Machine,SVM),其分类思想是给定给一个包含正例和反例的样 本集合,svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分割。它在解决小样本、 非线性及高维模式识别中表现出许多特有的优势。
2019/12/30
17
中文文本分类过程中涉及许多 过程及参数,都会在不同程度 上影响分类器的分类效率。
特征个数越多,分析特征、训练模型所需的时间就越长。
特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。
特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数 ,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了 模型,使研究人员易于理解数据产生的过程。
文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博 一样的一段语料。由于类别时事先定义好的,因此分类是有监督的。
2019/12/30
5
01 文本分类应用领域
信息过滤
对获取的信息进行二分类的处理,即将用户需求的信息过滤出来,发送给 用户;将用户不感兴趣、不需要的不良信息、反动信息等过滤掉。垃圾邮 件过滤、新闻选择以及手机信息过滤等都是信息过滤的典型应用。
当前的知识信息主要以文本作为载体,大部分文本信息以非结 构化或半结构化的形式存在,如电子邮件、电子文档以及电子 档案等,它们不易被机器理解也不可能完全依靠人工进行管理。 因此,采用信息化手段通过机器学习方法对这些文本信息进行 处理显得尤为重要。
2019/12/30
4
01 文本分类概述
文本分类技术(Text Categorization,TC)作为组织和管理文本信 息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。
文献综述PPT课件

第6页/共34页
6
2.3 常见数据库检索示例
Cnki—中国学术期刊全文数据库 超星数字图书馆—中文电子图书数据库 EBSCO—ASP & BSP 英文期刊数据库
2021/8/19
第7页/共34页
7
三、文献的阅读与记录
阅读顺序方面 阅读目的方面 阅读选择方面 阅读的记录方面
2021/8/19
2021/8/19
第2页/共34页
2
文献检索的原则
• 检索的文献内容应与研究的主题有关 • 应检索具有学术性的文献
不检索新闻报纸、商业杂志等 满足“前人的可靠知识的考察和概括”要 求
• 手工检索不可缺少
最新的期刊杂志等
2021/8/19
第3页/共34页
3
2.2 文献检索的方法
在一般的研究中,文献检索的主要方式就是通过查找法进行检索
例如,(段从清,2005),(陈晓,王琨,2005)
✓当作者超过两个人时,可以只列出第一位作者,然 后,在其后加“等”字,再加上年份即可,其他作者 的姓名在参考文献中列出
例如,(李增泉等,2005)
2021/8/19
第27页/共34页
27
二、标注方式
❖用括号标注作者和年份(中文著作)
✓当作者只有一人或者只有两人时,应该将作者的姓
一、文献综述的目的
➢避免无根据的研究和不必要的重复研究
➢有助于追踪研究的前沿领域,确定研究位置 和自己的研究价值
➢指明以前研究中的成功和失败之处(优点与 缺陷所在),深化对研究问题的理解
➢揭示研究问题的理论背景,为研究假设奠定 基础
2021/8/19
第1页/共34页
1
二、文献的进一步检索
如何做文献综述PPT演示课件

24
第七步:整理参考文献
A. 核对引文和脚注,确保引文都有脚注; B. 核对脚注和“参考文献”,确保参考文献包
含所有脚注; C. 删除不相关的参考文献; D. 统一参考文献格式; E. 为参考文献编号;按照作者姓氏首字母排列。
25
第八步:修改与检查
A. 反复修改文章内容; B. 反复校对文字和格式。
26
五、注意事项
27
指导原则
A. 要有一条清晰的逻辑主线,避免自相矛盾和逻辑断环; B. 要选择和研究问题直接相关的文献; C. 要指出不同文献或研究成果之间的相对重要性; D. 要详略得当、重点突出; E. 要表明自己的理论立场或体现立场中立; F. 要注意概念的界定和统一; G. 要注意所述研究同下文(研究发现、研究结论)的联系; H. 当不同的文献之间出现矛盾时,要仔细分析差异,并尝试
文章总数:
2009+5750+6705-1495-1787-3814=7368篇
期刊:1880+5065+6008-1370-1662-3351=6570篇
博:1+41+29-1-1-21=48篇
硕:128+644+668-124-124-442=750篇
18
第三步:文献筛选
筛选的标准:
A. 新颖性
• 张黎 著,《怎样写好文献综述——案例及述评》[M],北京:科学出 版社,2008年1月。
• Tarraco, R.G. (2005). Writing Integrative Literature Reviews: Guidelines and Examples, Human Resource Development Review 2005, 4, PP.356-367.
第七步:整理参考文献
A. 核对引文和脚注,确保引文都有脚注; B. 核对脚注和“参考文献”,确保参考文献包
含所有脚注; C. 删除不相关的参考文献; D. 统一参考文献格式; E. 为参考文献编号;按照作者姓氏首字母排列。
25
第八步:修改与检查
A. 反复修改文章内容; B. 反复校对文字和格式。
26
五、注意事项
27
指导原则
A. 要有一条清晰的逻辑主线,避免自相矛盾和逻辑断环; B. 要选择和研究问题直接相关的文献; C. 要指出不同文献或研究成果之间的相对重要性; D. 要详略得当、重点突出; E. 要表明自己的理论立场或体现立场中立; F. 要注意概念的界定和统一; G. 要注意所述研究同下文(研究发现、研究结论)的联系; H. 当不同的文献之间出现矛盾时,要仔细分析差异,并尝试
文章总数:
2009+5750+6705-1495-1787-3814=7368篇
期刊:1880+5065+6008-1370-1662-3351=6570篇
博:1+41+29-1-1-21=48篇
硕:128+644+668-124-124-442=750篇
18
第三步:文献筛选
筛选的标准:
A. 新颖性
• 张黎 著,《怎样写好文献综述——案例及述评》[M],北京:科学出 版社,2008年1月。
• Tarraco, R.G. (2005). Writing Integrative Literature Reviews: Guidelines and Examples, Human Resource Development Review 2005, 4, PP.356-367.
文本文献自动分类综述PPT课件

{ iM1P(ci)logP(ci)} [P(t){ iM1P(ci |t)logP(ci |t)} P(t){ iM1P(ci |t)logP(ci |t)}]
特征选择(2)
• term的某种熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中(区分度差);该值越小,说明分布越倾 斜,词可能出现在较少的类别中(区分度好)
• 2类问题,属于或不属于(binary) • 多类问题,多个类别(multi-class),可拆分成2类问题 • 一个文本可以属于多类(multi-label)
– 这里讲的分类主要基于内容 – 很多分类体系: Reuters分类体系、中图分类
应用
• 垃圾邮件的判定(spam or not spam)
• (a1j,a2j,…,aMj)
– 权重计算,N个训练文档
• AM*N= (aij)
– 相似度比较
• Cosine计算 • 内积计算
Term的粒度
• Character,字:中 • Word,词:中国 • Phrase,短语:中国人民银行 • Concept,概念
– 同义词:开心 高兴 兴奋 – 相关词cluster,word cluster:鸟巢/水立方/奥
En(t)t r o P (c p i|t)ly o P (c g i|t)
i
• 相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了某 个特定词汇条件下的文本类别的概率分布之间的距离,该 值越大,词对文本类别分布的影响也大。
特征选择(1)
• 基于DF
– Term的DF小于某个阈值去掉(太少,没有代表性) – Term的DF大于某个阈值也去掉(太多,没有区分度)
特征选择(2)
• term的某种熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中(区分度差);该值越小,说明分布越倾 斜,词可能出现在较少的类别中(区分度好)
• 2类问题,属于或不属于(binary) • 多类问题,多个类别(multi-class),可拆分成2类问题 • 一个文本可以属于多类(multi-label)
– 这里讲的分类主要基于内容 – 很多分类体系: Reuters分类体系、中图分类
应用
• 垃圾邮件的判定(spam or not spam)
• (a1j,a2j,…,aMj)
– 权重计算,N个训练文档
• AM*N= (aij)
– 相似度比较
• Cosine计算 • 内积计算
Term的粒度
• Character,字:中 • Word,词:中国 • Phrase,短语:中国人民银行 • Concept,概念
– 同义词:开心 高兴 兴奋 – 相关词cluster,word cluster:鸟巢/水立方/奥
En(t)t r o P (c p i|t)ly o P (c g i|t)
i
• 相对熵(not 交叉熵):也称为KL距离(Kullback-Leibler divergence) ,反映了文本类别的概率分布和在出现了某 个特定词汇条件下的文本类别的概率分布之间的距离,该 值越大,词对文本类别分布的影响也大。
特征选择(1)
• 基于DF
– Term的DF小于某个阈值去掉(太少,没有代表性) – Term的DF大于某个阈值也去掉(太多,没有区分度)
文献综述怎样做ppt课件

隐含推理
二度论证
论证模式
推理保障
谬误论证
方案即一切
文献批评——对研究进行阐释
隐含推理:对论据进行逻辑阐释的过程,以便提炼论点,导 出特定结论。 文献批评以已有文献中的论证作为命题式的论据,从而支持 文献综述的论题。文献检索与文献批评通常以“如果… …那 么… …”的形式先后出现。
如果外面正在下雨,那么你去上班时就要带上雨伞。
一个结果可以直接归因于某种特定行为 的执行
证据中所提到的特定行为将导致研究问 题中所界定的某种结果
文献批评——对研究进行阐释
推理保障:
选取的部分或个体必须是研究总体中正当有效的个体。 选取的部分或个体必须是研究总体的代表性个体。“代表性”意味着个体必 须具备总体的全部特征。
文献批评——对研究进行阐释
指名道姓谩骂的诋毁式研究
谬 诉诸感情的研究,立足于情感立场,而非论证立场的研究
诉诸无知的研究,运用该逻辑“由于一个论断未被证明错误,就一定正确”
误 因果关系误置 论 用未经证明的假定为证据(beg the question),如“上帝是存在的,因为上
帝是这么说的”
证
不相关结论(disconnected question)的研究
选择主题——从日常兴趣到研究课题
怎样选择一个研究兴趣 怎样将研究兴趣具体化 怎样确定研究课题
标准化考试的分数在多大程度上体现学生的 学业表现?
? 程度是指什么,如何衡量? ? 什么是标准考试评估,如何衡量? ? 如何解释考试的可信度和有效性? ? “体现”是指什么,如何体现? ? 学生的学业表现是指什么?
怎样做文献综述
汇报人:崔 灿 日期:2016-12-3
综述撰写 文献批评 文献研究 展开论证 文献搜索 选择主题
关于文本分类的研究-PPT文档资料

2 n ( n n n n ) 1 12 21 22 1 χ ( n n ) ( n n ) ( n n ) ( n n ) 1 1 1 2 2 1 2 2 1 1 2 1 1 2 2 2 2 ij
n n n n 11 22 12 21
2 基于模式聚合和改进 统计量的文本降维方法
体育
80 69 86.25%
娱乐
80 70 87.5%
基于神经网络的特征选择
灵敏度求解
• •
将整个训练样本库中的样本作为前馈神经网络的训练样 本,得到了一个神经网络分类器。此分类器对训练样本 0 p 库的样本h分类的预测值为 h 。 计算每个特征的灵敏度: 对每一个特征 ,训练样本中所有样本的第个特征的值均 改为0,其他特征值不变,形成新的样本库Bi,然后在 样本库Bi的基础上,按照重新训练神经网络分类器,此 时神经网络分类器对训练样本库的样本h分类的预测值 i 为 p h 。则可根据公式计算特征的灵敏度:
320 289 31 90.31% 91 31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为:
• ⑴计算出每个特征词条和类别的 统计量; • ⑵指定正整数L,选择对每个类别贡献最大的L个词
2
条,并按照
•
统计量由大到小设置成一列。J个类 别就有J列,最终得到一个L×J矩阵A,A ij 是对类别 2 j按 统计量由大到小排列在第i位的词条。 ⑶将矩阵A中的特征词条按行排成一列。
文本挖掘概述
• 文本相似性度量问题 • 模式的理解和可视化显示 • 一词多义和多词一义问题 • 跨语言问题 • 算法的选择 • 领域知识集成 • 中文文本分词技术
n n n n 11 22 12 21
2 基于模式聚合和改进 统计量的文本降维方法
体育
80 69 86.25%
娱乐
80 70 87.5%
基于神经网络的特征选择
灵敏度求解
• •
将整个训练样本库中的样本作为前馈神经网络的训练样 本,得到了一个神经网络分类器。此分类器对训练样本 0 p 库的样本h分类的预测值为 h 。 计算每个特征的灵敏度: 对每一个特征 ,训练样本中所有样本的第个特征的值均 改为0,其他特征值不变,形成新的样本库Bi,然后在 样本库Bi的基础上,按照重新训练神经网络分类器,此 时神经网络分类器对训练样本库的样本h分类的预测值 i 为 p h 。则可根据公式计算特征的灵敏度:
320 289 31 90.31% 91 31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为:
• ⑴计算出每个特征词条和类别的 统计量; • ⑵指定正整数L,选择对每个类别贡献最大的L个词
2
条,并按照
•
统计量由大到小设置成一列。J个类 别就有J列,最终得到一个L×J矩阵A,A ij 是对类别 2 j按 统计量由大到小排列在第i位的词条。 ⑶将矩阵A中的特征词条按行排成一列。
文本挖掘概述
• 文本相似性度量问题 • 模式的理解和可视化显示 • 一词多义和多词一义问题 • 跨语言问题 • 算法的选择 • 领域知识集成 • 中文文本分词技术
《综述汇报》PPT课件

学术专著
著者.书名.地名:出版社,年.页码
[3]王维利.思维与沟通[M].安徽:中国科学技术大学出版 社
,2007,201-218.
温哥华式;
国家标准GB7714-87关于《文后参考文献著录规则》的规定 23
23
参考文献著录规则
主要著作者:多个著作者之间以“,”分隔,著 作者超过3人时,只著录前3个责任者,其后加 “等”字(英文用 et al )。
多次引用,但在几个引用处都要标注同一个序 号. b)标注时文献序号连同方括号都要使用比正文字 号小,并把它们放在右上方(作为上角标). c) 一处引用了多篇文献,标注时只用一个方括号 ,括号内列写这几篇文献的序号:若几个序号 是连续的,只标注起、止序号,两序号之间加 半字线“-”号;若几个序号不连续,各序号之 间加逗号“,”号。
问题和尚存的问题,重点、详尽地阐述对当前的 影响及发展趋势,这样不但可以使研究者确定研究方向,而且
便于他人了解该课题研究的起点和切入点,是 在他人研究的基础上有所创新; 文献综述的结论: 文献研究的结论,概括指出自己对该课题的研究意见,存在的
不同意见和有待解决的问题等; 文献综述的附录: 列出参考文献,说明文献综述所依据的资料,增加综述的可信
采用A4纸张;页边距为上、下方各2.5厘米, 左边距3厘米,右边距2.5厘米,页眉与页脚距1.5 厘米;居中标注页码,页眉只标论文题目,均采 用小5号字体。
30
专科护士论文文献综述格式和要求
2.5 文献综述正文(文章中不用打出这几个字样
);
一级标题:标题序号为1 2 3等;小3号字体, 加粗,前后各空0.5行;
21
议题1:探讨A&B 议题2:探讨A&B 议题3:探讨A&B 结论 提出一个比其他更好的理论与立场 提出一个优于每一个理论与立场的部分
著者.书名.地名:出版社,年.页码
[3]王维利.思维与沟通[M].安徽:中国科学技术大学出版 社
,2007,201-218.
温哥华式;
国家标准GB7714-87关于《文后参考文献著录规则》的规定 23
23
参考文献著录规则
主要著作者:多个著作者之间以“,”分隔,著 作者超过3人时,只著录前3个责任者,其后加 “等”字(英文用 et al )。
多次引用,但在几个引用处都要标注同一个序 号. b)标注时文献序号连同方括号都要使用比正文字 号小,并把它们放在右上方(作为上角标). c) 一处引用了多篇文献,标注时只用一个方括号 ,括号内列写这几篇文献的序号:若几个序号 是连续的,只标注起、止序号,两序号之间加 半字线“-”号;若几个序号不连续,各序号之 间加逗号“,”号。
问题和尚存的问题,重点、详尽地阐述对当前的 影响及发展趋势,这样不但可以使研究者确定研究方向,而且
便于他人了解该课题研究的起点和切入点,是 在他人研究的基础上有所创新; 文献综述的结论: 文献研究的结论,概括指出自己对该课题的研究意见,存在的
不同意见和有待解决的问题等; 文献综述的附录: 列出参考文献,说明文献综述所依据的资料,增加综述的可信
采用A4纸张;页边距为上、下方各2.5厘米, 左边距3厘米,右边距2.5厘米,页眉与页脚距1.5 厘米;居中标注页码,页眉只标论文题目,均采 用小5号字体。
30
专科护士论文文献综述格式和要求
2.5 文献综述正文(文章中不用打出这几个字样
);
一级标题:标题序号为1 2 3等;小3号字体, 加粗,前后各空0.5行;
21
议题1:探讨A&B 议题2:探讨A&B 议题3:探讨A&B 结论 提出一个比其他更好的理论与立场 提出一个优于每一个理论与立场的部分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
log
P( t | c j ) P( t | c j )
TSV (t, c j ) r * log
, r为出现t的c j 类文档个数
• 其他
– Odds: log(1 P(t | c j )) log P(t | c j ) – Term Strength:
log P(t | c j ) log(1 P(t | c j ))
• 信息增益(Information Gain, IG):该term为整个 分类所能提供的信息量(不考虑任何特征的熵和 考虑该特征后的熵的差值)
Gain(t ) Ent ropy ( S ) Expect edEnt ropy( St ) { i 1 P ( ci ) log P (ci )}
2
ij
Naï ve Bayes
Bayes公式
ቤተ መጻሕፍቲ ባይዱ
P( c j | d i )
r
P( d i | c j ) P( c j ) P( d i )
P( d i | c j ) P( c j )
P(di | c j ) P( wik | c j ),独立性假设
k 1
参数计算 c j的文档个数 N (c j ) 1 N (c j ) P( c j ) 总文档个数 N (ck ) | c | N (ck )
Rocchio方法
• 可以认为类中心向量法是它的特例
– Rocchio公式
w jc w jc
'
iC
xij
nC
iC
xij
n nC
文档向量的权重
类C中心向量的权重
训练样本中正例个数
– 分类
CSVc (di ) w c x i
w x w x
cj ij 2 cj
• Latent Dirichlet allocation(LDA)
– Topic Model – Bag-Of-Words表示 -> Topic表示
自动文本分类方法
• • • • • • • • • Rocchio方法 Naï ve Bayes kNN方法 决策树方法decision tree Decision Rule Classifier The Widrow-Hoff Classifier 神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(voting method)
The Widrow-Hoff Classifier
Online Learning
Learning Rate
wcj
( t 1)
w 2 (w c x i yi ) xij
(t ) cj
Target Value ( 0 or 1)
类c向量的第j个分量
xi的第j个分量
CSVc (di ) w c x i
文本文献自动分类综述
报告内容
• • • • • 文本分类的定义和应用 文本分类的方法 文本分类的评估指标 文本分类的一些新方向 参考文献和资源
文本分类的定义和应用
定义
• 给定分类体系,将文本分到某个或者某几个类别 中。
– 分类体系一般人工构造
• 政治、体育、军事 • 中美关系、恐怖事件
– 分类系统可以是层次结构,如yahoo! – 分类模式
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation,如LSI、LDA)
文本表示
• 向量空间模型(Vector Space Model)
– M个无序标引项ti (特征),词根/词/短语/其他 – 假设所有特征独立 – 每个文档dj可以用标引项向量来表示
M
[ P (t ){ i 1 P ( ci | t ) log P (ci | t )}
M
P (t ){ i 1 P ( ci | t ) log P (ci | t )}]
M
特征选择(2)
• term的某种熵:该值越大,说明分布越均匀,越有可能出 现在较多的类别中(区分度差);该值越小,说明分布越倾 斜,词可能出现在较少的类别中(区分度好)
Term粒度—中文
• ICTCLAS分词V.S. Bigram
– 低维度:词 > Bigram – 高维度 :Bigram > 词 – 词的数目有限 – Bigram特征数目更多, 可以提供更多的特征
• So, 实用性角度:分词 研究角度:Bigram
权重计算方法
• 布尔权重(Boolean weighting)
• TFi,j: 特征i在文档j中出现次数,词频(Term Frequency) • DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
– 数据清洗:去掉不合适的噪声文档或文档内垃圾数据
• 文本表示
– 向量空间模型(Vector Space Model)
• 降维技术
I AVG (t ) P(ci ) I (t , ci )
I MAX (t ) maxim 1 P(ci ) I (t , ci )
特征选择(4)
• Robertson & Sparck Jones公式
RSJ(t, c j ) c j中出现t的概率 非c j中出现t的概率
P(t | c j ) P(t | c j )
• (a1j,a2j,…,aMj) • AM*N= (aij)
– 权重计算,N个训练文档 – 相似度比较
• Cosine计算 • 内积计算
Term的粒度
• • • • Character,字:中 Word,词:中国 Phrase,短语:中国人民银行 Concept,概念
– 同义词:开心 高兴 兴奋 – 相关词cluster,word cluster:鸟巢/水立方/奥运
• 自动的方法(学习)
文本分类的过程
文本表示
训练过程
训练文本 统计
特征表示
统计量
学习
分类器
新文本
特征表示 类别
分类过程
特征抽取
• 预处理
– 去掉html一些tag标记 – (英文)禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、…
– 词频统计
– aij=1(TFij>0) or (TFij=0)0
• TFIDF型权重
– – – – TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用
aij
TFij * log( N / DFi )
[TF
k
kj
* log( N / DFk )] 2
– 类别 {spam, not-spam}
• 新闻出版按照栏目分类
– 类别 {政治,体育,军事,…}
• 词性标注
– 类别 {名词,动词,形容词,…}
• 词义排歧
– 类别 {词义1,词义2,…}
• 计算机论文的领域
– 类别 ACM system
• H: information systems • H.3: information retrieval and storage
w x w x
cj ij 2 cj
2
ij
Neural Network
文本分类的方法
人工方法和自动方法
• 人工方法
– 结果容易理解
• 足球 and 联赛体育类
– – – – – – – –
费时费力 难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象 知识工程的方法建立专家系统(80年代末期) 结果可能不易理解 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高
特征重构
• 隐性语义索引(Latent Semantic Index)
– 奇异值分解(SVD):A=(aij)=UΣVT
• AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
– 取Σ对角上的前k个元素,得Σk
• Ak= UkΣkVkT, Uk由U的前k列组成,Vk由V的前k列组成 • 文档d在LSI对应的向量d’=dTUkΣ-1
P(ci | t ) CE (t ) P(ci | t ) log P(ci ) i
特征选择(3)
• χ2 统计量:度量两者(term和类别)独立性的缺乏程度, χ2 越大,独立性越小,相关性越大(若AD<BC,则类和词 独立, N=A+B+C+D) c ~c 2 N ( AD CB) B t A 2 (t , c) ( A C )(B D)( A B)(C D) D ~t C
aij
log(TFij 1.0) * log( N / DFi )
[log( TF
k
kj
1.0) * log( N / DFk )] 2
• 基于熵概念的权重(Entropy weighting)
– 称为term i的某种熵 – 如果term分布极度均匀:熵等于-1 – 只在一个文档中出现:熵等于0
• 2类问题,属于或不属于(binary) • 多类问题,多个类别(multi-class),可拆分成2类问题 • 一个文本可以属于多类(multi-label)
– 这里讲的分类主要基于内容 – 很多分类体系: Reuters分类体系、中图分类
应用
• 垃圾邮件的判定(spam or not spam)
2 AVG (t ) P(ci ) 2 (t , ci )
2 2MAX (t ) maxim { (t, ci )} 1