大数据与数据挖掘之文本挖掘(PPT 56张)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文档的向量空间模型
W权值计算方法TF-IDF
目前广泛采用TF-IDF权值计算方法来计算权重， TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF 高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与包含词条文档数的比值。如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。在完整的向量空间模型中，将TF和IDF组合在一起，形成TFIDF度量：TF-IDF（d,t）= TF(d,t)*IDF(t)
• 以上式子中是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。
IDF度量
•逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：
大数据与数据挖掘-文本挖掘
1、文本挖掘概述
文本挖掘的背景
• 数据挖掘大部分研究主要针对结构化数据，如关系的、事务的和数据仓库数据。 • 现实中大部分数据存储在文本数据库中，如新闻文章、研究论文、书籍、WEB页面等。 • 存放在文本数据库中的数据是半结构化数据，文档中可能包含结构化字段，如标题、作者、出版社、出版日期等，也包含大量非结构化数据，如摘要和内容等。
•|D|：语料库中的文件总数
•：包含词语的文件数目（即的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用
关键词与网页的相关性计算
• 在某个一共有一千词的网页中“大数据”、“的” 和“应用”分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。三个数相加，其和 0.042 就是相应网页和查询“大数据的应用” 相关性的一个简单的度量。 • 概括地讲，如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。（TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。
• （11）查词表，W不在词表中，将W最右边一个字去掉，得到W="是三" • （12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”， • 并将W从S1中去掉，此时S1="三个课时"； • �� • （21）S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”，此时 S1=""。 • （22）S1为空，输出S2作为分词结果，分词过程结束。
• S1="计算语言学课程是三个课时" • 设定最大词长MaxLen= 5 • S2= " "
• （1）S2=“”；S1不为空，从S1左边取出候选子串 • W="计算语言学"； • （2）查词表，“计算语言学”在词表中，将W加入到S2 中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1="课程是三个课时"； • （3）S1不为空，于是从S1左边取出候选子串W="课程是三个"； • （4）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是三"； • （5）查词表，W不在词表中，将W最右边一个字去掉，得到W="课程是"；
TF度量
• 在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语来说，它的重要性可表示为： •
文档建模
• 特征表示是指以一定的特征项如词条或描述来代表文档信息。
• 特征表示模型有多种，常用的有布尔逻辑型、向量空间型等
• 向量空间模型中，将每个文本文档看成是一组词条（T1， T2，T3，…，Tn）构成，对于每一词条Ti，根据其在文档中的重要程度赋予一定的权值，可以将其看成一个n维坐标系，W1，W2，…，Wn为对应的坐标值，因此每一篇文档都可以映射为由一组词条矢量构成的向量空间中的一点，对于所有待挖掘的文档都用词条特征矢量（T1，W1；T2， W2；T3，W3；…；Tn，Wn）表示。 • 向量空间模型将文档表达为一个矢量，看作向量空间中的一个点。
文本挖掘概念
• 文本挖掘旨在通过识别和检索令人感兴趣的模式，进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合，令人感兴趣的模式不是从形式化的数据库记录里发现，而是从非结构化的数据中发现。
文本挖掘的过程 • • • • • • • 预处理文档建模相似性计算信息检索文本分类文本聚类模型评价
Fra Baidu bibliotek
预处理
• 把中文的汉字序列切分成有意义的词，就是中文分词，也称为切词。 • “我是一个学生”分词的结果是：我是一个学生。 • 和平民主
– 和平、民主；和、平民、主
• 提高人民生活水平
– 提高、高人、人民、民生、生活、活水、水平
• 大学生活象白纸
– 大学、生活、象、白纸 – 大学生、活象、白纸
最大匹配分词法
停用词
• • • • 指文档中出现的连词，介词，冠词等并无太大意义的词。英文中常用的停用词有the，a, it等中文中常见的有“是”，“的”，“地”等。停用词消除可以减少term的个数，降低存储空间。停用词的消除方法： • （1）查表法：建立一个停用词表，通过查表的方式去掉停用词。 • （2）基于DF的方法：统计每个词的DF，如果超过总文档数目的某个百分比(如80%)，则作为停用词去掉。
• 词“的”站了总词频的 80% 以上，它对确定网页的主题几乎没有用。在度量相关性时不应考虑它们的频率。删除后，上述网页的相似度就变成了0.007，其中“大数据”贡献了 0.002，“应用”贡献了 0.005。 “应用”是个很通用的词，而“大数据”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件： • 一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“大数据”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。 • 应删除词的权重应该是零。