文本挖掘算法总结

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本数据挖掘算法应用小结

1基于概率统计的贝叶斯分类

2、ID3决策树分类

3、基于粗糙集理论Rough Set的确定型知识挖掘

4、基于k-means聚类

5、无限细分的模糊聚类Fuzzy Clusteri ng

6、SOM神经元网络聚类

7、基于Meaning的文本相似度计算

8、文本模糊聚类计算

9、文本k-means聚类

10、文本分类

11、关联模式发现

12、序列模式发现

13、P CA主成分分析

1基于概率统计的贝叶斯分类

算法概述:贝叶斯公式是由英国数学家(Thomas Bayes 1702-1763 )创造,用来描述两个条件

概率之间的关系,比如P(A|B)为当“ B”事件发生时“ A”事件发生的概率,按照乘法法则:

P(A A B)=P(A)*P(B|A)=P(B)*P(A|B),可导出

贝叶斯公式:P(A|B)=P(B|A)*P(A)/P(B)

贝叶斯分类基本思想为:设决策变量为 D , D1, D2 , Di,…,Dk为n条记录组成的样本空

间S的一个划分,将n条记录划分成k个记录集合,如果以P(Di)表示事件Di发生的概率, 且

P(Di) > 0 ( i=1 , 2,…,k)。对于任一事件x, P(x)>0,则有:

贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件X视为多个条件属性Cj各

种取值的组合,当x事件发生时决策属性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法,不能百分之百地确定X事件发生时Di 一定发生。

解决问题:预测所属分类的概率。通过已知n条样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”。

2、ID3决策树分类

算法概述:ID3算法是J. Ross Quinlan在1975提出的分类算法,当时还没有“数据挖掘” 的概念。该算法以信息论为基础,以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3 算法以决策树D-Tree构建分类知识模型,D-Tree中最上面的节点为根节点Root,每个分支是一个新的决策节点,或者是树的叶子。每个决策节点代表一个问题或决策,每一个叶子节点代表一种可能的分类结果,沿决策树在每个节点都会遇到一个测试,对每个节点上问题的

不同取值导致不同的分支,最后会到达一个叶子节点为确定所属分类。

解决问题:预测所属分类。通过已知样本集记录,生成一颗“分类知识树”,给定一个未知“标签”记录,通过“分类知识树”来确定其所属分类。

3、基于粗糙集理论Rough Set的确定型知识挖掘

算法概述:1982年波兰学者乙Paw lak提出了粗糙集理论Rough Sets Theory,它是一种刻划不完整性和不确定性的数学工具,能有效分析不精确、不一致( Inconsistent)、不完整(Incomplete)等各种不完备信息,利用数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事物的

数学工具。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价

关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。

解决问题:预测所属分类。粗糙集分类将样本空间S划分为上近似集(Upper approximation)、下近似集(Lower approximation )、边界集(Boundary region),挖掘条件属性C与决策属性D集合所包含的不可分记录(不能再细分,该集合中的所有记录都属于某一决策属性Di的取值),这些记录形成不可辨识的关系(Indiscernibility relation),由此确定分类规则:

IF <条件属性C成立> THEN <决策属性Di发生>

即,如果满条件C,则其所属分类为Di。IF中的条件C可以是单一条件,也可以是组合and (并且)组合条件。

BIC给出的是“最小分类规则”。所谓“最小分类规则”是,最少的条件组合。例如一个人属于“高”、“富”、“帅”,条件为:“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“英俊”等条件来判别,通过“粗糙集”分类计算,得出最小分类规则可能是

“ IF财富>=XXX1 and 身高>=185cm and相貌=英俊”

其他条件可以忽略不计,这就是“最小分类规则”。

“粗糙集”分类规则为“百分之百确定型”分类规则,这是对样本集的统计结果,如果出现非“样本集”中出现过的条件变量属性,将无法得出“粗糙集”,可转而使用概率型“贝叶

斯分类”进行计算。

4、基于k-means聚类

算法概述:给定一个包括n条记录、每条记录有m个属性的样本集,再给出分类数k,要求将样本集中的记录,按记录间的相似性大小(或距离远近),将相似性最大(或距离最近)

的记录划分到k个类中,相同分类中记录间的距离要尽可能地小,而分类之间的距离要尽可

能地大。

BIC 改进了常规的k-means 聚类算法,在聚类过程中,同时计算分类质量(类内均差

解决问题:将n 条记录聚成k 个分类。对n 个样本集记录,指定分类个数

k ,为k 个分类指

定初始迭代记录为 k 个分类中心,通过计算其他记录对 k 个分类中心的距离,对不断变换分 类、变换类中心,收敛都当分类不再变化时,计算结束。由此,将

n 个样本集记录分配到 k

个分类中,得到k 个分类中心指标。

5、无限细分的模糊聚类

Fuzzy Clustering

算法概述:在实际解决聚类问题时,很多数事物是“模糊”的,其特征属性 A 无法确进行

量化,如:人的相貌、人与人之间的关系、人的性格、购买商品的意愿等,这就需要用模糊

数学来进行相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、

信息论、系统

论(俗称“老三论”)而形成的一种决策方法, 是美国加利福尼亚大学伯克利分校 Lotfi Zadeh 教授于1965年创立的。

模糊聚类基本计算步骤为:

(1) 将样本集中的n 条记录变换成n x n 的模糊相似矩阵; (2) 通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵; (3) 最后通过入截矩阵将n 条记录分成1-n 个分类。

K-means 聚类需事先确定聚类数 k ,而模糊聚类Fuzzy Clustering 无需事先确定聚类数 k ,可 以从最小

的k=1 (所有学习集中的 n 条记录为1个分类),到k=n (所有学习集中的 n 条记 录各为1个分类)。 解决问题:将n 条记录聚成1-n 个分类。模糊聚类 Fuzzy Clustering 算法完全基于数据自然 状况进行聚类,可产生聚类的解集合

'(k=1,2,,,,,n),因此,可以在解集合中求解最优聚类

max{

},这对观察分析样本集的数据性态非常有用,可供观察不同情况下的“聚类”状

况。

6、SOM 神经元网络聚类

算法概述:人类对事物的认知是一个不断积累的过程, 通过对事物的观察, 不断地认识和修

正因果关系,最后逐渐稳定为认知规则。 医学证明,人眼的视网膜、脊髓和海马中存一种侧 抑制现象,即,当一个神经细胞兴奋后, 会对其周围的神经细胞产生抑制作用。这种侧抑制

使神经细胞之间呈现出竞争,开始时可能多个细胞同时兴奋, 但一个兴奋程度最强的神经细

胞对周围神经细胞的抑制作用也最强,

其结果使其周围神经细胞兴奋程度减弱,

从而该神经

细胞是这次竞争的“胜者”,其它神经细胞在竞争中失败。

1981年芬兰学者 kohonen 提出一个称为自组织特征映射

(Self Organization Feature Map-SOM

或SOFM )网络,前述大脑神经细胞兴奋规律等,在该网络中都得到了反应。在竞争层神经 元之间的连线,它们是模拟生物神经网络层内神经元相互抑制现象的权值, 这类抑制性权值

满足一定的分布关系,如距离近的抑制强,距离远的抑制弱。

2

间均距C*和X ),并求解最优聚类

max{

、类

相关文档
最新文档