基于时间序列的文本分类ppt

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于动态规划思想,解决了特征长短不一 的模板匹配问题 计算样本之间的相似度 KNN方法确定类别

实验效果:十类52%
思考一

统一特征维数
十维、三十维、五十维。。。。。。
使用各种分类器
Libsvm、Liblinear、KNN。。。。。。
最佳:六十段 libsvm 60%
思考二

分类器 liblinear liblinear liblinear liblinear liblinear liblinear liblinear 方法 PCA降维至4020 PCA降维至4020 PCA降维至4020 PCA降维至4020 PCA降维至4020 PCA降维至4020 PCA降维至4020 +10维 +20维 +30维 +50维 +80维 +100维 准确率 0.7953 0.8356 0.8382 0.8357 0.8389 0.8389 0.8399
5 49 72 181
0.00% 16.33% 12.50% 13.80%
0.6-0.7
0.7-0.8 0.8-0.9 0.9-1.0
63.16%
71.93% 86.73% 97.98%
133
171 294 1882
4.77%
6.13% 10.54% 67.52%
22.56%
26.90% 40.47% 68.38%
传统特征后加各段时间序列均值
传统特征后加几维各段时间序列均值特征 TF/IDF>1.0 三段 TF/IDF>1.0 五段 TF/IDF>1.0 50段 TF/IDF>1.0 80段 TF/IDF>1.0 100段
准确率 0.8791 0.878 0.8787 0.8776 0.8794
思考六

时间序列能不能补充?
传统特征按位置三份加权 TF/IDF>1.0 权值3,2,1 TF/IDF>1.0 权值1.5,1.2,1 TF/IDF>1.0 权值1.2,1.1,1 TF/IDF>1.0 权值1.1,1.05,1 TF/IDF>1.0 权值1.1,1,1 TF/IDF>1.0 权值1.19,1.04,1 TF/IDF>1.0 权值1,1,1 TF/IDF>1.0 权值0.9,0.95,1 TF/IDF>1.0 权值0.84,0.96,1 TF/IDF>1.0 权值0.8,0.9,1
问题总结
时间序列的有效性 文本的时间性 特征表示

收获
不断思考、不断实践 想法来源于实践

思路:传统方法置信度低时用时间序列的结果
置信阈值 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 TF/IDF>0.5 0.5-0.6
传统方法正确率
个数 0
比例 0.00% 0.18% 1.76% 2.58% 6.49%
时间序列正确率
40.00% 32.65% 44.44% 55.25%


没有实际含义的词,比如and,you,have等等 PorterStemmer 英文?中文

统一词根

分词

特征表示
向量空间模型 以词项为特征组成高维特征向量 TF/IDF得到权值

TF/IDF

TF(Term Frequency)
表示词项频率
TFij fij / max fi
语料不对?微博?短文本?
选取新闻标题为语料 CDMC2010、CDMC2011
83% VS 51%
语料
时间
传统
CDMC2010
CDMC2011
46%
14%
99%
82%
思考三

特征不对?

词义信息丢失
全局TF/IDF
TF fall / max f 不同文本相同词项权值相同
You are… 1 2… Are you… 1.5 2.5… You are… 1 2… Are you… 2 1…

IDF(Inverse Document Frequency)
逆文档频率
IDFi log 2 N / ni

TF*IDF值
降维方法

特征选择



文档频率 信息增益 互信息 文本证据权
PCA 词项聚类

建模过程

分类器选择
朴素贝叶斯 K近邻 SVM--Liblinear
思考五

时间序列特征有什么含义?

代表不同位置词的重要性曲线
1.7 1.6 1.5 1.4 1.3 1.2 1.1 三段 五段 八段
传统特征按位置分段加权

在传统特征上权值按位置进行加权
准确率 0.873 0.8812 0.8837 0.8845 0.8845 0.8845 0.8859 0.8852 0.8845 0.8837 传统特征按位置八份加权 TF/IDF>1.0 权值1.4,1.13,1.09,1.08,1.06,1.04,1.03,1 准确率 0.8787 传统特征按位置五份加权 TF/IDF>1.0 权值1.29,1.075,1.047,1.03,1 TF/IDF>1.0 权值1.5,1.3,1.2,1.1,1 准确率 0.8834 0.8812
能否利用单词位置信息来 提高分类效果?
基于时间序列的文本分类
文档一
输入文档
文档二
Xiamen university
We are datamining group
计算TF/IDF
1.1
保留词项位置
1.5
2
0.8
3
2.5
1.1
特征向量
1.5
2
0.8
3
2.5
疑问:不同文档特征数不一样怎么办???
DTW——动态时间归整
基于时间序列的文本分类
陈伟程
简介

基于时间序列的文本分类
传统文本分类方法 时间序列分类方法 结合方法尝试
文本分类一般过程

预处理

将文档集表示成易于计算机处理的形式
特征表示与选择、降维

根据适宜的权重计算方法表示文档中各项的重要性
学习建模

构建分类器
文本分类预处理
去标点、多余空格、数字(可选) 大小写统一 去停用词(stop words)
准确率:48%
时间序列结合传统方法

时间序列特征加在传统特征之后
分类器
liblinear
时间序列加在末尾
TF-IDF>0.5 + 50维时间序列
准确率
0.872
liblinear
TF-IDF>0.5 + 100维时间序列
0.871
思考四

传统特征维数太高?(一万多维VS几十维) PCA降维之后再加时间特征
分类任务

数据集

Reuters21578-Apte-90Cat,选取10类(训练集、测试集) TF/IDF、向量空间模型
Liblinear
特征

分类器


传统方法效果

88.5%
Fra Baidu bibliotek
基于时间序列的文本分类

传统方法缺点

利用了词义信息,但忽略了单词的位置信息
时间序列

不同时间上的各个数值,按时间先后顺序排列而形成的序列
相关文档
最新文档