基于libsvm的中文文本分类原型

合集下载

应用SVM的文本分类

预测
预测的结果包括：每段文本的预测分类隶属度score
开源工具tmsvm
小程序
注：输入文件是“分类+文本”的训练文件输出文件时模型、经过选择后的词典使用mmseg进行分词；特征选择保留比例为0.4；使用 libsvm，核函数rbf，特征权重使用tf*idf。
实验结果
实验效果
F = 2*P*R/(P+R) 召回率R = 正确分类的文本数/测试集中是实际属于的文本数
谢谢
应用SVM的文本分类
傅泉生张文杰
问题提出
在实际项目应用中，需要对网络文本的进行感情倾向性的分析或分类支持向量机(Support Vector Machine) 在解决小样本、非线性及高维模式识别中表现出许多特有的优势，适用于对网络文本的分类。
分类策略
文本表示：Vector Space Model (VSM)
Di = (<t1,w1>,<t2,w2>……) w可用TFIDF，或用TF效果也不错
特征向量构造：
1.利用优秀的分词工具和更新的词库 2.停用词 3.特征选择：依据某种权重计算公式从词典中选择一些有代表性的词（Chi方法）。
训练
应用Libsvm或Liblinear 训练模型包括：向量空间大小等信息、核函数、分类个数，SVM参数等信息

基于SVM算法的文本分类技术研究

基于SVM算法的文本分类技术研究
01 引言
目录
02 文献综述
03 方法与实验设计
04 实验结果与分析
05 结论与展望
06 参考内容
引言
随着互联网和数字化信息的快速发展，文本数据量呈现出爆炸性增长的趋势。如何有效地对海量文本数据进行分类，提高信息检索和知识管理的效率，成为了一个重要的问题。支持向量机（SVM）是一种广泛应用于模式识别和机器学习的算法，具有良好的泛化性能和鲁棒性。本次演示旨在研究基于SVM算法的文本分类技术，提高文本分类的准确性和效率。
4、对小样本数据集也能取得较好的分类效果。
然而，SVM算法在文本分类中也存在一些不足之处，如对特征选择敏感、对噪声数据鲁棒性差等。因此，针对SVM在文本分类中的优缺点，一些研究者提出了各种改进方法，如基于特征工程的优化、集成学习方法等。
方法与实验设计
本次演示研究基于SVM算法的文本分类技术，主要包括以下步骤：
实验结果表明，本次演示提出的基于SVM的中文文本分类系统相比传统方法具有更高的分类准确率和稳定性。同时，该方法具有较强的泛化能力，能够适应不同领域的中文文本分类任务。然而，实验结果也显示了该方法的不足之处，如在处理一些复杂、短文本时，分类效果可能会受到影响。针对这些问题，我们提出了一些改进措施，如引入深度学习模型，加强特征表示能力等。
在研究与实现部分，我们首先介绍了中文文本预处理过程，包括分词、去停用词和词干化等。然后，我们提出了一种基于词袋模型的中文文本特征提取方法，并使用TF-IDF对特征进行加权。接着，我们介绍了SVM算法的实现过程，包括核函数选择、参数优化等。最后，我们详细描述了实验过程和结果分析，包括不同数据集上的分类准确率、召回率和F1得分比较。

基于libsvm的手写字体识别

测试数据掠影：为了叙说方便，现做如下简称《MATLAB 神经网络30个案例分析》：30cases《MATLAB统计分析与应用：40个案例分析》：40cases《MATLAB高效编程技巧与应用：25个案例分析》：25cases现用libsvm来实现手写字体识别，测试图片用的亦是25cases和40cases中的那手写字体的训练样本和测试样本。

主体程序思想为25cases中的代码过程，改进之处为利用libsvm 加强工具箱利用GA（或者gridsearch）来实现参数寻优，采用的核函数为RBF核函数。

O(∩_∩)O~最终测试集合的分类效果是：Accuracy = 93.3333% (28/30) (classification) 即只有两个被错分Rocwoods测试集合的效果是90%(27/30) 即只有三个被错分谢老师测试集合的效果是93.3333% (28/30) (classification) 即只有两个被错分由于训练集和测试集数目都比较小，以上的结果都是可以接受的。

我尝试调整参数将准确率再提高一些，最终作罢，估计在前期的图片预处理上下功夫，才能达到完全的测试集识别。

O(∩_∩)O~附: MATLAB自带的svm实现函数与libsvm差别小议：1 MATLAB自带的svm实现函数仅有的模型是C-SVC(C-support vector classification)；而libsvm工具箱有C-SVC(C-support vector classification),nu-SVC(nu-support vector classification),one-class SVM(distribution estimation),epsilon-SVR(epsilon-support vector regression),nu-SVR(nu-support vector regression)等多种模型可供使用。

基于SVM的文本分类算法研究

基于SVM的文本分类算法研究随着互联网技术的发展，信息爆炸的时代已经来临。

人们需要从庞大的信息中筛选出自己所需要的信息。

这时，文本分类技术就显得尤为重要。

文本分类作为信息挖掘的一部分，其在广告推荐、情感分析、垃圾短信识别、新闻分类等领域有着广泛的应用。

SVM（Support Vector Machine）是一种非常流行的分类算法。

它集结了数学、统计、信息论和计算机科学等多个学科的知识，被视为机器学习中最强大的有监督学习算法之一。

其主要思想是通过构造一个最优的超平面将数据进行分类。

本文旨在研究基于SVM的文本分类算法，并探讨其在实际应用中的优点和不足之处。

一、文本分类技术概述文本分类是指将文本自动分类为事先定义的类别之一的任务。

随着互联网的发展和应用，文本分类技术得到了越来越多的关注和研究，主要包括以下几个方面：1. 特征提取：将文本转化为计算机可以理解的形式，通常使用的方法有词袋模型、TF-IDF模型等。

2. 分类算法：将文本进行分类，目前主要使用的算法有贝叶斯分类、K近邻分类、支持向量机分类等。

3. 样本准备：建立训练集和测试集，并对文本进行预处理，包括去除停止词、词干提取等。

4. 模型评估与调优：对模型进行评估和优化，以提高分类准确率。

二、基于SVM的文本分类算法支持向量机（SVM）是一种分类和回归分析的机器学习算法，通过寻找最优超平面实现分类。

SVM算法是一种二分类模型，但可以通过多个SVM模型相结合实现多分类。

在文本分类领域中，SVM算法广泛使用，并成为文本分类算法的首选之一。

SVM算法的主要特点在于能够处理高维数据，并具有良好的泛化能力，这使得它在文本分类中更具有优势。

与其他分类算法相比，SVM具有更少的超参数需要调整，使得其应用更加便捷。

本文所研究的基于SVM的文本分类算法，主要包含以下几个步骤：1. 文本预处理：对文本进行去除HTML标签、停用词过滤、词干提取、向量化等操作，以准备好分类任务所需的数据。

基于支持向量机的文本分类算法的研究与实现

学号：2009030114哈尔滨师范大学学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程哈尔滨师范大学2013年5月摘要：随着计算机与通讯技术的飞速发展，互联网上的电子文档信息急剧增加。

这就使得文本的自动分类越来越受人们的重视，而支持向量机和文本分类问题有着良好的结合点，从而使得基于支持向量机的文本分类成为这个领域的研究热点。

支持向量机是一种基于结构风险最小化准则的分类学习机模型，它的应用十分广泛。

虽然支持向量机算法的性能在许多实际问题的应用中得到了验证，但是还存在着一些需要改进的地方，如：训练算法速度慢、测试阶段运算量大等。

关键词：支持向量机；文本分类；学习机模型目录第一章引言 (1)1.1研究背景及意义 (1)1.2 国内外研究现状 (1)1.2.1 文本分类研究现状 (1)1.2.2 SVM研究现状 (2)1.3 文本内容研究 (3)第二章文本分类 (4)2.1 文本自动分类概述 (4)2.2 文本分类所涉及的技术领域 (4)2.2.1 文本分类与自然语言处理 (4)2.2.2 文本分类与文本挖掘 (5)2.2.3 文本分类与机器学习 (5)2.2.4 文本分类与模式识别 (5)2.3 文本分类的关键技术 (6)2.3.1 文本表示 (6)2.3.2 特征选择 (7)2.3.3 权重计算 (9)2.3.4 常用的文本分类算法 (9)2.4 文本分类的应用 (11)第三章支持向量机 (13)3.1 支持向量机简介 (13)3.2 支持向量分类机 (14)3.2.1 线性可分问题 (14)3.2.2 近似线性可分问题 (15)3.2.3 线性不可分问题 (15)3.3 支持向量机的应用步骤 (16)3.4基于支持向量机文本分类方法的优势 (17)3.5基于支持向量机文本分类方法中存在的问题 (17)第四章小波变换在支持向量机分类中的应用 (19)4.1 问题的提出 (19)4.2降维相关的研究工作 (19)4.3 小波分析 (20)4.3.1 离散小波变换 (20)4.3.2 小波的定义 (21)4.4 一维哈尔小波变换 (21)4.4.1 哈尔基函数 (22)4.4.2 哈尔小波函数 (22)4.4.3 函数的规范化 (23)4.4.4 哈尔基的结构 (24)4.5 哈尔小波变换的应用 (24)4.5.1 哈尔小波变换的过程 (24)4.5.2 哈尔小波变换的应用 (24)4.6 哈尔小波变换在本文中的应用 (26)4.6.1 小波变换的应用 (27)4.7 实验及结果分析 (28)4.7.1 实验平台及环境 (28)4.7.2 实验步骤 (28)4.7.3 实验目的 (29)4.7.4 结果分析 (29)第五章总结 (33)5.1 文本总结 (33)5.2 工作展望 (33)参考文献： (34)Absatrct: . (35)第一章引言1.1研究背景及意义所谓的文本自动分类，最初是应信息检索(Information Retrieval，IR)系统的要求出现的。

基于SVM的文本分类任务实例分析

基于SVM的文本分类任务实例分析近年来，随着数据时代的到来，文本分类技术在信息处理、智能搜索、情感分析等领域得到了广泛的应用。

基于SVM（Support Vector Machine）的文本分类是一种有效的文本分类方法，具有准确性高、泛化能力强等特点。

本文将通过实例分析，深入研究和探讨基于SVM的文本分类任务。

一、SVM简介SVM是机器学习中的一种算法，其基本思想是找到一个最优的超平面，将数据点分为不同的类别。

SVM是一种清晰、有效、可靠的算法，其在非线性分类、文本分类、图像识别等领域都有着广泛的应用。

二、文本分类文本分类（Text Classification）是指将文本信息自动分类到预定义的类别中。

文本分类技术对于实现自动化的信息处理、智能搜索、情感分析等领域具有重要的意义。

文本分类任务具体分为训练和预测两个部分，通过训练使得机器学习算法获取不同类别的文本特征，完成模型的构建和训练，最终实现对未知文本的分类和预测。

三、基于SVM的文本分类实例分析在本文中，我们以20 Newsgroup数据集作为实验数据，该数据集包含来自20个不同新闻组的18,846篇新闻文章，其中分别包含11,314篇训练文本和7,532篇测试文本。

我们使用Python语言和scikit-learn库实现了基于SVM的文本分类实例。

1.数据预处理在进行文本分类之前，我们需要对原始文本进行预处理。

预处理步骤包括去除标点、停用词等无用信息，进行向量化处理，将文本转化为数值型数据。

2.特征提取特征提取是文本分类中非常重要的一步，它决定了文本表示的质量和分类效果的好坏。

我们使用TF-IDF（Term Frequency-Inverse Document Frequency）作为特征提取的方法。

TF-IDF是一种用于度量文本中词语重要性的方法，它考虑了某一词语在文档中出现的频率以及在整个语料库中出现的频率。

3.模型构建和训练SVM算法是一种监督学习算法，我们需要先构建一个训练集，将文本特征和对应的分类标签建立映射。

基于SVM的手写体相似汉字识别

基于SVM的手写体相似汉字识别
宫蓉蓉
【期刊名称】《电脑与信息技术》
【年(卷),期】2008(016)004
【摘要】支持向量机作为一种新的机器学习方法,由于其建立在结构风险最小化准则之上,而不仅仅是使经验风险达到最小,从而使支持向量分类器具有较好的推广能力.并且,由于支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解.文章首先讨论了基于支持向量机的手写体相似汉字识别过程.然后,针对支持向量机识别手写汉字所遇到的问题进行了分析和阐述,并在此基础上提出了基于最小距离分类器分类的两级分类策略.最后,针对理论进行了实验仿真.实验结果有力证明了本文提出的基于svM的相似汉字识别方法的有效性.
【总页数】3页(P37-39)
【作者】宫蓉蓉
【作者单位】长沙民政职业技术学院软件学院,湖南长沙,410004
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种动态剪枝二叉树SVM的脱机手写体汉字识别方法研究 [J], 徐小丽;范程华;樊敏
2.基于SVM的多特征手写体汉字识别技术 [J], 周庆曙;陈劲杰;纪鹏飞
3.SVM多值分类器在脱机手写体相似汉字识别中的应用 [J], 封筠;王彦芳;杨扬;王小平;刘永军
4.一种不确定性二叉树 SVM 的脱机手写体汉字识别研究 [J], 范程华;徐小丽;蒋先伟;鲁世斌
5.基于融合特征和LS-SVM的脱机手写体汉字识别 [J], 高彦宇;杨扬;陈飞
因版权原因，仅展示原文概要，查看原文内容请购买。

基于SVM的中文文本分类算法研究与实现的开题报告

基于SVM的中文文本分类算法研究与实现的开题报告一、研究背景在现代社会中，数据信息的爆炸性增长与互联网技术的迅猛发展给人们带来了海量的数据信息，这就要求我们对于这些数据信息进行分类处理，以便于对数据信息进行更加有效的管理。

而文本分类技术则是对文本进行自动分类的一种应用技术。

目前，文本分类技术已广泛应用于情感分析、新闻分类、文本检测等领域。

支持向量机（SVM）作为一种非常有效的模式识别技术，已经被广泛应用于文本分类领域。

然而，中文文本分类问题的研究相对较少。

一方面，中文语言的特殊性会影响文本分类技术的性能；另一方面，中文语言的特殊性也为中文文本分类问题的研究提供了更多的挑战和机遇。

因此，本研究将着重研究中文文本分类算法的性能优化问题，并将采用SVM算法对中文文本进行分类处理，探索SVM在中文文本分类中的优化实现方式。

二、研究目的与意义本研究的目的是探讨SVM算法在中文文本分类中的性能优化问题，并提出相应的实现方法。

具体来说，将探讨以下几点：1、研究基于SVM的中文文本分类算法的基本原理与实现方法。

2、探索中文文本特征的提取方法，探讨中文文本特征的选取与处理。

3、研究基于SVM的中文文本分类器的性能优化问题，并提出相应的解决方案。

本研究的意义在于：1、探索SVM在中文文本分类中的性能优化方式，为中文文本分类技术的发展提供有益的参考。

2、通过对中文文本特征的选取与处理，提高中文文本分类算法的准确率，使其更加适用于中文自然语言处理领域。

3、提高中文文本分类的效率和性能，为中文文本分类技术的应用提供更加可靠和有效的支持。

三、研究内容和方法本研究的主要内容包括：1、研究中文文本分类算法的基本原理和实现方法，包括中文文本特征的提取和处理、分类器的选择、分类器的训练和测试等。

2、实现基于SVM的中文文本分类算法，并通过实验验证算法的性能。

3、优化基于SVM的中文文本分类算法，提高算法的准确率和效率。

本研究的主要研究方法包括：1、收集中文文本分类的相关文献资料，研究中文文本分类算法的基本原理和实现方法，了解相关的技术和方法等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于libsvm的中文文本分类原型支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。

SVM理论的学习，请参考jasper的博客。

LIBSVM 是台湾大学林智仁(Chih-Jen Lin)博士等开发设计的一个操作简单、易于使用、快速有效的通用SVM 软件包,可以解决分类问题(包括C−SVC 、ν−SVC )，回归问题(包括ε − SVR 、v− SVR )以及分布估计(one − class − SVM ) 等问题,提供了线性、多项式、径向基和S 形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。

LIBSVM是一个开源的软件包,。

他不仅提供了LIBSVM 的C++语言的算法源代码,还提供了Python、Java、R、MATLAB、Perl、Ruby、LabVIEW以及C#.net 等各种语言的接口,可以方便的在Windows 或UNIX 平台下使用,也便于科研工作者根据自己的需要进行改进(譬如设计使用符合自己特定问题需要的核函数等)。

更多案例到WX 公zhong hao : datadw文本分类，大致分为如下几件事情：样本，分词，特征提取，向量计算，分类训练，测试和调试。

1.样本选择搜狗语料/labs/dl/c.html，下精简版吧，如果实验用用，这足够了，你要下107M的也可以。

当然，你也可以自己找语料，不过麻烦点而已，把各大门户网站的对应频道下的文章都爬下来。

2.分词Bamboo分词，这是基于CRF++的分词模块，既然是研究统计学习，分词也得用基于统计的不是，如果还是用一字典来分词，那就太out啦。

/p/nlpbamboo/wiki/GettingStarted。

安装完毕bamboo，还要下载训练好的模型（这个模型是基于人民日报1月语料）/p/nlpbamboo/downloads/list，下载index.tar.bz2，解压到/opt/bamboo/index下。

因为咱主要目的是研究分类，不是分词，就不要去搞分词的训练了，如果想训练可以看我的另外一篇博客：CRF++中文分词指南。

可以试试：/opt/bamboo/bin/bamboo -p crf_seg filename，如果成功证明装好了。

稍微注意以下，搜狗的词库是gb2312的，所以，请转为utf8，再分词，这是python写的函数：输入一个文件名，转为utf8，再分词，分词文件以.seg为后缀。

[python]view plain copy1.def seg(fn):2.if not os.path.isfile(fn+'.utf8'):3. cmd = 'iconv -f gb2312 -t utf8 -c %s > %s.utf8' %(fn,fn)4.print cmd5. os.system(cmd)6. cmd = '/opt/bamboo/bin/bamboo -p crf_seg %s.utf8 > %s.seg' % (fn,fn)7.print cmd8. os.system(cmd)分词结果如下：一家刚刚成立两年的网络支付公司，它的目标是成为市值100亿美元的上市公司。

这家公司叫做快钱，说这句话的是快钱的CEO 关国光。

他之前曾任网易的高级副总裁，负责过网易的上市工作。

对于为什么选择第三方支付作为创业方向，他曾经对媒体这样说：“ 我能看到这个胡同对面是什么，别人只能看到这个胡同。

” 自信与狂妄只有一步之遥―― 这几乎是所有创业者的共同特征，是自信还是狂妄也许需要留待时间来考证。

3.特征提取svm不是在高维模式识别具有优势吗，咋还要特征提取呢，把所有词都当成特征不就行了吗？对于词库来说，十几万的词是很常见的，把对类别区分度（GDP，CPI，股票对经济类的区分度就高，其他一些高频词，如我们，大家，一起等就没有区分度）高的词挑选出来，一来可以减少计算量，二来应该是可以提高分类效果。

据说，开方检验（CHI）信息增益（IG）对于挑选特征好，我选择的是CHI。

两者的概念，请google。

首先统计词在文档中的次数[python]view plain copy1.#ingore some term2.def ingore(s):3.return s == 'nbsp'or s == ' 'or s == ' 'or s == '/t'or s == '/n' /4.or s == '，'or s == '。

'or s == '！'or s == '、'or s == '―'/5.or s == '？'or s == '＠'or s == '：' /6.or s == '＃'or s == '%'or s == '＆' /7.or s == '（'or s == '）'or s == '《'or s == '》' /8.or s == '［'or s == '］'or s == '｛'or s == '｝' /9.or s == '*'or s == ','or s == '.'or s == '&' /10.or s == '!'or s == '?'or s == ':'or s == ';'/11.or s == '-'or s == '&'/12.or s == '<'or s == '>'or s == '('or s == ')' /13.or s == '['or s == ']'or s == '{'or s == '}'14.15.#term times16.def getterm(fn):17. fnobj = open(fn,'r')18. data = fnobj.read()19. fnobj.close()20. arr = data.split(' ')21. docterm = dict()22.for a in arr:23. a = a.strip(' /n/t')24.if not ingore(a) and len( a.decode('utf-8')) >=2:25. times = docterm.get(a)26.if times:27. docterm[a] = times + 128.else:29. docterm[a] = 130.return docte31.#cls_term:cls,term,artcount32.#term_cls:term,cls,artcount33.def stat(cls,fn,cls_term,term_cls):34. docterm = getterm(fn)35. termdi = cls_term.get(cls)36.if not termdi:37. termdi = dict()38. cls_term[cls] = termdi39.#term,times40.for t in docterm.iterkeys():41. artcount = termdi.get(t)42.if not artcount:43. artcount = 044. termdi[k] = artcount + 145. clsdi = term_cls.get(t)46.if not clsdi:47. clsdi = {}48. term_cls[k] = clsdi49. artcount = clsdi.get(cls)50.if not artcount:51. artcount = 052. clsdi[cls] = artcount + 1分别计算每个词的a/b/c/da：在这个分类下包含这个词的文档数量b：不在该分类下包含这个词的文档数量c：在这个分类下不包含这个词的文档数量d：不在该分类下，且不包含这个词的文档数量因为前面统计了每个类下，每个词，文章数和每个词，每个类，文章数。

所以很容易得到a,b,c,d的值。

z1 = a*d - b*cx2 = (z1 * z1 * float(N)) /( (a+c)*(a+b)*(b+d)*(c+d) )计算之后，排序，并取出前1000个词（这里指的每个类别的特征词）。

li = sorted(termchi.iteritems(), key=lambda d:d[1], reverse = True)循环每个分类，并把每个类别的特征合并（合并成一个文件，作为特征词典），合并后存为feature文件，第一列是序号，第二列是对应的词，序号就是特征号。

1 逐项2 深市3 九寨沟4 岛内5 期望6 第20分钟7 合理8 谢杏芳9 赛迪10 毛泽东注：特征选择的目的就是选择在该类下，不在其他类下的特征，但是重复是避免不了的，合并的文件肯定是排重过的。

先选择每个类下的1000个词，假如10个类，则共选择10 * 1000个词，然后去重，并生成特征的唯一id。

4.训练和测试样本组织搜狐语料的1990篇中的1890作为训练集，100篇作为测试集，分别形成train和test文件，libsvm的训练集的格式为：lable1 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...lable2 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...对应到文本分类上就是：类别ID 特征序号（第3步计算的特征序号）：特征值（TFIDF值）......如，我摘了一行，这是一篇文章的例子，8就是类别ID，189是特征“189 指导"的序号，0.171153是特征值：8 189:0.171153 253:0.081381 298:0.630345 504:0.135512 562:79.423503 578:0.072219 698:0.078896 710:0.036074 740:0.215368 868:0.263524 1336:0.114355 1365:0.076494 1372:0.085780 1555:0.572497 1563:3.932806 1598:0.114717 1685:0.1298701972:0.193693 2282:0.061828 2865:0.026699 2897:0.099020 3040:0.0396213041:0.258073 3191:0.091276 3377:0.125544 3454:0.062189 3623:0.1396983653:0.128304 3932:2.990233 4353:0.202133 4394:0.312992 4420:0.3563544424:0.482424 4522:0.447795 4675:3.618182 4767:0.065334 4848:0.2704174875:0.213588 4941:0.407453 5004:0.070447 5125:0.717893 5214:3.2222995250:0.052897 5251:0.281352 5310:2.010101 5357:0.203956 5474:0.0340375504:0.193900 5861:0.859426 6120:1.320504 6129:0.107941 6364:0.1842256373:0.287843 6379:0.080727 6385:0.712241 6847:0.209023 7007:0.1478027121:1.320504 7547:0.248161 7636:0.108981采用TFIDF的算法，数据处理和特征选择类似，计算每个类，每篇文档，每个词的次数，以包含这个词的文档数。