基于随机森林的文本分类研究
基于机器学习的文本分类实验报告

基于机器学习的文本分类实验报告一、引言名言:“数据是未来的石油。
” - 克莱尔·劳斯机器学习作为一种人工智能的分支,已在各个领域展现出巨大的潜力。
文本分类作为机器学习的一个重要应用领域,能够将海量的文本数据自动分为不同的类别,对于信息检索、情感分析、垃圾邮件过滤等任务具有重要意义。
本报告旨在通过基于机器学习的文本分类实验,探讨不同算法在文本分类中的表现。
二、数据集介绍在本次实验中,我们选择了一个包含5000条电影评论的数据集。
该数据集由正面和负面的评论组成,每个评论都有对应的标签,其中正面评论为1,负面评论为0。
数据集中的文本经过预处理,包括去除停用词、标点符号以及数字等。
三、特征提取特征提取是文本分类中的一项重要任务,它将文本数据转化为机器学习算法能够处理的数值型数据。
在本次实验中,我们选择了两种常用的特征提取方法:词袋模型和TF-IDF模型。
1. 词袋模型词袋模型将文本表示为一个固定长度的向量,向量的每个维度表示一个词汇,并计算该词汇在文本中的出现次数。
通过计算每个文本的词袋表示,我们构建了特征矩阵用于后续的分类算法。
2. TF-IDF模型TF-IDF模型综合考虑了词语频率和文档频率,并计算出每个词语在文本中的重要性权重。
与词袋模型相比,TF-IDF模型能够更好地反映词语的重要性,从而提高分类的准确性。
四、分类算法比较为了评估不同分类算法在文本分类任务中的表现,我们选择了三种经典的机器学习算法:朴素贝叶斯、支持向量机(SVM)和随机森林。
1. 朴素贝叶斯朴素贝叶斯算法基于贝叶斯定理和特征条件独立假设,通过计算条件概率进行分类。
在文本分类中,朴素贝叶斯表现出良好的性能,并且具有较快的训练速度。
2. 支持向量机(SVM)支持向量机是一种二分类模型,它通过将文本映射到高维空间中,在其中寻找最优超平面来实现分类。
在文本分类中,SVM通过寻找最大间隔超平面,能够有效地解决多类别分类问题。
3. 随机森林随机森林是一种基于决策树的集成学习算法,它通过随机选择特征和样本,构建多棵决策树,并通过投票集成的方式进行分类。
金康荣 随机森林算法的中文文本分类方法

金康荣随机森林算法的中文文本分类方法1. Random Forest algorithm is widely used in Chinese text classification.随机森林算法被广泛应用于中文文本分类。
2. This algorithm combines multiple decision trees to improve classification accuracy.该算法通过组合多个决策树来提高分类的准确性。
3. Random Forest algorithm can effectively handle high-dimensional and sparse feature spaces.随机森林算法可以有效处理高维稀疏特征空间。
4. It has been successfully applied in sentiment analysis, topic classification, and news categorization.该算法已成功应用于情感分析、主题分类和新闻归类。
5. The Random Forest algorithm can handle unbalanced datasets in text classification tasks.随机森林算法可以处理文本分类任务中的不平衡数据集。
6. By using feature importance measures, the algorithm can identify the most influential features in the classification process.通过使用特征重要性度量,该算法可以识别分类过程中最具影响力的特征。
7. Random Forest algorithm is computationally efficient and scalable to large datasets.随机森林算法在计算效率和大规模数据集上具有可扩展性。
随机森林算法的应用与优化方法研究

随机森林算法的应用与优化方法研究随机森林算法是一种集成学习方法,它由多个决策树组成,每棵树都是独立训练的。
随机森林算法在实际应用中有着广泛的应用,包括但不限于以下几个方面:1. 分类与回归,随机森林算法可以用于分类问题和回归问题。
在分类问题中,它可以用于识别图像、文本分类、医学诊断等领域;在回归问题中,它可以用于预测房价、股票价格、销售量等。
2. 特征选择,随机森林算法可以用于特征选择,通过对特征的重要性进行排序,帮助我们选择最相关的特征,从而提高模型的性能和泛化能力。
3. 异常检测,随机森林算法可以用于异常检测,通过对数据进行训练,可以识别出与正常数据不同的异常数据点,对于金融欺诈检测、网络安全等领域有着重要的应用价值。
4. 处理缺失值,随机森林算法对缺失值具有很好的鲁棒性,可以有效地处理数据中的缺失值,使得模型训练更加稳健。
至于随机森林算法的优化方法,主要包括以下几个方面:1. 参数调优,随机森林算法有一些重要的参数,如树的数量、树的深度、特征的选择等,通过交叉验证等方法进行参数调优,可以提高模型的性能。
2. 特征工程,特征工程是优化随机森林算法的重要手段,包括特征选择、特征变换、特征构建等,能够提高模型的泛化能力。
3. 集成策略,随机森林算法本身就是一种集成学习方法,可以通过调整集成策略,如bagging、boosting等,来优化模型的性能。
4. 并行化处理,随机森林算法天然适合并行化处理,可以利用多核CPU或分布式计算框架来加速模型的训练过程。
总之,随机森林算法在实际应用中具有广泛的应用前景,通过合适的优化方法,可以提高模型的性能和泛化能力,从而更好地适用于各种实际场景。
基于机器学习的文本分类方法及实用性评估

基于机器学习的文本分类方法及实用性评估在当今信息爆炸的时代,大量的文本数据使得人们面临一个重要的挑战:如何高效地对海量文本进行分类和分析。
机器学习作为一种能够自动从数据中学习并提取知识的方法,被广泛应用于文本分类任务中。
本文将介绍基于机器学习的文本分类方法以及其在实际应用中的评估。
一、基于机器学习的文本分类方法1. 文本特征表示方法在进行文本分类之前,首先需要将文本数据转化为机器学习算法可以处理的特征向量。
常用的文本特征表示方法有以下几种:(1) 词袋模型 (Bag-of-Words Model): 该模型将文本看作是一组无序的词汇集合,忽略了词语之间的顺序和语法结构,只关注每个词出现的频率。
通过统计每个词在文本中出现的次数或者使用TF-IDF进行权重计算,可以将文本转化为高维稀疏的向量表示。
(2) Word2Vec: Word2Vec是一种基于神经网络的词向量表示方法,通过预训练的神经网络模型将每个词映射到一个固定长度的稠密向量。
Word2Vec考虑了词语的语义信息,可以更好地捕捉词语之间的关系。
(3) 文本主题模型 (Topic Models): 主题模型是一种能够自动发现文本中的主题信息的方法。
通过对文本进行主题建模,可以将文本表示为一个主题分布的向量。
2. 文本分类算法基于机器学习的文本分类算法可以分为有监督和无监督学习算法。
有监督学习算法通过已标注的训练数据学习分类模型,而无监督学习算法则从未标注的数据中自动学习分类规则。
(1) 朴素贝叶斯分类器 (Naive Bayes Classifier): 朴素贝叶斯分类器是一种基于概率的分类方法,假设特征之间相互独立。
该算法通过计算给定特征条件下的类别概率,来预测文本的类别。
(2) 支持向量机 (Support Vector Machine, SVM): SVM是一种二分类模型,通过在特征空间中建立一个最优超平面来进行分类。
其核函数的选取可以应用于非线性文本分类任务。
基于机器学习的中文文本分类方法研究

基于机器学习的中文文本分类方法研究随着互联网和数字技术的迅速发展,每天产生大量的中文文本数据,如社交媒体上的微博、微信公众号文章、新闻报道等。
有效地对这些数据进行分类和分析,对于了解用户需求、监测舆情、进行情感分析等具有重要意义。
因此,基于机器学习的中文文本分类方法的研究成为了一个热门的领域。
本文将就该研究课题进行探讨,并介绍几种常见的中文文本分类方法。
一、基本概念与方法1. 文本分类概述文本分类是指将文本数据分为不同的类别或标签,通过自动学习和预测,将未分类的文本数据归入合适的类别中。
而机器学习则是一种人工智能和数据科学中的重要分支,基于大量的训练数据,通过构建模型来学习数据的特征和规律,然后使用这些模型对新的数据进行预测和分析。
2. 中文文本分类方法在中文文本分类中,常用的机器学习方法包括:朴素贝叶斯、支持向量机(SVM)、逻辑回归、随机森林和深度学习等。
二、常见的中文文本分类方法1. 朴素贝叶斯(Naive Bayes)朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类算法。
在中文文本分类中,朴素贝叶斯方法首先需要将文本转化为特征向量表示,常见的方法有词袋模型和TF-IDF方法。
然后,通过计算每个特征在每个类别中的条件概率,再结合贝叶斯定理计算后验概率,得到文本属于每个类别的概率,从而进行分类。
2. 支持向量机(Support Vector Machines,SVM)支持向量机是一种常用的二分类和多分类方法。
在中文文本分类中,SVM通过将文本数据映射到高维空间中,寻找一个最优的超平面,使得不同类别的文本数据在特征空间中有最大的间隔。
这样就可以将未分类的文本数据根据其在特征空间中的位置进行分类。
3. 逻辑回归(Logistic Regression)逻辑回归是一种用于解决二分类问题的线性回归算法。
在中文文本分类中,逻辑回归通常使用词袋模型将文本数据转化为特征向量表示,然后使用逻辑函数(sigmoid函数)将特征向量映射到0和1之间的概率值,来表示文本属于不同类别的概率。
数学建模论文题目优选专业题目128个

数学建模论文题目优选专业题目128个1. 基于偏最小二乘法的回归模型研究2. 城市道路网优化设计模型研究3. 基于多元时间序列的股票价格预测模型4. 基于PCA的图像压缩算法研究5. 基于神经网络的手写数字识别模型研究6. 基于逻辑回归的信用评分模型研究7. 基于多元回归的考试成绩预测模型8. 基于分层抽样的调查数据分析模型研究9. 基于粒子群算法的车辆路径规划模型10. 基于高斯混合模型的人脸识别模型研究11. 基于时间序列的气象预测模型研究12. 基于模糊数学的交通运输成本评价模型13. 基于Bayesian模型的风险管理模型研究14. 基于熵权法的供应链绩效评价模型研究15. 基于人工神经网络的物流配送路径规划模型16. 基于聚类分析的消费者购物行为模型研究17. 基于ARIMA模型的股票价格预测研究18. 基于线性规划的资源优化配置模型研究19. 基于灰色关联分析的品牌效应评价模型20. 基于神经网络的信用卡欺诈检测模型研究21. 基于分类决策树的客户流失预测模型22. 基于支持向量机的情感分类模型研究23. 基于聚类分析的企业竞争战略研究24. 基于随机森林算法的文本分类研究25. 基于多元回归的商品价格预测模型研究26. 基于模糊层次分析法的公共设施优化布局模型27. 基于BP神经网络的电网负荷预测模型研究28. 基于熵增资金流动模型的投资组合优化研究29. 基于支持向量机的时序自然语言处理模型研究30. 基于贝叶斯网络的风险评估模型研究31. 基于特征选择的糖尿病研究模型32. 基于ARMA-GARCH模型的黄金价格预测研究33. 基于随机森林算法的房价预测模型研究34. 基于半监督学习的数据建模方法研究35. 基于神经网络的新闻情感分析模型研究36. 基于多元回归的用户购买意愿预测研究37. 基于主成分分析法的医学数据挖掘模型研究38. 基于熵增二次规划的环保决策模型研究39. 基于支持向量机的产品缺陷分析模型研究40. 基于遗传算法的旅游路线规划模型研究41. 基于BP神经网络的房产估价模型研究42. 基于多元线性回归的企业税收影响因素研究43. 基于LDA主题模型的新闻推荐模型研究44. 基于半监督学习的文本分类方法研究45. 基于动态规划的优化管理模型研究46. 基于人工神经网络的汽车质量控制模型研究47. 基于SVM的留学生综合评价模型研究48. 基于熵权法的企业绩效评价模型研究49. 基于色彩分类的图像检索模型研究50. 基于PCA的公司财务分析模型研究51. 基于最小二乘法的时序预测模型研究52. 基于BP神经网络的信用风险评估模型研究53. 基于ARIMA模型的国际贸易数据预测研究54. 基于分层抽样的公共政策效果评价模型研究55. 基于遗传算法的网络优化模型研究56. 基于Logistic回归的客户流失模型研究57. 基于主成分回归的能源消费预测模型研究58. 基于熵增多目标规划的医院资源配置模型研究59. 基于LSTM的短期气温预测模型研究60. 基于支持向量机的销售预测模型研究61. 基于偏最小二乘法的时间序列分析模型研究62. 基于线性规划的物流成本控制模型研究63. 基于粒子群算法的生产排程问题研究64. 基于K-Means算法的用户购物行为分析模型研究65. 基于BP神经网络的就业市场预测模型研究66. 基于多元回归的房价分析模型研究67. 基于PCA-LDA算法的股票投资组合优化研究68. 基于熵增法的金融客户信用评估模型研究69. 基于ARIMA模型的出口贸易预测研究70. 基于主成分回归的汽车销售预测研究71. 基于支持向量机的客户信贷风险评估模型研究72. 基于自回归模型的煤矿生产数据分析模型研究73. 基于半监督学习的文本聚类算法研究74. 基于偏最小二乘法的多元时间序列预测模型研究75. 基于数据挖掘的酒店客户消费分析模型研究76. 基于BP神经网络的固定资产折旧预测模型研究77. 基于LSTM的外汇汇率预测模型研究78. 基于GARCH模型的期货价格波动预测研究79. 基于随机森林算法的个人信用评估模型研究80. 基于分层抽样的医院评价模型研究81. 基于主成分回归的员工绩效评价模型研究82. 基于特征选择的电商商品分类预测研究83. 基于组合多目标规划的供应链资源配置模型研究84. 基于支持向量机的农村扶贫模型研究85. 基于因子分析法的股票投资风险评估模型研究86. 基于熵权法的环境效益评价模型研究87. 基于ARMA-GJR模型的期权价格波动预测研究88. 基于线性规划的房地产项目开发决策模型研究89. 基于支持向量机的人体姿势识别模型研究90. 基于逻辑回归的疾病风险评估模型研究91. 基于随机森林算法的人群画像建模研究92. 基于特征选择的电商用户购买行为模型研究93. 基于主成分回归的债券价格预测研究94. 基于半监督学习的视频分类方法研究95. 基于GARCH模型的黄金价格波动预测研究96. 基于线性规划的物流配送网络优化模型研究97. 基于神经网络的推荐系统算法研究98. 基于多元回归的城市房价分析模型研究99. 基于决策树的产品质量评估模型研究100. 基于熵增的生态系统评价模型研究101. 基于ARMA-GARCH模型的汇率波动预测研究102. 基于偏最小二乘法的长期股票价格预测模型研究103. 基于支持向量机的广告点击率预测模型研究104. 基于最小二乘法的用户行为分析模型研究105. 基于主成分分析的国际贸易影响因素研究106. 基于熵权法的固体废物处置模型研究107. 基于BP神经网络的猪价预测模型研究108. 基于多元回归的医疗保险费用预测模型研究109. 基于半监督学习的语义分析方法研究110. 基于GARCH模型的股票市场风险度量研究111. 基于多元回归的房屋安全预测模型研究112. 基于主成分回归的银行收益预测模型研究113. 基于支持向量机的人脸识别模型研究114. 基于逻辑回归的考生录取预测模型研究115. 基于随机森林算法的股票涨跌预测模型研究116. 基于线性规划的生产物流系统优化研究117. 基于支持向量机的非线性预测模型研究118. 基于LSTM的股票走势预测模型研究119. 基于因子分析法的环保技术影响因素分析研究120. 基于聚类分析的电商平台用户行为分析研究121. 基于人工神经网络的物流配送路线优化模型研究122. 基于多元回归的房产投资模型分析研究123. 基于主成分回归的教育支出预测研究124. 基于熵增的商业银行绩效评价模型研究125. 基于遗传算法的能源资源优化配置模型研究126. 基于半监督学习的情感分类方法研究127. 基于GARCH模型的商品期货价格波动研究128. 基于支持向量机的房地产投资风险评估模型研究。
基于机器学习的文本分类算法研究

基于机器学习的文本分类算法研究一、引言随着互联网和大数据技术的不断发展,人们在网络上获取和产生的信息呈现爆炸式增长。
如何从大规模的文本数据中高效准确地提取有用信息,成为当前研究的热点之一。
文本分类作为自然语言处理和机器学习领域的一个重要任务,在信息检索、垃圾邮件过滤、情感分析等应用中都发挥着重要作用。
本文主要研究基于机器学习的文本分类算法,以提高文本分类的准确性和效率。
二、文本分类算法概述文本分类算法是指根据已知类别的文本样本,通过自动学习构建分类模型,对未知类别的文本进行分类的过程。
传统的文本分类算法包括朴素贝叶斯、支持向量机等,这些方法主要通过对文本进行特征提取和模型训练来实现分类。
然而,传统方法在面对大规模高维度的文本数据时存在一定的局限性,机器学习的发展为文本分类带来了新的思路和方法。
三、基于机器学习的文本分类算法基于机器学习的文本分类算法通过训练样本和特征的自动学习,构建分类模型从而实现文本分类。
常用的基于机器学习的文本分类算法有:朴素贝叶斯分类器、支持向量机、随机森林、深度学习等。
1. 朴素贝叶斯分类器朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。
该方法假设文本中的每个特征对于分类结果独立且具有相同的发生概率。
基于这一假设,该方法通过计算每个特征在不同类别下的条件概率来实现文本分类。
朴素贝叶斯分类器在文本分类中具有简单高效的特点,但是忽略了特征之间的相关性。
2. 支持向量机支持向量机是一种基于结构风险最小化原理的分类方法。
该方法通过将文本样本映射到高维空间中,学习一个最优的超平面来实现分类。
支持向量机在文本分类中具有较好的泛化性能和鲁棒性,但是在处理大规模文本数据时计算复杂度较高。
3. 随机森林随机森林是一种基于决策树集成的分类方法。
该方法通过构建多个决策树,使用投票或平均策略来进行分类。
随机森林在文本分类中具有较好的稳定性和可解释性,且能够处理高维度的文本数据。
随机森林算法实现及其在分类问题中的应用

随机森林算法实现及其在分类问题中的应用随机森林算法是机器学习中一种常用的决策树算法,其利用多个决策树进行集成学习,能够有效提高分类的准确率和鲁棒性。
本文将介绍随机森林算法的基本原理和实现方式,并探讨其在分类问题中的广泛应用。
一、基本原理随机森林算法本质上是一种集成学习方法,它将多个决策树组合在一起,通过投票的方式进行分类。
每个决策树由对样本数据进行分割而得到的一系列节点组成,每个节点都对样本的某些属性进行划分,生成一个子树。
在随机森林算法中,每个决策树的生成都是基于不同的样本数据和属性随机选取的。
随机森林算法的核心思想是含有随机因素的多个决策树可以打破预测结果的单一性和不稳定性,提高了算法的鲁棒性。
在随机森林中,每个决策树的生成都是基于不同的数据集和属性随机选取的。
随机森林中每棵决策树的分类结果由所有决策树的分类结果按照一定的投票规则进行最后的分类决策。
二、实现方式随机森林算法的生成过程可以分为两个主要步骤:训练和测试。
1. 训练训练过程首先要确定随机森林中每棵树所要使用的训练集。
这里使用的是“有放回抽样”(bootstrap)的方法,在原始数据集中随机抽取与原样本数相同的样本,并用这个子集来训练一棵分类器。
这样生成多个数据集和多个分类器之后,它们将构成随机森林。
然后,对于每个数据集,训练一棵决策树,直到达到设定的生成树的数量,或者生成的每个树的分类误差达到设定的阈值。
2. 测试测试过程用于验证训练好的随机森林的分类准确率。
测试数据集与训练数据集不一样,不过,对于每个测试数据样本来讲,它都会同样重复地出现在多个决策树中。
当它被每个决策树投票后,最终分类的结果就是随机森林的分类结果。
三、应用场景随机森林算法在实际应用中展现出了强大的分类能力,成为了诸如数据挖掘、信用评分、风格预测、语音识别和图像识别等领域中广泛应用的算法之一。
以信用评分为例,利用随机森林算法,我们可以通过样本的多个属性值(如客户的收入、信用历史、年龄等),以及数据集中已经有的标记(如某个信用等级)来构建分类器。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于随机森林的文本分类研究
作者:陈海利孙志伟庞龙
来源:《科技创新与应用》2014年第02期
摘要:文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。
文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。
文章采用了一种基于随机森林的文本分类方法。
该方法来源于基于决策树的机器学习,依据文本内容的分词结果进行机器学习,将文本中信息量高的词汇提取出来作为学习维度,可以准确地对文本进行分类。
由于随机森林算法[1]具有高并发,快速收敛的优点,非常适合海量数据的处理。
关键词:决策树分类;机器学习;森林
1 问题分析和算法描述
随机森林可以看成是Bagging和随机子空间的结合。
随机森林是由一系列的分类器组合在一起进行决策[2],期望得到一个最“公平”的学习方法。
如图1所示,构造每一个分类器需要从原数据集中随机抽取出一部分样本作为样本子空间,然后再从样本子空间中随机的选取一个新的特征子空间[4],在这个新空间中建立决策树作为分类器,最后通过投票的方法得到最终决(如图1)。
图1
1.1 构建单棵决策树
(1)对于训练集S,如果训练集数据都属于一个类标签C,或S足够纯净(85%以上的数据都属于类标签C时),否则创建叶子节点,表明类标签C。
(2)否则,
·选择“最具有信息”的属性A:
·依据A来划分训练集S;
·递归的划分训练集来构造子树。
1.2 构建随机森林
·从原始数据中产生n个随机抽样。
·对于每一个抽样,训练一个未剪枝的决策树,对于每个节点,不是在所有属性中挑选分割最好的决策树,而是在m个抽样出来的属性中挑选最好的那个。
·对数据集进行预测,并搜集各个树的预测结果,以众数(出现最多的值)给出最后的预测结果。
1.3 说明
一个单词包含的信息量,用特征单词在文档中出现的频率p,和该词的反文档频率q来表示(如果一个单词在很多文档中出现的频率都很高,那么这个单词过于普遍,不足以用来表征一篇文档)。
文本中词汇信息量的维度可以采“熵”来衡量,设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:
其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。
熵的实际意义是D中元组的类标号所需要的平均信息量。
现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:
在选取信息量最大的属性是我们依照公式[3]选取对样本及最大的属性A。
2 实验步骤
2.1 提取实验文档
实验采用搜狗语料库精简版,其分类体系包括几十个分类节点,网页规模约为十万篇文档。
2.2 文本特征提取、降维
采用前面提到的信息增量的办法来衡量信息的有效性,分别计算分词后各词的信息增量gain(A),对语料库中1791篇短文分词,共得到共有前4685个不同的词组,如果全部计算,则运算矩阵维数过高,需要依据gain(A)选取区分度高的词汇作为候选特征。
2.3 文本向量化
依据词在文本中出现的频率,采用tf*idf向量化对文本进行向量化。
向量化结果如表1所示:
表1
按照上面描述的算法对文档进行分类。
如果原始训练集S中有N篇文本,使用有放回抽样,从S中抽出N篇文本作为建立第i棵树的训练集Si,调用建立决策树过程,训练单个文本
分类器。
其中,如果Si有mall维特征,则随机地选取mtry维特征,并且在这mtry维特征中选取分类效果最好的一个特征A作为该结点的分裂属性。
2.4 试验结果分析及解释(表2):
表2
3 试验结果分析
依据实验结果,随机森林方法分类的平均准确率和平均查全率要优于贝叶斯方法,主要原因是排除了贝叶斯方法中特征互相独立的不合理假设,将对文档区分度贡献大的词(在本文中多次出现,而在其他文章中出现次数较少)提取出来作为特征,对系统进行无监督分类训练。
参考文献
[1]Svetnik V,Liaw A,Tong C,et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J].Journal of chemical information and computer sciences,2003,43(6): 1947-1958.
[2]张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报:理学版,2006,41(3):139-143.
[3]张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报:自然科学版,2008,26(3):181-185.
[4]张海龙,王莲芝.自动文本分类特征选择方法研究[J][J].计算机工程与设计,2006,27(20):3838-3841.
作者简介:陈海利(1987-),男,河北省沧州市,同济大学软件工程专业,硕士,研究方向:数据挖掘。
孙志伟(1958-),男,辽宁省沈阳市,沈阳机床股份有限公司高级工程师,本科,研究方向:数据库优化。
庞龙(1981-),男,辽宁省沈阳市,沈阳机床股份有限公司中级工程师本科,研究方向:数据库优化。