流式大数据下随机森林方法及应用
流式大数据下随机森林方法及应用

数据的易失性和无限性特点。
3) 由于数据的无序性,经典随机森林所产生的
分类器无法满足所有的输入数据,必须令分类器能
够随着新数据的输入不断更新,保持对数据的敏感
性和准确度。 因为数据的易失性,所以分类器的更
新就必 须 基 于 算 法 所 临 时 保 存 的 有 限 训 练 数 据
进行。
4) 分类器 更 新 方 法 必 须 是 可 伸 缩 的、 高 效 的,
大数据批量计算技 术 的 研 究 相 对 更 成 熟[5⁃6] , 例如开源的 Hadoop 系统、Google 的 MapReduce 模型 等,得到广泛应用的系统就都是基于批量计算技术 的[7] 。 对于更看重输出结果的准确性、全面性的场 景,批量计算更有优势。
对于实时性要求更高、数据流量不确定、对数据 准确度要求稍低的场景来说,流式计算具有明显优 势[8⁃9] 。 与大量的批量计算技术研究相比, 关 于 流 式计算的研究较少。 早期的流式计算研究是以数据 库环境中的流式数据计算为主。
关 键 词:决策树;随机森林方法;大数据;流式计算;社交网站;搜索引擎;分类器;剪枝;客户评 分;分布式系统
中图分类号:TP391 文献标志码:A 文章编号:1000⁃2758(2015)06⁃1055⁃07
在各应用场景中, 大数据计算模式[1⁃4] 可分为 批量计算、流式计算 2 种。 批量计算,指先对数据收 集存储,再对已经存储静态数据集中计算,发现数据 价值。 流式计算,指无法确定数据到来顺序和时间, 也无法将历史数据全部存储,而是当数据流动进来 后在内存直接实时计算数据,输出有价值的信息。
随机森林是目前海量数据处理中应用最广的分 类器之一,在响应速度、数据处理能力上都有出色表 现[10,13] 。 随机森林是决策树 { h( x,θk ) ,k = 1,…} 的集合 H,其中 h(x,θk) 是元分类器,是用 CART 算 法生成的 1 棵没有剪枝的回归分类树;x 为输入向 量,{θk} 是独立而且同分布随机向量,决定每一棵
随机森林算法在大数据分类中的应用研究

随机森林算法在大数据分类中的应用研究伴随着互联网和物联网的发展,人们对数据的需求和储存量都不断地攀升。
在这个大数据时代,如何快速而准确的分类数据成为了一个亟待解决的问题。
传统的机器学习算法在处理大数据分类时面临着许多难题,例如维度灾难和过拟合;而随机森林算法可以有效地解决这些问题,因此在大数据分类中变得越来越流行。
一、随机森林算法的原理以及特点随机森林的核心思想是构建多棵决策树,然后将每颗决策树的结果进行集成,形成一个更加准确的分类系统。
具体来说,随机森林算法可以分成两个阶段:1. 随机生成许多样本在第一阶段,随机森林会生成许多具有不同特征的样本。
对于每个样本,它会从原始数据中有放回的随机选择一部分,这个部分的大小与原始数据集的大小相同。
通过这种方法,随机森林可以产生新的样本组合而不会损失数据的完整性。
2. 构建多个决策树在第二阶段,随机森林会基于上一阶段随机生成的样本来构建多棵决策树。
每颗决策树都会通过对数据进行递归地划分,来将数据集分离成多个小的部分。
每个划分将会根据特征的重要性来决定,最终得到一棵分类器。
在这个过程中,随机森林可以利用一个袋装算法来保证每个样本可以在每颗决策树中都能被选择到。
在特征选择时,随机森林算法可以通过特征的重要性度量来较为准确地选择哪些特征是更有意义的。
在每个节点的划分中,随机森林都会评估每个特征的重要性,然后选择最好的特征来进行划分。
通过这种方法,我们可以更好地了解数据集中哪些特征是有意义的,使得分类器在预测时变得更加准确和稳健。
随机森林算法的优点在于它在处理高维数据时非常有效。
当数据集中的特征数量庞大时,利用随机森林对特征进行选择可以避免出现过拟合问题。
此外,随机森林还可以非常快速地进行训练,这对于大规模数据集而言尤为重要。
因此,在大数据分类中,我们可以利用随机森林算法快速而准确地对数据进行分类。
二、随机森林在大数据分类中的应用随机森林算法在大数据分类中的应用非常广泛。
随机森林算法原理及应用

随机森林算法原理及应用在机器学习领域,随机森林算法被广泛应用。
它是一种集成学习(ensemble learning)算法,通过将多个决策树组合起来,以投票方式获得最终的分类结果。
在实际应用中,随机森林算法可用于分类、回归和特征选择等任务。
本文将详细介绍随机森林算法的原理和应用。
一、随机森林算法原理随机森林算法是由多棵决策树组成的。
决策树是一种基本的分类器,它通过对数据逐步分裂,得到最终的分类结果。
但单个决策树往往会过拟合或欠拟合某些数据,不能达到理想的分类效果。
而随机森林算法则采用了多棵决策树的投票策略,避免了过拟合和欠拟合问题,提高了算法的泛化能力。
随机森林算法的原理是在随机的样本和特征的基础上训练多棵决策树,并将它们组合起来形成一个分类器。
在构建决策树时,随机森林算法限制了每个节点可以选择的特征范围,从而有效地降低了模型的方差。
同时,每个决策树的训练样本也是随机选择的,这有助于减少模型的偏差。
随机森林算法的训练过程如下:1、从训练数据中随机选择一定比例的样本(可以有放回)。
2、从特征中随机选取一部分特征进行训练。
3、建立决策树,通过递归地对数据进行分割,直到满足某个停止条件(比如节点中样本数小于预设值)。
4、重复以上步骤,直到生成多棵决策树。
在进行预测时,随机森林算法采用投票的方式得到最终的结果。
即所有决策树对一个输入样本的预测结果进行投票,得票最多的结果作为最终的分类或回归结果。
二、随机森林算法应用随机森林算法具有较高的准确性、稳定性和可解释性,被广泛应用于分类、回归和特征选择等任务。
1、分类任务随机森林算法可以用于二分类和多分类问题。
在进行分类时,随机森林算法可以处理线性和非线性的分类问题。
它们的分类效果往往优于单个决策树,且不容易过拟合或欠拟合。
随机森林算法也可以用于异常检测,即将异常点作为一个类别进行分类。
2、回归任务随机森林算法也可以应用于回归问题,即预测一个连续的数值。
它可以处理线性和非线性的回归任务,往往优于单个决策树,且不容易过拟合或欠拟合。
大数据分析中的随机森林算法教程

大数据分析中的随机森林算法教程随机森林是一种流行且强大的机器学习算法,广泛应用于大数据分析领域。
它可以用于分类和回归问题,并具有很强的预测准确性和鲁棒性。
在本文中,我们将深入介绍随机森林算法的原理、应用和实施步骤。
一、随机森林算法原理随机森林算法是一种集成学习方法,基于决策树构建而成。
其原理主要包括两个方面:随机性和集成。
首先,随机性特点使得每个决策树在训练时的样本和特征都是随机选择的,这增加了算法的多样性。
通过随机选择,每个决策树都可能学习到不同的特征和规则,并不能过拟合训练数据。
其次,集成的部分是指将多个决策树集成在一起。
对于分类问题,随机森林通过多数投票来确定最终的分类结果;对于回归问题,随机森林通过平均预测值来生成最终的回归结果。
二、随机森林算法应用随机森林算法在大数据分析中有广泛的应用,特别是在以下领域:1. 预测随机森林可以用于预测问题,如销售趋势预测、股票价格预测等。
通过对历史数据进行分析,随机森林可以学习到数据之间的关系,并用于未来情况的预测。
2. 信用评分在金融行业中,随机森林可以应用于信用评分模型的构建。
通过分析大量的个人信息和历史信用记录,随机森林可以帮助金融机构准确评估借款人的风险等级。
3. 医疗诊断随机森林可以应用于医疗诊断领域,帮助医生预测疾病和判断病情。
通过分析大量的患者数据和医学指标,随机森林可以提供准确的诊断和治疗建议。
三、随机森林算法实施步骤实施随机森林算法需要以下步骤:1. 数据准备首先,从大数据集中选择适当的特征和标签,并将数据进行预处理。
这可能包括缺失值填充、特征标准化和数据划分等。
2. 随机选择样本和特征在每棵决策树的训练过程中,从数据集中随机选择一部分样本和特征。
这样可以增加算法的多样性,提高模型的鲁棒性。
3. 构建决策树使用随机选择的样本和特征,在每个决策树中利用决策树算法构建模型。
这包括选择划分节点、计算信息增益等步骤。
4. 集成决策树将构建的多个决策树进行集成。
随机森林算法应用场景

随机森林算法应用场景随机森林是一种集成学习算法,通过构建多个决策树模型并结合它们的预测结果来进行分类或回归。
随机森林算法具有很多优点,如具有较高的准确率、能够处理大规模数据集、能够处理高维数据、对缺失值和异常值具有较好的鲁棒性等。
因此,随机森林算法在许多领域都有广泛的应用。
以下是随机森林算法的一些应用场景及相关参考内容:1. 金融领域在金融领域,随机森林算法可以应用于风险评估、信用评分、欺诈检测等任务。
例如,在信用评分中,可以使用随机森林算法构建一个模型来预测借款人的信用风险。
相关参考内容可以是论文《A random forest approach to classifying financial distress》。
2. 医学领域随机森林算法在医学领域中有广泛的应用,如疾病预测、药物设计、基因表达分析等。
例如,在疾病预测中,可以使用随机森林算法根据患者的临床特征来预测患者是否患有某种疾病。
相关参考内容可以是论文《Random forest for the early detection of cardiovascular disease》。
3. 自然语言处理随机森林算法在自然语言处理中也有广泛的应用,如情感分析、文本分类、命名实体识别等。
例如,在情感分析中,可以使用随机森林算法对文本进行情感分类,判断文本是积极的、消极的还是中性的。
相关参考内容可以是论文《A comparative analysis of sentiment classification for tweets using random forest》。
4. 图像处理随机森林算法在图像处理中也有一定的应用,如图像分类、目标检测、人脸识别等。
例如,在目标检测中,可以使用随机森林算法对图像中的目标进行检测和定位。
相关参考内容可以是论文《Facial expression recognition using random forest and local binary patterns》。
数据分析中的随机森林如何应用

数据分析中的随机森林如何应用咱今天来聊聊数据分析里一个挺有意思的东西——随机森林。
要说这随机森林啊,就像是一片神奇的小树林,里面每棵树都有自己的想法和判断。
你可能会问,这跟数据分析有啥关系?别急,听我慢慢道来。
我先给您讲个事儿,前阵子我帮一家小公司分析他们的销售数据。
这公司不大,但是数据那叫一个乱,什么客户信息、销售金额、购买时间,全搅和在一起,看得人脑袋都大了。
我就想着用随机森林这个法子来试试,看看能不能从这堆乱麻里找出点有用的东西。
我把这些数据一股脑儿地扔进去,就像给这片小树林施肥一样。
随机森林里的每棵树呢,其实就是一个决策树。
这些树可不是随便长的,它们是通过对数据的随机抽样和特征选择生成的。
比如说,在分析销售数据的时候,有的树可能会更关注客户的年龄,有的树可能更在意购买的产品类型。
这就好像在那小公司里,有的员工觉得客户年龄能决定购买意愿,有的觉得产品类型才是关键。
然后这些树各自给出自己的判断和预测。
最后把所有树的结果综合起来,就得到了一个比较准确和稳定的结果。
就好比公司开大会,大家七嘴八舌说了一通,最后综合大家的意见得出一个靠谱的方案。
而且啊,随机森林还有个厉害的地方,就是它能处理大量的特征和数据,还不容易过拟合。
啥叫过拟合呢?就好比你考试前死记硬背了一堆答案,结果考试的时候题目稍微一变,你就傻眼了。
随机森林可不会这样,它能灵活应对各种情况。
再回到我处理的那个小公司的数据,通过随机森林的分析,我发现年轻客户更喜欢购买时尚新颖的产品,而年长的客户更注重产品的实用性和性价比。
这可给公司的营销策略指明了方向。
所以说啊,随机森林在数据分析里可真是个好帮手。
不管是预测销售趋势,还是分析客户行为,它都能派上大用场。
您要是也碰到了一堆让人头疼的数据,不妨试试这神奇的随机森林,说不定能给您带来意想不到的惊喜呢!。
随机森林算法应用场景

随机森林算法是一种集成学习方法,由多个决策树组成的分类器。
它在解决分类和回归问题方面具有很高的准确性和稳定性,适用于各种应用场景。
下面将介绍随机森林算法的应用场景及相关参考内容。
1.金融风控领域随机森林算法在金融风控领域有广泛的应用。
例如,在评估个人信用风险时,可以使用随机森林算法来构建模型,从而预测个人的还款能力。
相关参考内容可包括《基于随机森林算法的信用风险评估研究》、《基于随机森林的个人信用风险预测模型研究》等。
2.医疗领域随机森林算法在医疗领域的应用也非常广泛。
例如,在疾病诊断方面,可以使用随机森林算法来构建模型,从而预测患者的疾病风险。
相关参考内容可包括《基于随机森林的疾病风险预测模型研究》、《基于随机森林算法的医疗预测模型研究》等。
3.电商推荐系统随机森林算法在电商推荐系统中也有重要的应用。
例如,在为用户进行个性化推荐时,可以使用随机森林算法来构建模型,从而分析用户的购买行为,并提供个性化的商品推荐。
相关参考内容可包括《基于随机森林算法的电商推荐系统研究》、《基于随机森林的用户购买行为分析及推荐模型研究》等。
4.工业制造领域随机森林算法在工业制造领域也有广泛的应用。
例如,在预测机器故障和维护方面,可以使用随机森林算法来构建模型,从而预测设备的故障风险,提前进行维护。
相关参考内容可包括《基于随机森林的工业制造故障预测模型研究》、《基于随机森林算法的设备维护优化研究》等。
5.自然语言处理随机森林算法在自然语言处理领域也有一定的应用。
例如,在情感分析方面,可以使用随机森林算法来构建模型,从而分析文本中的情感倾向。
相关参考内容可包括《基于随机森林的情感分析模型研究》、《基于随机森林算法的文本情感倾向分析研究》等。
总结起来,随机森林算法的应用场景非常广泛,涉及金融风控、医疗、电商推荐、工业制造、自然语言处理等多个领域。
以上仅是其中的几个示例,实际中还有很多其他应用场景。
这些相关参考内容可以作为进一步了解和研究随机森林算法在具体领域应用的参考资料,有助于深入理解该算法的原理和实现方法。
随机森林的原理及应用

随机森林的原理及应用1. 随机森林的原理随机森林是一种集成学习算法,在机器学习领域得到了广泛应用。
它由多个决策树构成,通过投票或平均的方式来预测结果。
这种集成方式能够通过减少多个决策树之间的方差来提高模型的性能。
1.1 决策树首先,我们需要了解决策树。
决策树是一种基本的机器学习算法,它采用树状结构来表示决策规则。
在决策树中,每个节点代表一个属性测试,每个分支代表测试的结果,每个叶节点代表一个类别或结果。
决策树的构建过程通常通过递归地选择最佳的属性测试,并将数据集划分为更小的子集。
构建完毕后,我们可以使用决策树来进行预测。
但是,单个决策树容易出现过拟合的问题,因此引入了随机森林算法。
1.2 随机森林随机森林通过构建多颗决策树来提高预测的准确性和稳定性。
它的主要思想是通过随机选择训练集的子集和随机选择属性的子集来构建决策树。
具体来说,随机森林的构建过程如下:1.从原始的训练集中随机选择n个样本,作为训练集的子集。
这样可以保证每个决策树的训练集都是不同的。
2.从所有的属性中随机选择m个属性,作为每个决策树的属性子集。
这样可以保证每个决策树的属性子集都是不同的。
3.构建决策树,具体的构建过程和单个决策树相同。
4.重复上述步骤,构建多颗决策树。
5.通过投票或平均的方式来预测结果。
通过随机选择训练集的子集和属性的子集,随机森林能够减少决策树之间的相关性,降低方差,从而提高模型的性能和泛化能力。
2. 随机森林的应用随机森林在许多领域都有广泛的应用。
下面列举一些主要的应用领域。
2.1 分类问题随机森林可以用于解决分类问题。
通过构建多颗决策树,并通过投票的方式来预测结果,可以提高分类的准确性。
例如,在医学领域,可以使用随机森林来预测疾病的发生和诊断结果。
在金融领域,可以使用随机森林来进行信用评估和欺诈检测。
2.2 回归问题随机森林也可以用于解决回归问题。
通过构建多颗决策树,并通过平均的方式来预测结果,可以提高回归的准确性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于实时性要求更高、数据流量不确定、对数据 准确度要求稍低的场景来说,流式计算具有明显优 势[8⁃9] 。 与大量的批量计算技术研究相比, 关 于 流 式计算的研究较少。 早期的流式计算研究是以数据 库环境中的流式数据计算为主。
种方法的优点。 在大数据环境下,随机森林方法还
有以下优点:
① 随机森林方法可以处理大数据量,能够应对
突发性数据;
② 随机森林方法生成较为简单的决策树,易于
解读;
③ 随机森林方法适用于分布式和并行环境,扩
展性好,适用于对分布式架构有很高要求的流式大
数据处理环境;
4) 决策树分类器非常简单,能以极高效率对新
随机森林是目前海量数据处理中应用最广的分 类器之一,在响应速度、数据处理能力上都有出色表 现[10,13] 。 随机森林是决策树 { h( x,θk ) ,k = 1,…} 的集合 H,其中 h(x,θk) 是元分类器,是用 CART 算 法生成的 1 棵没有剪枝的回归分类树;x 为输入向 量,{θk} 是独立而且同分布随机向量,决定每一棵
数据的易失性和无限性特点。
3) 由于数据的无序性,经典随机森林所产生的
分类器无法满足所有的输入数据,必须令分类器能
够随着新数据的输入不断更新,保持对数据的敏感
性和准确度。 因为数据的易失性,所以分类器的更
新就必 须 基 于 算 法 所 临 时 保 存 的 有 限 训 练 数 据
进行。
4) 分类器 更 新 方 法 必 须 是 可 伸 缩 的、 高 效 的,
4)无限性。 数据会持续不断产生并流入系统。 在实际的应用场景中,暂停服务来更新大数据分析 系统是不可 行 的, 系 统 要 能 够 持 久、 稳 定 地 运 行 下 去,并随时进行自我更新,以便适应分析需求。 1.2 应用场景介绍
互联网领域就是很好的流式大数据应用场景。 该领域在日常运营中会产生大量数据,包括系统自 动生成的用户、行为、日志等信息,也包括用户所实 时分享的各类数据。 互联网行业的数据量不仅巨 大,其中半结构化和非结构化所呈现的数据也更多。 由于互联网行业对系统响应时间的高要求,这些数 据往往需要实时的分析和计算,以便及时为用户提 供更理想的服务。
数据进行处理,适用于流式大数据环境下对响应速
度要求高的特点;
在流式大数据环境下,随机森林方法也存在一
些问题,其中最核心的问题,就是流式大数据环境中
数据具有实时性和易失性的特点,经典随机森林方
法难以适应。 以训练集数据为基础所生成的决策树
会过期,对新数据进行分类的准确度下降。
第6期
刘迎春,等:流式大数据下随机森林方法及应用
但随着互联网大数据需求的不断增长,满足实 时性、突发性、无限性分析要求的流式计算系统开始 出现,例如 Yahoo 在 2010 年推出的 S4 流式计算系 统[10] 、Twitter 在 2011 年推出的 Storm 流式系统、Fa⁃ cebook 的 DFP 系统[11] 等。 这 些 系 统 各 有 其 缺 点,
流式计算在互联网大数据中的典型应用场景 如下:
1)社交网站。 在社交网站中,要对用户信息进 行实时分析,一方面将用户所发布的信息推送出去, 另一方面也要为用户及时发现和推荐其感兴趣的内 容,及时发现和防止欺诈行为,增进用户使用体验。
2)搜索引擎。 搜素引擎除了向用户反馈搜索 结果以外,还要考虑和计算用户的搜索历史,发掘用 户感兴趣的内容和偏好,为用户推送推广信息。
群 H。
2) 为每一棵决策树 h,h ∈ H 建立 张记录表 Th ,记录随机森林在处理数据过程中生成的结果。
3) 一段时间后,对所有决策树的结果记录表进 行扫描,删除其中准确度最低的树。
通过准确度进行筛选后,森林中树的数量会越
来越少,实现决策树集的剪枝。 但数量的过分减少, 也会造成整个决策树集在准确度上的降低[11] 。
1 介 绍
1.1 流式计算介绍 流式大数据计算主要有以下特征: 1)实时性。 流式大数据不仅是实时产生的,也
是要求实时给出反馈结果。 系统要有快速响应能 力,在短时间内体现出数据的价值,超过有效时间后 数据的价值就会迅速降低。
2)突发性。 数据的流入速率和顺序并不确定, 甚至会有较大的差异。 这要求系统要有较高的吞吐 量,能快速处理大数据流量。
为了保持一定数量的决策树,在剪枝的同时,也
要对数据集进行跟踪,生成新的决策树来保持整个 森林的质量。 为了从数据集中筛选出对生成新的决 策树更有用的样本, 引入间隔(margin) 定义如下:
间隔指随机森林在 1 条给定样本数据( x, y) 上的整 体决策正确度,定义为:
margin(x,y) = avkI(hx(x) = y) - mj≠ayxavk I( hk( x) = j) 式中, avk( ) 是一个求均值函数,I( ) 是一个度量函 数。 如果在随机森林中大部分决策树对样本(x,y) 得 到 正 确 结 果, 则 margin(x,y) 大 于 零。 如 果 margin(x,y) 小于零或某一阈值, 则说明该样本被 大部分决策树识别失误,算法对该样本得出了错误 结论。 margin(x,y) 大于零的样本, 说明决策树集可 以得到正确结果。 与已有的决策树相似度高的树并
计算决策树 h 给出结果 xi 与最终结果之间的差值, 并取其标准差作为 h 的准确度:
σ=
∑ 1
N
N
(xi
i=1
-
μ) 2
Ah
=
1
- 1
σ
准确度衡量一棵树在一段时间内判定结果的准
确程度。 算法在执行过程中跟踪每棵树的准确度,
并定期对随机森林进行更新,淘汰其中准确度最低
的树: 1) 按 照 标 准 的 随 机 森 林 方 法 构 造 决 策 树
不能影响到分类器对数据的正常处理。
2.2 改进后的随机森林方法
首先定义随机森林中决策树 h 的准确度( accu⁃
rate) Ah:
Ah
=
nr n
式中, nr 是决策树 h 给出正确结果的次数,n 是决策
树 h 所处理过的所有数据数量。 准确度给出了在一 定时间内某棵树给出正确结果的比例。
在回归问题中,决策树 h 给出的分类结果如与 最终结果一致,则认为该决策树得出了正确结果。
y = D{h:x → ∑ahh(xi) | ah > 0,∑ah = 1}
h∈H
h
在随机森林中,单棵树的生长过程如下:
1) 针对原始训练集,使用 Bagging 方法在原始
样本集 S 中进行有放回的随机数据选取,形成有区
别的训练集 Tset 。 2)采用抽样的方式选取特征。 假设数据集一
共有 N 个特征,选择其中 M 个特征,M≤N。 每个抽
取出来的训练集,使用随机选取的 M 个特征来进行
节点分裂。
3) 所有生 成 的 决 策 树 自 由 生 长, 不 进 行 剪 枝。
每一棵决策树的输出结果之间可采用简单的多数投
票法( 针对分类问题) 或者结果平均法( 针对回归问
题) 组合成最终的输出结果。
随机森林方法是组合分类器算法的一种,是决
策树的组合。 它拥有 Bagging 和随机特征选择这 2
2015 年 12 月 第 33 卷第 6 期
西北工业大学学报 Journal of Northwestern Polytechnical University
Dec. 2015 Vol.33 No.6
流式大数据下随机森林方法及应用
刘迎春, 陈梅玲
( 北京航空航天大学 经济管理学院, 北京 100191)
3)电子商务。 电子商务侧重于大数据技术中 的用户偏好分析和关联分析,以便有针对性地向用 户推荐商品。 同时,随着大量电子商务开始内嵌互 联网消费金融服务,对用户的风险分析和预警也是 非常重要的。
可以预见,随着技术的不断发展、互联网与物联 网等领域的不断深入连接,未来要分析的数据量必 然还会爆炸性增长。 传统的批量计算方式并不适合 这类对响应时间要求很高的场景,能持续运行、快速 响应的流式计算方法,才能解决这一方面的需求。 1.3 随机森林方法介绍
·1057·
2 流式大数据环境下的算法改进
2.1 方法改进思路
以往对随机森林方法的改进主要集中在几个
方面:
将随机森林与 Hadoop、MapReduce 等计算框架
结合,实现分 布 式 随 机 森 林 方 法, 提 高 算 法 的 处 理
效率。
对数据进行预处理,降低数据集的不平衡性,以
此提升算法在非平衡性数据集上的准确度和分类
摘 要:流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。 随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易 失性、无序性等特征会使得算法准确度逐渐降低。 针对这个问题,分析了随机森林的算法特点,提出 了根据决策树的准确度进行随机森林剪枝的思路。 同时为了适应数据的变化,结合准确度间隔的概 念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数 据环境对算法的要求。 使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大 数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。
收稿日期:2015⁃04⁃24 作者简介:刘迎春(1980—) ,女,北京航空航天大学博士研究生,主要从事大数据、分布式系统研究。
·1056·
西 北 工 业 大 学 学 报