3.数据建模中分类与预测模型---张龙

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据建模中分类与预测模型成文日期：2018/8/27 摘要：随着计算机技术的兴起，当前社会已经进入大数据信息时代。资本市场随着投资者的不断涌入以及金融科技的不断发展，交易时所涉及到的信息也逐渐繁杂。如果还是利用过往的分析模式，个人的力量就显得愈加薄弱。因此，利用量化平台对多元化的数据进行提取，按照自身的分析模式搭建合理化的分析框架，自动化的得到针对基本面、技术面的分析结果的分析方法也开始逐渐火热起来，这个结果根据需求既可以是定量的，也可以是定性的，目前这种量化建模的方式也已经在众多私募、券商等中应用已久，但是对于大多数个体投资者而言，还是一个十分陌生的领域。因此，本文基于上期数据预处理部分之后，介绍如何在清洗过后的数据基础之上建立分类与预测模型，为此种模型的构建方法进行简单介绍，辅助投资者对自身分析逻辑中的分析框架进行量化分析，方便其多元化的交易分析。

一、分类与预测的介绍

数据建模中分类与预测模型主要是寻求合适的分类模型并在此基础之上进行未来徽商期货研究所

程序化部

张龙量化分析师

从业资格号：F3047985

邮箱:840671808@

预测。分类主要是预测分类标号（离散属性），通俗点而言就像在基本面分析中判定哪些是未来影响价格的因素，比如产量、季节因素、下游产品价格等，这些因素除了其自身属性的不同外还应该具备在同级影响因素中具备较低的相关性，也就是最终分类的因素都会对价格进行影响，但是彼此之间的影响相对较小。而预测主要就是建立连续值函数模型，预测给定自变量对应的因变量的值。

二、分析与预测模型的实现过程

1.分类

分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到先定义好的类别。

分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便地计算，所以分类属于有监督的学习。

2.预测

预测是指建立两种或两种以上变量间相互依赖的函数模型，然后进行预测或控制。

3.实现过程

分类算法有两步过程：第一步是学习步，通过归纳分析训练样本集来建立分类模型得到分类规则；第二步是分类步，先用已知的测试样本集评估分类规则的准确率，如果准确率是可以接受的，则使用该模型对未知类标号的待测样本集进行预测。

预测模型的实现也有两步，第一步是通过训练集建立预测属性（数值型的）的函数模型，第二步在模型通过检验后进行预测或控制。

三、常用的分类与预测算法

常见的分类与预测算法如表1所示。由于对于新入学者而言，掌握人工神经网络、

贝叶斯网络、支持向量机三种模型所要求的数理统计算法难度较高，牵扯到的数理知

识也较为复杂，因此本文后面在介绍分类模型时主要介绍回归分析与决策树。

表1：主要分类与预测算法简介

数据来源：徽商期货研究所

四、回归分析

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具，在工商管理、经济、社会、医学和生物学等领域应用十分

广泛。从19世纪初高斯提出最小二乘估计起，回归分析的历史已有200多年。从经

典的回归分析方法到近代的回归分析方法，按照研究方法划分，回归分析研究的范围

大致如表2所示。

表2：回归分析研究的进展

数据来源：徽商期货研究所

在数据挖掘环境下，自变量与因变量具有相关关系，自变量的值是已知的，因变量是要预测的。

线性回归模型是相对简单的回归模型，但是通常因变量和自变量之间呈现某种曲线关系，就需要建立非线性回归模型。

Logistic 回归属于概率型非线性回归，分为二分类和多分类的回归模型。对于二分类的Logistic 回归，因变量y 只有“是”、“否”两个取值，记为1和0。假设在自变量x 1，x 2，…，x n 作用下，y 取“是”的概率是p ，则取“否”的概率是1-p ，研究的是当y 取“是”发生的概率p 与自变量x 1，x 2，…，x n 的关系。

当自变量之间出现多重非线性时，用最小二乘估计的回归系数将会不准确，消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。

五、决策树

决策树方法在分类、预测、规则提取等领域有着广泛应用。20世纪70年代后期

和80年代初期，机器学习研究者J.Ross Quinlan提出了ID3算法以后，决策树在机

器学习、数据挖掘领域得到极大的发展。Quinlan后来又提出了C4.5，成为新的监督

学习算法。1984年，记为统计学家提出了CART分类算法。ID3和CART算法几乎

同时被提出，但都是采用类似的方法从训练样本中学习决策树。

决策树是一种线性结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非

纯的叶节点，多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问

题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的

训练样本中学习并构造出决策树是一个自上而下，分而治之的过程。

常用的决策树算法见表3.

表3：决策树算法分类

数据来源：徽商期货研究所

六、分类与预测算法评价

分类与预测模型对训练集进行预测而得到的准确率并不能很好地反映预测模型未来的性能，为了有效判断一个预测模型的性能表现，需要一组没有参与预测模型建立

的数据集，并在该数据集上评价预测模型的准确率，这组独立的数据集叫做测试集。

模型预测效果评价，通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差、Kappa统计等指标来衡量。

【徽商期货有限责任公司月度分析报告由徽商期货研究所组织撰写，供业务人员及在徽商期货进行期货交易的投资者参考。尽管本刊所载信息我们认为是由可靠来源取得或编制，徽商期货并不保证本刊所载信息或数据的准确性、有效性或完整性。本刊所载资料不应视为阁下对任何期货商品交易的直接依据。在选择期货投资以及对期货商品做出交易决策之前，建议向徽商期货专业人士咨询。未经徽商期货授权，任何人不得以任何形式将本刊内容全部或部分发布、复制。】

出师表

两汉：诸葛亮