多因子选股模型
量化选股的方法和步骤

量化选股的方法和步骤(原创版3篇)篇1 目录一、量化选股的定义和意义二、量化选股的方法1.多因子选股2.风格轮动选股3.营业利润同比增长率选股4.市盈率选股三、量化选股的步骤1.数据来源2.数据处理3.选择选股模型4.执行选股策略5.风险控制四、总结篇1正文量化选股是一种利用数量化的方法选择股票组合的投资策略,其目的是期望该股票组合能够获得超越基准收益率的投资行为。
在量化选股过程中,投资者需要根据不同的选股模型和步骤来进行操作。
首先,多因子选股是最经典的选股方法之一。
该方法采用一系列的因子(比如市盈率 pe)作为选股标准,满足这些因子的股票被买入,不满足的被卖出。
例如,价值投资者会买入低 pe 的股票,在 pe 回归时卖出股票。
其次,风格轮动选股是利用市场风格特征进行投资的方法。
市场在某个时刻偏好某种风格的股票,如小盘股、大盘股、成长股、价值股等。
风格轮动选股策略就是根据市场的偏好,选择相应风格的股票进行投资。
此外,营业利润同比增长率选股也是一种常用的量化选股方法。
对于不同的股票,如果营业利润率上涨了相同的比例,而股价上涨幅度不同,那么就买入上涨幅度较小的。
具体选股策略包括:对沪深 300 所有股票计算当前价格 p 与一年前的价格 p0 的比例,并用这个比例除以(1 营业利润同比增长率)。
筛选出营业利润同比增长率大于 0 的股票。
市盈率选股则是另一种常见的量化选股方法。
该方法根据股票的市盈率(pe)来选择投资标的。
市盈率较低的股票通常被认为具有较高的投资价值。
在实际操作中,量化选股的步骤包括数据来源、数据处理、选择选股模型、执行选股策略和风险控制。
数据来源可以是交易所、数据服务商等机构提供的场内交易数据集。
数据处理包括对原始数据进行清洗、整理和计算等操作,以便于后续的分析和建模。
选择选股模型是量化选股的核心环节,投资者需要根据自己的投资理念和风险偏好选择合适的模型。
执行选股策略是指根据选定的模型,通过程序化的方式实现交易。
基于ElasticNet分位数回归的多因子量化选股策略

基于ElasticNet分位数回归的多因子量化选股策略摘要:多因子量化选股策略是一种基于统计学方法,通过对多个因子进行加权分析,选取具备较高潜在收益的股票组合的投资策略。
本文提出了一种。
起首,通过对大量历史数据进行分析,筛选出一组具有较强猜测能力的因子。
然后,利用ElasticNet分位数回归模型进行因子加权,并依据得到的因子权重进行选股。
最后,通过对比实证探究和回测结果,验证该选股策略的有效性和稳定性。
1. 引言股票市场是一个充盈不确定性和风险的市场,对投资者提出了很大的挑战。
为了降低风险并得到超额收益,传统的基本面分析和技术分析已经不能满足投资者的需求。
多因子量化选股策略应运而生,通过利用大量历史数据和统计学方法,帮助投资者进行选股,提高投资效果。
2. 多因子选股策略的探究现状多因子选股策略的探究已经取得了一定的效果。
以过去表现最好的因子进行选股的动量策略和基于估值的策略是常见的多因子选股策略。
然而,这些策略往往会受到时期和市场波动的影响,收益不稳定。
因此,寻找一种有效稳定的多因子选股策略具有重要意义。
3. ElasticNet分位数回归模型ElasticNet是一种利用L1和L2正则化进行特征选择和稀疏化的回归模型。
通过引入L1正则化,ElasticNet能够得到一个具有稀疏解的模型,从而筛选出具有猜测能力的因子。
同时,通过引入L2正则化,ElasticNet可以降低模型的方差,提高模型的鲁棒性。
4. 策略实施步骤(1)数据筹办:收集股票市场的历史数据,并进行数据预处理和特征工程,筛选出一组具备较强猜测能力的因子。
(2)分位数回归模型:利用ElasticNet分位数回归模型进行因子加权。
依据历史数据对模型进行训练,得到各个因子的权重。
(3)选股策略实施:依据得到的因子权重,按照一定的比例选取股票进行投资组合的构建。
(4)风险控制:通过设置止损和止盈规则,对投资组合进行风险控制,降低投资风险。
使用GBDT-SVM多层次模型优化多因子 选股系统

IC =
∑ ( xi − x )( yi − y ) ∑ ( xi − x )
n i =1 2
n
= i 1= i 1
∑ ( yi − y )
n
2
(1)
IC 的取值在−1 与+1 之间,其绝对值越大,表明因子有效性越高,查阅相关文献得出,如果因子的 IC 绝对值大于 2%,则认为该因子有比较好的效果。 信息比率(IR)指因子在历史测试期间投资组合相对于基准指数的平均年化超额收益率与年化平均标
2. 选股模型因子库的建立
有效的因子是影响多因子模型效果的关键要素,为 GBDT-SVM 多层次选股模型选取适当的因子作 为原始数据是模型有效性的前提。本文综合分析了各类学术论文和券商研究报告的因子研究成果,使用 天软金融数据库和 Wind 金融数据库下载并计算百余个因子,并使用单因子测试的方法选出 43 个因子作 为模型初始因子库。 本文建立了相关评价指标来判断因子的有效性,包括因子信息系数 IC、因子信息比 IR、夏普比率和 股票组合年化超额收益率,这些指标从被选择股票的收益、波动性等来考察因子的有效性和持续性[7]。 单因子测试的具体流程见图 1。
DOI: 10.12677/sa.2019.81021 185
统计学与应用
孟庆晏
从目前的研究现状来看,机器学习方法在量化投资领域特别是多因子选股模型中取得了一定进展。 但是,已有的研究主要是使用算法对多因子的权重分配进行改进,将打分法和回归法得到的线性模型优 化为非线性模型,但是对于如何获得有效的因子和特征组合等方面的研究较少。随着常用因子的失效, 因子的选择和特征提取将直接关系到后续选股模型的分类精度和泛化能力。基于此,在国内外已有研究 的基础上,本文旨在完整地优化多因子选股过程,利用 GBDT + SVM 的两阶段综合模型对因子特征提取 和因子建模展开研究:首先利用 GBDT 对备选因子库的批量因子进行特征提取并得到新的特征组合;再 基于新的特征组合构建 SVM 股票分组模型。最后,利用 A 股市场日行情数据进行实证研究,并与经典 多因子模型、支持向量机(SVM)优化的多因子模型等常见模型进行对比分析。
30天内有2个涨停板的股票 选股公式

30天内有2个涨停板的股票选股公式一、引言随着股市的快速发展,投资者对于如何选择优质股票的需求也在不断增加。
而对于一些有经验的投资者来说,他们往往会通过一些特定的技术手段来筛选潜在的优质股票。
其中,30天内有2个涨停板的股票往往被视为市场上的“热点股”,得到了广泛的关注。
本文旨在探讨30天内有2个涨停板的股票的选股公式,以供投资者参考。
二、30天内有2个涨停板的股票的含义30天内有2个涨停板的股票,通常表示该股在短期内涨幅较大,市场的热度也比较高。
这类股票往往具有一定的投资价值,因为其走势活跃,市场认可度高,投资者流入也比较多。
选择这类股票作为投资标的,有利于投资者获取较高的收益。
三、30天内有2个涨停板的股票的选股公式1. 市场热度指标对于30天内有2个涨停板的股票的选股公式,首先需要考虑市场热度指标。
市场热度可以通过成交量来衡量,一般来说,成交量的增加代表了市场对该股的热情程度。
可以通过以下公式来筛选市场热度较高的股票:市场热度指标= ∑(成交量1+成交量2+...+成交量N) / N其中,N为选定的时间段,成交量1、成交量2...成交量N为对应时间段内的成交量。
2. 股价涨幅指标除了市场热度指标外,股价涨幅也是选股的关键指标。
在选择30天内有2个涨停板的股票时,需要关注该股票的涨幅情况。
一般来说,涨幅越大的股票表明其市场表现越好。
可以通过以下公式来筛选股价涨幅较大的股票:股价涨幅指标 = (收盘价N - 收盘价1) / 收盘价1其中,收盘价N为选定时间段的最新收盘价,收盘价1为选定时间段的最初收盘价。
3. 资金流向指标在选择股票时,还需要考虑资金流向情况。
一般来说,资金流入较多的股票往往具有较好的上涨潜力,因此可以通过以下公式来筛选资金流向较好的股票:资金流向指标= ∑(主力资金流入1+主力资金流入2+...+主力资金流入N) / N其中,N为选定的时间段,主力资金流入1、主力资金流入2...主力资金流入N为对应时间段内的主力资金流入情况。
基于多因子模型的量化投资研究

随着我国资本市场日趋成熟,人们的投资理念日趋科学和理性,投资方式也变得多元化,开始将国外引入的量化投资思想结合中国资本市场的具体情况,而不是依赖于情感和过去的感性经验[1]。
这种投资模式的变化使得我国量化投资研究得到迅速发展,逐渐增加的量化基金及其他定量金融产品在投资策略中越来越重要,因此在我国金融市场中,量化投资得到了越来越多的关注[2]。
信息不对称使得我国资本市场出现较多的市场失灵现象,往往造成市场非完全有效,与内在价值偏离(定价错误)的股票也较多,因此在这样的市场中,量化策略具有特有的纪律性、分散化持股、套利组合、系统性等优势,量化投资策略的应用前景广阔[3]。
多因子选股模型作为一种应用较为广泛的量化投资策略[4],基本原理是通过经济逻辑和市场经验,捕获模型信息并采用一系列的因子,如价值因子、质量因子、成长因子、动量因子等作为选股标准,选入满足标准的因子,并剔除冗余因子[5]。
根据中国的A股市场特性,本文试图基于多因子模型,从众多的候选因子中找出能够有效解释股票收益率且非冗余的因子,根据这些因子所占权重来构建量化投资组合,并验证其有效性,对该策略运行的风险程度进行度量。
建立一种基于多因素模型的股票量化选择策略,希望为投资者提供可行的量化投资参考。
1 文献回顾国外学者及机构投资者都将上市公司基本面作为研究客体,分别从公司的财务状况、盈利能力、长期偿债能力和现金流等方面研究相应指标对公司股票内在价值的影响[6~8]。
既往的研究成果揭示了诸多因素都会影响上市公司的账面价值[9,10],上市公司的内在价值及股票价格涨跌的内在原因不能通过单个因素精确地反映,往往由多个因素决定[11,12]。
结合因子投资的概念,Dichtl等(2021)设计了一个灵活的框架,为传统的多资产分配构建不同的因子完成策略[13]。
他们的因子完成概念包括一个固定在多资产、多元风险模型中的最大多样化参考组合,该模型包含市场因子,如股票、持续时间和商品,以及携带因子、价值、动量和质量等风格因子,给定因子完成策略的具体性质因投资者的偏好和限制而不同。
barra十因子

barra十因子Barra十因子是一种风险模型,由瑞士信贷的分析师安德烈亚斯·巴拉萨于1987年提出。
该模型主要从十个方面对股票进行打分,以衡量其风险水平,这十个因子包括:1.市值:公司市值越大,风险越低。
2.账面市值比:衡量公司资产负债状况,数值越低,风险越低。
3.盈利波动性:衡量公司盈利水平的波动程度,波动性越大,风险越高。
4.贝塔(Beta):衡量个股相对于整个市场波动性的指标,高贝塔意味着个股价格更容易受到市场整体波动的影响,低贝塔则表示其价格变动相对较小。
5.规模:Size指标反映了公司市值的大小。
研究表明,市值较小的公司往往具有更高的收益率和风险。
6.价值:Value因子衡量了个股的估值水平。
价值较低的股票通常具有较高的收益。
7.利率敏感性:衡量债券价格对利率变动的敏感度。
8.动量:衡量股票价格的趋势,过去表现良好的股票未来可能继续表现良好。
9.波动性:衡量股票价格的不确定性或风险。
10.资产周转率:衡量公司资产的管理效率和使用效率。
Barra风格因子模型是明晟公司(MSCI)旗下多因子模型产品,被金融机构广泛使用,主要应用于多因子选股分析和结构化风险因子分析。
模型共有十个风格因子,各因子代表的含义如上所述。
通过构建对应的模型,得到各个因子的收益率、方差、因子暴露、因子有效性及择时有效性,并由此进行分析。
如果将市场的风格理解为上述十种,那么十个风格因子的收益率和方差则代表了十种固定风格的收益率和方差。
Barra风格因子模型旨在利用上述的十种风格因子,对基金的收益及风险进行分析。
以上内容仅供参考,如需更具体准确的解释,建议咨询专业人士或查阅相关书籍文献。
因子分析数学模型

因子分析数学模型一、引言因子分析是一种强大的统计方法,用于从一组变量中提取出潜在的公共因子。
这种方法在许多领域都有广泛的应用,包括社会科学、心理学、经济学和生物学等。
它的主要目标是减少数据集的维度,同时保留原始数据中的重要信息。
这种方法有助于解释变量之间的关系,揭示隐藏在数据中的结构。
本文将详细介绍因子分析的数学模型及其实现过程。
二、因子分析数学模型1、公共因子模型因子分析的公共因子模型可以表示为:X = AF + ε其中,X是观测数据矩阵,A是因子载荷矩阵,F是公共因子矩阵,ε是特殊因子矩阵。
这个模型的意思是,观测数据X可以由公共因子F和特殊因子ε加权组合而成。
公共因子代表了所有观测变量之间的共性,而特殊因子则代表了每个观测变量的独特性。
2、因子载荷矩阵因子载荷矩阵A描述了每个观测变量与公共因子之间的关系。
矩阵中的每个元素aij表示第i个观测变量在第j个公共因子上的载荷。
通过求解因子载荷矩阵,我们可以找出公共因子对观测变量的影响程度。
3、旋转矩阵在因子分析中,旋转矩阵是一种重要的工具,用于优化公共因子的解释。
旋转矩阵可以使得公共因子的解释更加直观和有意义。
常见的旋转方法包括方差最大旋转(varimax)和正交旋转(quartimax)等。
三、实现过程1、确定公共因子的数量在开始因子分析之前,我们需要确定公共因子的数量。
常见的确定公共因子数量的方法有基于特征值的方法、基于解释方差的方法以及基于碎石图的方法等。
2、求解因子载荷矩阵在确定了公共因子的数量后,我们需要求解因子载荷矩阵。
常用的求解方法有基于主成分分析的方法、基于最大似然估计的方法以及基于最小二乘法的方法等。
3、旋转因子载荷矩阵通过旋转因子载荷矩阵,我们可以优化公共因子的解释。
常见的旋转方法包括方差最大旋转和正交旋转等。
旋转后的因子载荷矩阵可以帮助我们更好地理解公共因子与观测变量之间的关系。
4、解释公共因子我们需要对提取的公共因子进行解释。
两个因子交替影响的模型

两个因子交替影响的模型资产(股票、债券、黄金、石油等)价格收到许多方面的影响,进而产生波动。
波动中也形成趋势。
目前量化主流的模型便是多因子模型。
1955年,马科维兹提出了著名的资本资产定价模型。
资本资产定价模型总结出了证券投资者所获得的收益分为两部分:来自市场的平均收益以及独立于市场的独特的超额收益。
随着数学方法引入金融分析,股票的收益被大师们分解的越来越细。
1993年,Fama和French,提出了著名的三因子模型。
进一步细分了超过市场收益的决定因素。
多因子模型前身诞生。
模型认为,一个投资组合(包括单个股票)的超额回报率可由它对三个因子的暴露来解释,这三个因子是:市场资产组合(Rm−Rf)、市值因子(SMB)、账面市值比因子(HML)。
这个多因子均衡定价模型可以表示为:市场因子、市值因子和账面市值比因子这三个因子还是不能够完全解释资产的超常收益,Fama和French继续加入因子,2010年提出五因子模型,在三因子模型的基础上加入盈利因子RMW和投资因子CMA。
盈利因子RMW:盈利好和盈利差的多元化股票组合收益之间的差异。
其中盈利定义为年营业收入减去营业成本、利息费用、销售费用和管理费用后再除以上财年末的账面权益。
投资因子CMA:投资高和投资低的多元化股票组合收益之间的差异。
其中投资定义为本财年的新增总资产除以上财年末的总资产。
五因子模型比较有争议,不如三因子模型经典,因为新加入的两个模型相比比较粗糙,随着量化的发展,影响股票收益的因子被分解的越来越细。
另外还有barra因子体系,主要是用来收益的归因。
多因子基本框架1、建立因子数据库2、数据处理与清洗3、单因子有效性检验4、因子筛选5、多因子组合权重设置及优化我们结合python,一步步的看下具体怎么做第一,因子数据库的建立因子的选取是构建多因子分析框架的基石,以下是本人常用的因子:宏观因子:比如GDP、CPI、利率等基本面因子:估值因子、规模因子、成长因子、质量因子和杠杆因子等行情类因子:动量因子、波动率因子、流动性因子等技术面因子:成交量、换手率、涨跌比等资金面因子:北上资金、融资融券、新成立基金海外因子:美元汇率、美股预期、全球流动性等预期因子:分析师一致预期、市场情绪预期、新增开户预期、抱团预期等第二,数据处理与清洗数据处理的目的主要是为了避免数据错误、异常、缺失、量纲不一致等现象对测试结果产生不利影响,通过数据预处理得到的数据能使建模结果更稳定和更可靠,行业中性化和市值中性化主要是为了减少股市市值效应和行业效应对因子有效性的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多因子选股模型
———————————————————————————————— 作者:
———————————————————————————————— 日期:
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的
因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。
基本概念
举一个简单的例子:如果有一批人参加马拉松,想要知道哪些人会跑
到平均成绩之上,那只需在跑前做一个身体测试即可。那些健康指标
靠前的运动员,获得超越平均成绩的可能性较大。多因子模型的原理
与此类似,我们只要找到那些对企业的收益率最相关的因子即可。
各种多因子模型核心的区别第一是在因子的选取上,第二是在如何用
多因子综合得到一个最终的判断。
一般而言,多因子选股模型有两种判断方法,一是打分法,二是回归
法。
打分法就是根据各个因子的大小对股票进行打分,然后按照一定的权
重加权得到一个总分,根据总分再对股票进行筛选。回归法就是用过
去的股票的收益率对多因子进行回归,得到一个回归方程,然后再把
最新的因子值代入回归方程得到一个对未来股票收益的预判,然后再
以此为依据进行选股。
多因子选股模型的建立过程主要分为候选因子的选取、选股因子有效
性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评
价及持续改进等5个步 骤。
候选因子的选取
候选因子的选择主要依赖于经济逻辑和市场经验,但选择更多和更有
效的因子无疑是增强模型信息捕获能力,提高收益的关键因素之一。
例如:在2011年1月1日,选取流通市值最大的50支股票,构建投
资组合,持有到2011年底,则该组合可以获得10%的超额收益率。
这就说明了在2011年这段时间,流通市值与最终的收益率之间存在正
相关关系。
从这个例子可以看出这个最简单的多因子模型说明了某个因子与未
来一段时间收益率之间的关系。同样的,可以选择其他的因子,例如
可能是一些基本面指标,如 PB、PE、EPS 增长率等,也可能是一些
技术面指标,如动量、换手率、波动等,或者是其它指标,如预期收
益增长、分析师一致预期变化、宏观经济变量等。
同样的持有时间段,也是一个重要的参数指标,到底是持有一个月,
还是两个月,或者一年,对最终的收益率影响很大。
选股因子有效性的检验
一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如:
可以每月检验,具体而言,对于任意一个候选因子,在模型形成期的
第一个月初开始计算市场中每只正常交易股票的该因子的大小, 按
从小到大的顺序对样本股票进行排序,并平均分为n个组合,一直持
有到月末,在下月初再按同样的方法重新构建n个组合并持有到月
末,每月如此,一直重复到模型形成期末。
上面的例子就已经说明了这种检验的方法,同样的可以隔N个月检验,
比如2个月,3个月,甚至更长时间。还有一个参数是候选组合的数量,
是50支,还是100支,都是非常重要的参数。具体的参数最优的选择,
需要用历史数据进行检验。
有效但冗余因子的剔除
不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的
组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因
子需要作为冗余因子剔除, 而只保留同类因子中收益最好,区分度最
高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相
关性。流通盘越大的,成交量一般也会比较大,因此在选股模型中,
这两个因子只选择其中一个。
冗余因子剔除的方法:假设需要选出k 个有效因子,样本期共m 月,那
么具体的冗余因子剔除步骤为:
(1)先对不同因子下的n个组合进行打分,分值与该组合在整个模
型形成期的收益相关,收益越大,分值越高
(2)按月计算个股的不同因子得分间的相关性矩阵;
(3)在计算完每月因子得分相关性矩阵后,计算整个样本期内相关性
矩阵的平均值
(4)设定一个得分相关性阀值 MinScoreCorr,将得分相关性平
均值矩阵中大于该阀值的元素所对应的因子只保留与其他因子相关
性较小、有效性更强的因子,而其它因子则作为冗余因子剔除。
综合评分模型的建立和选股
综合评分模型选取去除冗余后的有效因子,在模型运行期的某个时间
开始,例如每个月初,对市场中正常交易的个股计算每个因子的最新
得分并按照一定的权重求得所有因子的平均分。最后,根据模型所得
出的综合平均分对股票进行排序,然后根据需要选择排名靠前的股
票。例如,选取得分最高的前20%股票,或者选取得分最高的 5
0 到 100只股票等等。
举个例子:可以构建一个多因子模型为(PE,PB,ROE),在月初的时
候,对这个几个因子进行打分,然后得分最高的50个股票作为投资
组合,在下个月按照同样的方法进行轮换替换。持续一段时间后,考
场该投资组合的收益率是否跑赢比较基准,这就是综合评分模型的建
立和后验过程。
当然这个例子是一个最简单的例子,实战中的模型可能会比较复杂,
比如沃尔评分法就是一个复杂的多因子模型,它是对股票进行分行业
比较,算个每个行业的得分高的组合,然后再组合成投资篮子。
模型的评价及持续改进
一方面,由于量选股的方法是建立在市场无效或弱有效的前提之下,
随着使用多因子选股模型的投资者数量的不断增加,有的因子会逐渐
失效,而另一些新的因素可能被验证有效而加入到模型当中;另一方
面,一些因子可能在过去的市场环境下比较有效,而随着市场风格的
改变,这些因子可能短期内失效,而另外一些以前无效的因子会在当前
市场环境下表现较好。
另外,计算综合评分的过程中,各因子得分的权重设计、交易成本考虑
和风险控制等都存在进一步改进的空间。因此在综合评分选股模型的
使用过程中会对选用的因子、模型本身做持续的再评价和不断的改进
以适应变化的市场环境。
多因子的模型最重要是两个方面:一个是有效因子,另外一个是因子
的参数。例如到底是PE有效还是ROE有效;到底是采用1个月做调
仓周期还是3个月做调仓周期。这些因子和参数的获取只能通过历史
数据回测来获得。但是在回测过程中,要注意,不能过度优化,否则结
果可能反而会不好。