综合案例四基于上市公司股票信息及其衍生变量的金融数据分析
金融衍生品数据分析报告(3篇)

第1篇一、报告概述随着金融市场的不断发展,金融衍生品作为一种重要的风险管理工具,在金融市场中的地位日益重要。
本报告旨在通过对金融衍生品市场数据的分析,揭示金融衍生品市场的发展趋势、风险特征以及投资策略,为投资者和金融机构提供决策参考。
二、数据来源与处理1. 数据来源本报告所采用的数据主要来源于国内外知名金融数据服务平台,包括Wind、Bloomberg、万得资讯等,涵盖了全球主要金融衍生品市场,如外汇、利率、股票、商品等。
2. 数据处理(1)数据清洗:对原始数据进行清洗,剔除异常值和缺失值,确保数据质量。
(2)数据整合:将不同来源的数据进行整合,形成统一的金融衍生品市场数据集。
(3)数据标准化:对数据进行标准化处理,消除不同数据之间的量纲差异。
三、金融衍生品市场分析1. 市场规模近年来,全球金融衍生品市场规模持续扩大,据统计,截至2020年底,全球金融衍生品市场规模已超过600万亿美元。
其中,外汇、利率、股票和商品衍生品市场规模占比分别为37%、32%、21%和10%。
2. 市场趋势(1)市场多元化:金融衍生品市场逐渐从传统的外汇、利率和商品衍生品向股票、信用等多元化方向发展。
(2)市场集中度提高:部分大型金融机构在金融衍生品市场中的地位逐渐增强,市场集中度有所提高。
(3)技术创新:金融科技在金融衍生品市场的应用日益广泛,如区块链、人工智能等。
3. 风险特征(1)杠杆率较高:金融衍生品具有较高的杠杆率,投资者需注意风险控制。
(2)市场波动性较大:金融衍生品市场受多种因素影响,市场波动性较大。
(3)流动性风险:部分金融衍生品流动性较差,投资者需关注流动性风险。
四、金融衍生品投资策略分析1. 风险管理策略(1)套期保值:利用金融衍生品对冲市场风险,降低投资组合的波动性。
(2)组合投资:通过多元化投资,降低单一金融衍生品的风险。
2. 投资策略(1)趋势跟踪策略:根据市场趋势进行投资,如趋势跟踪策略、动量策略等。
实证金融学案例研究

实证金融学案例研究
实证金融学案例研究主要探讨实际金融市场中的数据和现象,并利用统计和计量经济学方法进行分析。
以下是一些实证金融学案例研究的例子:
1. 股票市场价格行为:研究股票市场的价格波动和交易量之间的关系,例如分析股票价格是否具有趋势性或周期性,或者研究不同行业、不同市场之间的联动效应。
2. 资产定价模型:研究不同资产(如股票、债券、商品等)的风险和回报之间的关系,利用资产定价模型来解释和预测资产价格。
3. 市场有效性研究:探讨市场是否有效,即市场是否能够充分反映所有相关信息。
如果市场是有效的,那么基于过去的信息无法预测未来的市场走势。
4. 投资策略研究:研究各种投资策略(如价值投资、成长投资、分散投资等)的绩效和风险,以及如何根据不同的投资目标和风险承受能力选择合适的投资策略。
5. 行为金融学研究:探讨人类行为和心理因素对金融市场的影响,例如过度自信、代表性启发等心理现象对投资者决策的影响。
6. 风险管理研究:研究如何有效地管理和降低金融风险,例如信用风险、市场风险、操作风险等。
7. 金融创新研究:探讨金融创新(如金融衍生品、对冲基金等)的风险和收益,以及如何利用金融创新来提高投资绩效和风险管理水平。
实证金融学案例研究需要收集大量的实际数据,并利用统计分析、计量经济学、机器学习等方法进行数据分析和模型构建。
同时,实证金融学案例研究还需要考虑数据的代表性和可靠性,以及模型的解释力和预测能力。
金融数据分析方法和应用案例

金融数据分析方法和应用案例随着金融行业的发展和数据技术的进步,金融数据分析在金融科技领域中得到了广泛应用。
金融数据分析是利用统计学、计算机科学和数学等方法对金融市场中的数据进行研究和分析的过程。
金融数据的种类非常多,包括证券交易信息、基金数据、股票市场价格等。
为了更好地分析这些数据,我们需要运用一些金融数据分析方法。
1. 时间序列分析时间序列分析是指对一连串时间序列数据进行分析的过程,同样也适用于金融数据的研究。
时间序列分析可以使我们更加全面地了解金融市场变化的趋势和周期,预测金融市场未来的发展走势。
以股票价格为例,我们可以利用ARIMA模型对其进行时间序列分析。
ARIMA模型是一种基于AR(自回归)、MA(移动平均)和差分(I)的时间序列分析方法。
通过ARIMA对股票价格进行分析,我们可以分析其趋势、季节性和残差等信息,为投资决策提供参考和指导。
2. 回归分析回归分析是一种用于研究变量之间关系的方法。
在金融领域中,回归分析最常见的应用场景是通过分析可变因素(如利率、通货膨胀率、GDP等)对股票市场价格的影响,以便投资者更好地制定投资策略。
例如,我们可以使用多元线性回归分析,来预测股票价格和宏观经济指标之间的关系。
同时,还可以利用回归分析来预测特定公司的股票价格,包括比较公司的估值、利润、市场份额等因素。
这些分析结果不仅可以帮助投资者做出更好的投资决策,还可以帮助公司制定更准确的业务决策。
3. 集群分析集群分析是一种将数据分成不同组别进行分析的方法。
在金融领域中,我们经常会面临众多股票、基金、证券等数据,集群分析则可以帮助我们对这些数据进行分类和整合。
例如,我们可以利用K-means算法对股票价格进行集群分析。
K-means算法是一种聚类算法,可以通过将相似的股票进行分组,提高不同股票价格之间的相似度,并识别不同的股票类型。
这种分析方法可以帮助我们更好地选择投资标的和开展股票监管等任务。
综上,金融数据分析是金融科技领域中不可或缺的重要工具之一。
金融业数据分析实战案例分享

金融业数据分析实战案例分享在当今数字化时代,数据已成为金融业的重要资源,越来越多的金融机构开始利用数据分析来帮助他们做出更明智的决策。
数据分析在金融业的应用非常广泛,它可以用来优化营销策略、风险管理、提高客户满意度,以及优化业务流程等。
在本文中,我们将分享一些来自金融业的数据分析案例,希望可以为想要研究金融数据分析的人们提供一些参考。
案例一:信用风险管理有一家金融机构的信用风险管理团队正在寻找一种更有效的方式来评估客户的信用风险。
他们使用机器学习算法来分析客户的信用历史、财务状况和其他相关数据,以预测客户是否有逾期倾向。
通过对过去的数据进行分析,该团队发现只关注客户的信用历史远远不够,还需要考虑其他因素,如欺诈风险、财务状况和行业前景等。
因此,他们通过使用机器学习算法,将客户相关信息输入到模型中,来获得更全面的预测。
实施这一新策略后,该团队发现预测准确性提高了很多,他们能够更好地识别哪些客户可能逾期,从而采取更及时有效的预防性措施。
案例二:投资组合优化另一个金融机构的投资组合管理团队正在研究如何优化他们的投资组合。
他们通过收集大量市场数据,包括股票、债券、商品和外汇等,来构建投资组合。
该团队使用现代投资理论和计算机算法来分析这些数据,以确定何时买入或卖出某种类型的资产,并确定哪些资产应该包含在投资组合中。
通过对历史数据的分析,该团队发现,通过优化投资组合,他们可以更好地降低风险和提高收益。
因此,他们开始应用这些模型来实时管理投资组合,并取得了显著的表现。
案例三:客户体验度量一家金融机构的管理层意识到,了解客户的体验度量是保持竞争优势的重要因素。
他们开始使用数据分析工具来确定哪些因素最影响客户满意度。
该金融机构收集了大量的客户数据,包括客户从事的业务、年龄、性别、家庭收入等信息。
他们还利用互动式调查和评估工具来收集客户的反馈信息。
通过对这些数据进行分析,他们发现客户满意度和他们在银行的体验感和感觉是密切相关的,因此该机构的管理团队开始寻找方法来提高客户在银行的体验感。
金融数据分析应用案例分享

金融数据分析应用案例分享近年来,金融数据分析越来越受到重视,特别是在投资领域中,数据分析可以为决策者提供更全面、更精准的信息,从而有效降低投资风险、提高收益。
下面将分享几个金融数据分析的应用案例,希望可以为您提供一些灵感和启示。
一、利用金融数据分析进行风险评估对于投资者而言,风险评估是非常重要的前提工作。
传统的风险评估方法通常是依靠指数、财务报告等数据进行分析,然而这些数据存在着一定的局限性,不能全面反应企业的风险水平。
因此,可以通过金融数据分析来进行风险评估。
例如,利用人工智能技术,对挂在港交所的企业进行现金流、经济利润、股权质量等多维度的分析,以此来评估企业的财务风险和信用风险。
此外,还可以利用大数据机器学习算法,在海量的数据中发现异常数据和规律,从而对企业的风险进行更准确的评估。
二、利用金融数据分析进行投资组合优化投资组合优化是投资决策中的一项重要工作,而金融数据分析可以在这方面提供有益的帮助。
在选择投资组合时,传统的方法通常是基于某些指标,例如收益率、风险、流动性等来进行权衡。
然而,这种方法忽略了各种指标之间的相互影响和相关性,从而可能导致组合中某些资产之间存在过高的相关性或者成分集中的问题。
因此,可以通过使用金融数据分析的技术,例如关联规则分析、聚类分析等,在大量的数据中发现资产之间的潜在相关性,以此进行投资组合的优化。
三、利用金融数据分析进行智能投顾在金融投资领域,智能投顾已经成为了一个热门的话题。
通过利用大数据、人工智能等技术,智能投顾可以为投资者提供更为便捷和精准的投资建议。
在智能投顾中,金融数据分析是至关重要的一部分,通过分析用户的投资经验、风险偏好、资产配置等信息,智能投顾可以为用户提供个性化的投资建议。
例如,在某家互联网金融公司的智能投顾产品中,可以通过分析用户的资产配置来推荐适合用户的产品,同时在对产品的推荐和风险评估上也会进行多维度的数据分析。
总之,金融数据分析在投资领域中有着重要的应用价值。
金融数据分析与建模的案例展示

金融数据分析与建模的案例展示金融数据分析和建模是金融行业中非常重要的方法。
通过对历史数据的分析,我们可以预测未来的趋势和模式。
这些分析和预测的结果可以帮助我们做出更好的决策,提高投资回报率,降低风险。
以下是一些金融数据分析和建模的案例展示,以说明这些方法的重要性和应用。
1. 股票价格预测股票价格预测是金融业中一个非常常见的应用。
通过对历史股票价格和相关数据的分析,我们可以预测股票未来的价格。
例如,我们可以分析某一股票的交易历史数据,包括开盘价、最高价、最低价和收盘价等。
我们还可以考虑股票市值、行业发展趋势、经济指标等因素。
通过对这些数据的建模和分析,我们能够预测该股票未来的价格走势,并制定相应的投资策略。
2. 信贷风险评估在金融行业中,信贷风险评估是一个非常重要的应用场景。
通过对客户的个人和财务数据的分析,我们可以评估客户的信用水平,进而判断其是否具有偿还贷款的能力。
例如,我们可以分析客户的信用历史、收入水平、家庭状况、债务负担等因素。
通过对这些数据的建模和分析,我们能够评估客户的信用等级,并制定相应的贷款策略。
3. 交易风险管理交易风险管理是金融行业中一个非常关键的应用。
通过对市场和交易数据的分析和建模,我们可以预测交易中可能遇到的风险和市场波动。
例如,在股票交易中,我们可以分析市场的流动性、交易量、持仓比例等因素,并制定相应的风险控制策略。
在外汇交易中,我们可以分析汇率的波动、经济指标的变化等因素,并制定相应的交易策略。
4. 经济趋势预测经济趋势预测是金融业中一个非常重要的应用。
通过对经济指标和市场数据的分析和建模,我们可以预测未来的经济走势。
例如,我们可以分析国内生产总值、失业率、通货膨胀率等指标,以及国际原油价格、美元指数等市场数据。
通过对这些数据的建模和分析,我们能够预测未来的经济走势,并帮助决策者对经济政策做出更好的决策。
总结金融数据分析和建模是金融行业中非常重要的方法和应用。
通过对历史数据的分析和建模,我们可以预测未来的趋势和模式,从而做出更好的决策。
关于上市公司财务分析报告案例

关于上市公司财务分析报告案例一、公司背景介绍上海达志科技有限公司是一家在上交所主板上市的高科技公司,主要从事集成电路及电子产品的研发、生产和销售。
公司成立于2024年,在短短几年时间里迅速发展壮大,成为行业内的领先企业之一二、财务指标分析1.资产负债表分析根据最新财务报表,截止到2024年12月31日,公司总资产达到10亿元,较上年同期增长了20%。
其中,流动资产为6亿元,固定资产为4亿元。
总负债为6亿元,主要包括短期负债和长期负债。
总股东权益为4亿元,占总资产的40%。
资产负债表显示了公司的整体资产结构稳定,负债相对较低。
2.利润表分析根据最新财务报表,公司2024年的营业收入为4亿元,同比增长了10%。
营业成本为3亿元,毛利润为1亿元,毛利率为25%。
净利润为5000万元,同比增长了15%。
净利润率为12.5%。
公司的利润表显示了持续增长的趋势,业绩表现不俗。
3.现金流量分析根据最新财务报表,公司2024年的经营活动现金流入为5000万元,经营活动现金流出为3000万元,净现金流入为2000万元。
投资活动现金流入为5000万元,主要用于购置固定资产和投资项目。
公司的现金流量表显示了稳定的运营和投资活动。
三、财务指标对比分析1.财务指标与行业平均值对比通过与同行业公司的财务指标对比,发现公司的营业收入和净利润增速高于行业平均水平,并且净利润率也高于行业平均水平。
这表明公司在市场竞争中具有较强的盈利能力和竞争优势。
2.财务指标与历史数据对比通过与公司历史数据的对比,发现公司的营业收入和净利润呈现稳定增长的趋势。
公司的资产负债表结构也相对稳定,负债和股东权益占比相对合理。
这表明公司在经营管理上积极稳健,具有良好的风险控制能力。
四、风险分析1.行业竞争压力在集成电路和电子产品行业,竞争压力较大。
新技术的不断涌现和市场需求的波动使竞争更加激烈。
公司需要持续进行技术创新和产品升级,以保持竞争力。
2.市场需求变化市场需求的不确定性是一个风险因素。
金融衍生工具投资风险分析案例

金融衍生工具投资风险分析案例在当今复杂多变的金融市场中,金融衍生工具作为一种重要的投资工具,既为投资者提供了丰富的投资机会,也带来了不容忽视的风险。
为了更深入地理解金融衍生工具投资的风险,让我们通过以下几个具体案例来进行分析。
案例一:某企业利用期货合约进行套期保值企业名称是一家大型的制造业企业,其主要原材料为铜。
由于铜价波动较大,为了降低原材料价格波动对企业成本的影响,该企业决定利用铜期货合约进行套期保值。
在初始阶段,企业的决策看起来是明智的。
他们根据未来一段时间的生产计划,在期货市场上卖出了相应数量的铜期货合约。
然而,市场的变化超出了他们的预期。
在套期保值期间,铜价不仅没有像他们预期的那样上涨,反而大幅下跌。
由于期货市场的保证金制度,企业不得不不断追加保证金,导致资金链紧张。
同时,由于企业在现货市场上采购原材料的价格下降,而在期货市场上却遭受了损失,套期保值的效果并没有达到预期,反而给企业带来了较大的财务压力。
这个案例表明,虽然套期保值的初衷是降低风险,但如果对市场走势判断失误,或者没有合理控制仓位和保证金,同样会面临巨大的风险。
案例二:个人投资者过度投资期权_____是一位热衷于投资的个人投资者,他在了解了期权的高杠杆特性后,决定大量投资期权。
起初,他通过购买期权获得了一些小的收益,这使得他对自己的投资策略充满信心。
于是,他不断加大投资额度,甚至动用了大部分的个人资产。
然而,市场突然发生逆转,期权的标的资产价格走势与他的预期完全相反。
由于期权的高杠杆性,他的损失迅速扩大,最终导致个人资产大幅缩水。
这个案例揭示了个人投资者在面对金融衍生工具时,容易被高收益所吸引,而忽视了其背后的高风险。
过度投资和缺乏风险控制意识,使得个人投资者在市场波动中遭受了巨大的损失。
案例三:金融机构对信用衍生工具的误判某知名金融机构在信用衍生工具市场上进行了大量投资。
他们认为通过对信用风险的评估和模型分析,能够有效地控制风险并获得丰厚的回报。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十四讲综合案例四:基于上市公司股票信息及其衍生变量的金融数据分析14.1 策略基本思路14.2 获得股票基本信息及衍生变量数据14.3 数据可视化呈现14.4 自动生成Excel报告本章主要研究基于成交量变化的量化策略,该策略通过量化的手段将传统的投资理念数字化验证,分析成交量变化对于股价的影响。
策略基本逻辑如下:成交量的大幅涨跌可能会带来价格的大幅涨跌。
这是一个经验策略,当某只股票的当日成交量出现大幅上涨的时候,说明有很多人在关注这只股票,该股票属于活跃股,那么出现价格的大幅涨跌的可能性则较大,从历史交易经验上来看也的确如此。
然而这个策略的可靠性却比较难以通过量化的手段来进行评判:1.股价行情数据中一般会提供成交量却很少提供成交量涨跌幅;2.在真正实战中,到底是关注前10分钟的成交量涨跌幅还是前30分钟、前1个小时的涨跌幅都有待考量;3.影响股价的因素很多,成交量涨跌幅到底与股价涨跌幅有多大的相关性也需要研究。
本章就以股票前10分钟的成交量涨跌幅为例,通过量化的手段来观察成交量变化对当日股价涨跌幅的影响,最终目的是在Excel中生成如下的可视化图表并进行相关性分析。
这里还是利用7.1小节所介绍的Tushare库来调用股价基本数据。
要检测上一小节所提到的策略,所需要获得基本信息数据有:开盘价、收盘价、股价涨跌幅、前10分钟成交信息,所需要的衍生变量有前10分钟成交量的涨跌幅。
14.2.1 获得股票基本信息数据所以除了基本的日线行情数据外,我们还需要利用到分笔数据,也即每一笔的交易数据来获得10分钟时候的相关信息,所需要用的Tushare基本代码如下:14.2.1 获得股票基本信息数据(1)获取10分钟成交量信息首先来以万科A(股票代码:000002)为例演示下获取其2019-04-12的交易分笔信息,并将获取到的DataFrame赋值给df变量,代码如下:14.2.1 获得股票基本信息数据(1)获取10分钟成交量信息首先来以万科A(股票代码:000002)为例演示下获取其2019-04-12的交易分笔信息,并将获取到的DataFrame赋值给df变量,运行结果如下:14.2.1 获得股票基本信息数据(1)获取10分钟成交量信息这里获取的是万科当天每一笔的交易信息,这里只需要前10分钟的交易信息,也即9:40时刻前(股票通常9:30开盘)的成交量信息,所以下面通过pandas的相关知识来提取前10分钟的相关股票数据,代码如下:第两行代码打印输出结果如下:14.2.1 获得股票基本信息数据(1)获取10分钟成交量信息最后一行通过DataFrame数据筛选获得前10分钟的数据。
这里可以通过df_10.tail()函数来获取表格后5行,运行结果如下图所示,其中成交量那一栏的列名为volume,单位为手。
14.2.1 获得股票基本信息数据(1)获取10分钟成交量信息获得了前10分钟的分笔数据后,就可以通过下面一行代码获取前10分钟的成交量信息了:将vol打印输出结果如下,其前10分钟成交量为56603手,注意股票成交量的单位是手,一手是100股。
14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息首先通过Tushare获得万科A从2019-02-01到2019-04-01的每日行情信息,代码如下:14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息运行结果如下图所示,其中open为开盘价、high为最高价、close为收盘价、low为最低价、volume为成交量、price_change为价格变化(今日收盘价-昨日收盘价)、p_change为价格涨跌幅(price_change/昨日收盘价)、ma5为5日均线价格、v_ma5为5日均线成交量。
14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息获得每日行情后,根据其日期索引获取各个日期的前10分钟交易数据,代码如下(1):14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息获得每日行情后,根据其日期索引获取各个日期的前10分钟交易数据,代码如下(2):14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息获得每日行情后,根据其日期索引获取各个日期的前10分钟交易数据,代码如下(3):14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息获得每日行情后,根据其日期索引获取各个日期的前10分钟交易数据,代码如下(4):14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息生成的stock_table如下图所示,这里的股价涨跌幅(%)为百分号内容,即4.39为4.39%的意思。
14.2.1 获得股票基本信息数据(2)获取多天的前10分钟成交信息及每日基本行情信息其中10分钟成交量这一列被默认为第一列了,如果想调整列的顺序,可以使用如下代码:此时的stock_table如下图所示:14.2.2 获得股票衍生变量数据本小节就来介绍一下成交量涨跌幅计算的两种计算公式,以及穿插着介绍下Tushare提供的股价涨跌幅数据以及5五日均线数据:ma5是如何计算出来的。
成交量涨跌幅的计算公式有两种,公式1计算方式如下所示,这里最后乘以100是为了以百分数的形式来展示涨跌幅。
公式2计算方式这是基于多日成交量的均值来计算,其公式如下:14.2.2 获得股票衍生变量数据这里将公式1和公式2的程序实现都讲解一下,以供比较和学习。
(1)通过公式1获得成交量涨跌幅,其代码如下:打印结果:14.2.2 获得股票衍生变量数据(1) 通过公式1获得成交量涨跌幅,其代码如下这里注意,因为是把10分钟成交量那一列往上偏移了一行,会导致最后一行的昨日10分钟成交量和成交量涨跌幅1(%)是缺失的,如下图所示:14.2.2 获得股票衍生变量数据(1) 通过公式1获得成交量涨跌幅,其代码如下有时在运行上面代码的时候,可能会弹出SettingWithCopyWarning的警告信息,警告不是报错,并不会影响程序的运行效果,所以如果不想看到该警告信息,可以在代码的最前面加上如下代码可以避免警告信息的出现。
14.2.2 获得股票衍生变量数据(1) 通过公式1获得成交量涨跌幅,其代码如下有时在运行上面代码的时候,可能会弹出SettingWithCopyWarning的警告信息,警告不是报错,并不会影响程序的运行效果,所以如果不想看到该警告信息,可以在代码的最前面加上如下代码可以避免警告信息的出现。
14.2.2 获得股票衍生变量数据(1)通过公式1获得成交量涨跌幅股价涨跌幅也是用同样方法获得的,只需要把10分钟成交量改成收盘价,昨日10分钟成交量改成昨日收盘价,然后用公式1计算即可,其效果和Tushare提供的股价涨跌幅是一样的,代码如下:14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅,其代码如下:14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅先通过sort.index()函数将日期从小到大排序,然后通过rolling(10).mean()可以获取10日均值数据,如果把“10”改为“5”则可以获取5日均值数据,运行之后stock_table如下图所示:14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅注意:如果直接用stock_table['10分钟成交量'].rolling(10).mean()来获取10日均值数据,而不通过sort.index()先排序,会导致最近10天的数据缺失,如下图所示:14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅因为Tushare导出来的数据是按从近往远时间顺序排序的,rolling(10).mean()是从下往上求均值的,而最近10天的数据量不足以支撑求10日平均,比如2019-04-01从下往上只有1个数据,没法求10日平均数据。
所以在求均值之前,需要先通过sort_index()函数将原来数据按照从远往近的时间顺序(升序排序)重新排序一下,然后再求均值。
此时最近10天的均值数据是有了,但最开始的10天的均值数据则会缺失,如下图所示:14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅这里设置的min_periods=1为最小的求平均的数据量,也就是说,如果数据量即使只有1个,也满足求平均的数据量,可以用这1个数据量来求平均,如果有2个数,则用2个数求平均,如果有满足rolling(10)的数据量了则可以按照10日求平均。
这样最开始的10天就有数据了,如下图所示,其中2019-02-01因为只有一天的数据,所以其均值就是其本身。
14.2.2 获得股票衍生变量数据(2)通过公式2获得成交量涨跌幅补充知识点:其实Tushare提供的5日均线价格数据:ma5也是通过类似的方式获得的,只要将10分钟成交量换成收盘价即可,代码如下:14.2.3 通过相关性分析选取合适的衍生变量这里就可以采用第七章所讲的相关性分析知识点来分析变量之间的相关性,从而选取合适的衍生变量。
首先回顾一下皮尔逊相关系数的基本用法,其代码如下:它就能返回两个数值:相关系数r值和显著水平P值。
相关系数r值在[-1,1]之间,为正数则表示正相关,负数则表示负相关,绝对值越大相关性越高。
P值是显著性,与皮尔逊相关显著性检验有关,P<0.05时表示相关显著。
14.2.3 通过相关性分析选取合适的衍生变量(1)成交量涨跌幅1(%)和股价涨跌幅相关性分析将上一小节生成的衍生变量:成交量涨跌幅1(%)先和股价涨跌幅做相关性分析,代码如下:14.2.3 通过相关性分析选取合适的衍生变量(1)成交量涨跌幅1(%)和股价涨跌幅相关性分析注意点:1、因为我们关心的是涨跌幅的绝对值,所以这里通过abs()函数取绝对值2、上一小节也提到过,成交量涨跌幅1(%)在2019-02-01这一天是没有数据的,所以得通过[:-1]的方式来选取除了表格最后一行的数据。
其中[:-1]就是表示从第一个元素选取到倒数第一个元素,因为切片左闭右开的特性,最后一个元素取不到,如果想从第一个元素取到倒数第十个元素,把-1改成-10即可,最后运行结果如下所示:14.2.3 通过相关性分析选取合适的衍生变量(2) 成交量涨跌幅2(%)和股价涨跌幅相关性分析成交量涨跌幅2(%)和股价涨跌幅做相关性分析,代码如下:14.2.3 通过相关性分析选取合适的衍生变量(2) 成交量涨跌幅2(%)和股价涨跌幅相关性分析因为上一小节通过rolling()函数取10日均值的时候,设置了min_periods=1,最后缺少的10行数据被自动补上了,所以这里不需要加[:-10]来切片筛选,运行结果如下:其P值为0.009,小于0.05,也就是说这两个变量的显著相关,相关系数r值为0.42,也大于成交量涨跌幅1(%)和股价涨跌幅的相关性,所以说通过如下所示的公式2产生的衍生变量非常有参考价值,在之后的使用中我们也主要采用该衍生变量。