常见量化投资数据源

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据供应商
• 1.基本面数据 • 2.历史高频数据 • 3.实时数据
数据源 • CSMAR • Wind • ....
• 客户端提取数据 • API提取数据
用户
5

1
基本面数据源

2
历史高频数据源 实时数据源
3
4
数据提取方法
5
数据提供商
6
1 基本面数据源
1 基本面数据源
基本面数据包括宏观、行业、公司、股票、基金等9大类数据。

基本行 情 扩展行 情 基本行 情 扩展行 情 十档行 情
Level2数据
委托队 列
逐笔成 交信息
委托买 卖信息
分笔分 时成交
大盘总 买与大 盘总卖
23
4 数据提取方法
4 数据提取方法
主流的数据提取方法主要分为终端提取方法和API提取方法两种 终端提取方法 • 终端包括有网页终端和软件终端,其提取方法是利用终端界面上的行业 分类和字段筛选等提取相关数据,并最终导出为Excel、DBF或TXT等格
预测因子。
基本面因子
• 包括有公司财务方面的数据,如规模因子、估值因子、成长 因子、盈利因子和偿债能力因子。 • 包括上市公司的一些交易指标,如1月动量因子、EMA、换 手率和资金流量等,由于本节主要介绍上市公司财务数据, 因此不详细介绍技术因子方面的数据。
技术因子
行为因子 分析师预测因子
• 需要研究消化公司的及时信息并将其转化为量化投资的信号
油、黄金、螺纹钢、 低密度聚乙烯、棕
金、ETF和权证等
21
3.2 交易及行情数据技术
交易及行情数据处理技术有三种协议:Fix协议、STEP协议、FAST协议。
Fix协议
1993年建立的金融信息交换协议(Fix,Finaneial Information exchange) 实现了证券市场参与主体间信息实 时交换,适用于实时证券金融电子交易开发的数据通信标准。 以show2003技术为代表,通过dbf文件实现交换,每6秒发 布一次快照,包括5档价格。
债券基本数据 债券回购日交易信息 债券现期收益率
企业债公司债主要财务 指标
标准券折算比例
债券派息信息
14
1.7 期货数据
期货的投资策略可分为: 股指期货数据 商品期货数据
商品期货品种 基本信息
国债期货
国债期货品种 基本信息
1)单一品种策略
2)混合品种策略
◇单一品种策略:趋势跟踪、
动态反转和跨期套利等 ◇跨市场策略:商品期货与 现货之间的基差套利等 ◇跨品种策略:似品种特征 的商品期货合约配对。
股指/国债期 货基本信息数 据 股指/国债期 货交易数据 股指/国债期 货交易量及仓 位状况
商品期货交易 数据
国债期货交易 数据
商品期货交易 量及仓位状况
国债期货交易 量及仓位状况
现货价格信息
国债价格信息
15
1.8 指数数据
指数数据反映其编制对象的总体情况。如:沪深300反应沪深市场 的市场行情;农林牧渔行业指数反应农林牧渔行业的总体试产行情。 ◇被动型基金利用成分股按权重复制指数以获得市场平均收益率;
8
1.1 宏观数据
宏观数据体现了一个国家经济发展的现状。任何策略只要资产存在
风险暴露,则必然要考虑金融市场行情和宏观因素的影响。
宏观数据
经 济 指 标 国 内 生 产 工 业 行 业 商 品 消 费 电 力 工 业 就 业 基 本 固 定 资 产 居 民 消 费

价 指

气 指

加 值

加 值

销 售
行业概 况
行业进 出口
行业数 据
行业经 济指标
风格轮动效应,不同市场发展阶段往往 呈现个别行业发展的相对优势。
行业产
品产量
10
1.3 公司数据
上市公司策略研究大多集中于从公司的财务指标或因子进行研究分析。 如:多因子选股策略需要财务数据源。 公司行情数据一般可分为基本面因子、技术因子、事件因子及分析师
28
衍生数据源
量化因子仓库 风控因子数据 库
衍生物 因子 事件因 子 复合因 子 行业因 子 风格因 子
宏观因 子
行业因 子
基本面 因子
技术因 子
行为因 子
高频因 子
17
2 历史高频数据源
2 历史高频数据源
历史高频数据即指日内的数据,主要针对以小时、分钟或秒为采 集频率的数据,常见历史高频数据字段如下图所示:
交易品种包括在深 上市流通的股票 (A股和B股)、 债券(国债和企业 债券)、封闭式基
交易品种有铜、铝、 交易品种有大豆、 锌、天然橡胶、燃 线材等10种期货 合约 豆粕、豆油、线型 榈油、玉米以及聚 氯乙烯等
交易品种有硬麦、 强麦、棉花、白糖、 精对苯二甲酸、菜 籽油、早籼稻
交易品种有沪深 300股指期货、国 债期货
◇积极性基金在成分股组成的股票池进行资产配置,以获得超过市场平均
水平的收益。
指数数据源
指数基本信息
股票指数样本股基本信息
指数成份股权重数据
16
1.9 衍生数据
衍生数据可以提高金融市场投资者策略构建能力、策略绩效评估及 风险控制水平,能够反映和预测盈利能力。 量化投资研究常用的衍生数据库包括:
1)量化因子仓库 2)风控因子数据库
的,所以对于量化投资者来说,选择一个可靠的数据提供商是进行可靠的量
化投资分析的有力保障。 在国外,以彭博资讯、汤姆森金融公司、路透社这“三大”为首的数据提
供商都享誉全球。
而目前在国内,国泰安信息技术有限公司以CSMAR系列中国金融经济数 据库、国泰安市场通全球金融信息分析系统与量化投资研究及投资平台等优 秀产品为国内乃至全球的量化投资者提供着优秀的服务;Wind资讯是中国 大陆领先的金融数据、信息和软件服务企业,其数据服务内容囊括新闻、基 金、宏观行业、股票以及理财产品五大模块;创建巨潮数据库的深圳证券信 息有限公司则是深交所和中国证券业协会指定的信息披露单位,多年来致力 于中国证券信息数据库系统的研究、建设、维护与产品开发。

零 售














牛市偏向成长类股票 熊市偏向于资产保值类股票
9
1.2 行业数据
行业数据代表中观市场情况
牛市行情时选用强劲的周期性行业,代 表:有色金属、钢铁、化工等 熊市行情时选用风险防御能力较强的非 周期性行业,代表:医药行业、公用事 业行业等。 主题类投资策略和事件驱动类投资策略, 如战争时期人们会偏向相关行业如军工 股、造船和机械等,科技繁荣时会偏向 互联网、电子等。
式文件。
• 我国提供终端的主流金融数据库主要有:CSMAR数据库、Wind数据库、 恒生聚源数据库、锐思数据库、中国统计局数据库、巨潮数据库和巨灵 数据库等。 API提取方法
• API提取方法主要是利用matlab、C++、.Net、COM和Excel等软件连接
数据库服务器,并通过相关函数字段提取数据库数据。 • 我国提供API接口的数据库主要有:国泰安数据库、wind数据库和巨灵数 据库
《量化投资分析》
常见量化投资数据源
国泰安信息技术有限公司 研究创新中心
量化投资的模块构建
公司盈利 模式设计
资金来源 -营销和融资
模型来源 -技术团队管理
金融信息概述
什么是金融信息? 金融信息是影响金融投资行为和金融市场发展的信息。 具有可度量、可处理、可存储性质; 具有海量、有效性、传染性、对资产价格产生影响等特点。
股票数据源
个股交易停复牌数据 个股回报率 日大宗交易数据
异常波动信息
复权信息
市场行情
12
1.5 基金数据
基金有广义和狭义之分,人们平常所说的基金主要是指证券投资基金。 基金一般可反映金融市场环境情况,如市场从业人员口中的“基金88 魔咒”是指公募基金整体仓位达到百分之88的高位时,往往大盘就会见顶回 落。
基金数据源
基金基本数据 回报率 基金净值数据 资产配置 除权息数据 基金财务指标 基金数据评价
13
1.6 债券数据
债券作为一种相对风险较低的品种,适合于风险规避行的投资者。 策略方法:采用债券品种进行套利,如不同到期债券之间的套利,同 一公司债券股票之间的套利,可转债与股票之间的套利。
债券数据源
基本数据源
宏观 数据 行业 数据 公司 数据 股票 数据 基金 数据 债券 数据 期货 数据 指数 数据 衍生 数据
基本面数据主要用于择时、选股等策略构建
择时策略包括趋势追踪策略、反转策略和市场情绪等 选股策略包括多因子策略、风格轮动策略、行业轮动策略等 配置策略包括套期保值策略和期现套利策略等
接口单一、扩展困难的不足,冗余度高,带宽需求大,发布 Level1行情 STEP协议 我国证券交易所于2006年7月基于FIX协议建立的新一代“
证券交易数据交换协议”,该协议不仅将目前证券市场上 使用的操作指令和通知用标准的格式描述出来,而且完全 与国际流行的FIX兼容“,发布level2行情,速度提升3-6秒 以上
历史高频数据源 股票品种
分笔高频数据 分时高频数据 股指期货
期货品种
商品期货
分笔高频数据
分时高频数据
分笔高频数据
分时高频数据
19
3 实时数据源
3.1 证券交易所
交易所
证券交易所 期货交易所
上海证券交
易所
深圳证券交
易所
香港联合交
易所
上海期货交
易所
大连商品交
易所
郑州商品交
易所
中国金融期
货交易所
交易品种包括在沪 上市流通的股票 (A股和B股)、 债券(国债和企业 债券)、封闭式基 金、ETF和权证等
2
金融信息的重要性
量化投资成功三要素“质量、经验、运气”,量化投 资对于数据的高质量要求首当其冲。
数据决定了量化投资各个环节——市场、标的、策略、 语言…… 量化投资三部曲——数据准备( 50% ),策略编写 (30%),策略调优(20%)
3
金融信息分类
金融信息
• 数字形式
按形式分类
文本形式
金融信息
• 政府机构
按来源分类
公司公告 机构和媒体信息
金融信息
• 宏观经济信息 • 技术面信息 • 金融衍生信息
按内容分类
行业信息 行为偏差信息 公司信息 高频数据信息
4
常见量化投资数据源
在金融量化投资领域,数据是人们研究金融现象的纽带和通道。策略 开发人员往往先应用历史数据对策略进行历史回验,策略调整至有效后 进行实盘交易。
FAST协议 克服了FIX协议传输市场数据冗余度高、带宽需求大的问题,
采用二进制数据流交换方式,将STEP协议的28ms行情延迟 提高到20ms行情延迟,此外,通过对比测试结果显示, FAST版本的带宽占用率平均为STEP版本的24.2%,发布
level2行情
22
3.3 实时数据源 实时数据源
Level1数
25
来自百度文库
5 数据提供商
5 数据提供商
国内数据 国泰安 万得 巨潮
提供商
恒生
锐思 巨灵 国外数据 提供商 Bloomberg Thomson Financial One Banker Reuters CEIC Capital IQ
IBES
27
小结
目前来说,无论是基本面数据还是高频数据,依赖个人来收集是不现实
• 表征为市场情绪指标,情绪具有催化剂的作用,对于股市尤 其如此
11
1.4 股票数据
股票是量化投资最常用品种。股票投资策略一般包括:风格轮动
策略、行业轮动策略、资金流策略、动量反转策略和趋势跟踪策略等。
◇风格轮动策略:根据市场/个股的发展阶段以及呈现出的风格特征进行选股买卖;
◇行业轮动:根据不同市场周期特征选择行业进行投资; ◇资金流策略:根据市场的资金流向进行选股配置; ◇动量反转趋势跟踪策略:根据股价的回复或趋势特征进行套利。
相关文档
最新文档