新闻驱动的量化投资(全文) - 程序化交易者

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新闻驱动的量化投资

阎泓 博士

作者简介:理论物理学博士,美籍,曾在多家华尔街金融公司任对冲基金经理、资深量化分析师、算法交易系统架构师、高频交易系统设计师等职。联系信箱:wallst82@

内容提要

本文介绍了利用新闻软信息进行量化处理并进行统计套利的量化投资策略。

Abstract

This article introduces a quantitative trading strategy based on quantified soft information in stock market news.

关键词:量化投资,程式化投资,算法投资,新闻驱动,新闻情绪,软信息

Keywords: quantitative investment, program trading, algorithmic trading, news driven, news sentiment, soft information

量化策略基本上可以分成两种,即alpha策略和beta策略。无论是哪一种策略,都需要下面的步骤:收集数据,产生初步交易信号,使用规则进行预测,利用历史数据进行模拟试验,产生模型,运行模型,生成动态权重,进行风险管理,关联度计算,设计市场冲击模型,通过投资组合优化模型(CAPM, Black‐Litterman等)生成订单,通过计算机系统进行交易,最后进行风险分析和交易成本分析等。

模型的关键是预测,而预测可以分成以下几类。

第一、相对稳定量的预测。譬如印花税是相对稳定的量,预测印花税的改变对市场的影响就是一个针对相对稳定量的预测。

第二、对趋势(trend)的预测,又称对动量(momentum)的预测。简单地讲,昨天上涨的股票今天是否还会继续上涨,就是一个对趋势的预测。

第三、对均值回归(mean reversion)的预测。前几天一直在上涨的股票,今天会不会下跌,就是此类型的预测。

第四、事件对市场影响的预测。譬如大选和中选年的11月份选举就是一个会影响股市的事件。季报、美联储会议、以及普通新闻发布都会影响到股市。如果定量地预测事件对股票价格的影响,就是此类预测的本质。

本文就如何根据新闻,使用全计算机化的手段,对股票价格做预测进行初步讨论。

价格波动与新闻有关吗?

在普通人眼中,价格波动一定是与新闻有关的,不是吗?但是学术界围绕着确认价格波动与新闻的关系经过了很长时间的讨论。

大家一定还记得萨莫斯(Summers),这位刚刚卸任的白宫财经顾问吧?现任财长是他的学生,他本人还是克林顿政府的财长,现在是哈佛大学经济学教授。

萨莫斯在1989年发表了题为“价格波动与新闻的脱节”(Disconnect between price movements and news, Cutler, Poterba and Summers 1989)的学术论文,正式提出了很难确定价格变动所对应的新闻这一问题;后人称之为萨莫斯疑问。

二十几年过去了,随着计算机技术的快速发展,信息采集技术得到了极大发展,计算能力得到了极大发展,包括Grid Computing在内的海量计算能力已不罕见,计算机处理自然语言(NLP)的能力也得到了极大发展,金融工程理论和实践也得到了极大发展。确定价格变动所对应的新闻已经不再是一个难题。

当然,二十年后的今天,与萨莫斯发表论文的时代相比,也面临着前所未有的挑战,特别是信息的极大丰富,传统PR(新闻发布会)的出现,2000年出现PR Wire,传统新闻发布会后10分钟新闻发布延迟的取消,非传统媒体出现:网站、bbs, 博克、微博等等。

前不久,一些疑似中国下一代战机的照片出现在网络一个星期之后,才出现在华尔街日报头版上;而上一季度Google和Microsoft 在自己的网站发布季报,20分钟后才出现在传统媒体,就是非常典型的例子。那些比市场快20分钟拿到季报的投资人可以轻易成为百万富翁。

是否可以将新闻的交给计算机处理,在新闻出现的第一时间,多数投资人尚未来得及做出反应、市场尚未消化时立即做出反应,在市场消化掉新闻之后退出,进行套利操作呢?

这是可以做到的。

新闻中的软信息:情绪

Peterson(2004)与Stein(2002)指出,信息可以分成两种,即硬信息和软信息。硬信息是很容易证伪的量化信息,譬如公司盈利、公司高管对盈利的预测等。软信息是很难量化的信息,或者量化后很难证伪的信息,譬如:新闻报道的乐观语气,情绪等。对新闻带有的软信息进行归类和打分,将新闻的情绪量化。这种量化的情绪分,就可以作为统计套利的建模基础。

如果雇佣研究人员阅读新闻并对新闻的情绪打分,估计每个人每小时可以处理10条新闻。香港股市每天有超过100条新闻,需要一个人工作10小时。不算别的,就是所花费的时间和造成的延误也是交易策略无法承受的。

计算机的自然语言处理(NLP或者Natural Language Processing)技术源自1950年的Turing Test,经过了90年代的语音打字阶段,现在已经相当成熟。使用计算机处理新闻软信息,可以在秒钟内即时处理掉所有当前新闻。

这种技术的核心是语言模型,包括语法、语义模型,以及语言字典。在处理股市新闻时,大家常常采用的是Loughran and McDonald (2010)字典,它包括了大量的Litigation Risk的词汇,以及Harvard IV‐4 psychosocial dictionary,它们一共包括了2293 个正面词汇和1913个负面词汇。

一个NLP初级引擎只包括一本字典。根据字典中的正面词汇和负面词汇在新闻中出现的频率,可以给出一个情绪分数。

一个NLP高级引擎不仅包括一本字典,还包括了语法模型和语义模型。高级引擎可以更加准确地给新闻的情绪打分。参见下图。

譬如“我不能给你这个苹果”这句话,在人类读者看来它是负面的语句,在NLP初级、高级引擎看来它都是负面的。但是如果语句稍稍复杂化一点,处理引擎就会失效。

相关文档
最新文档