谷歌流感趋势的启示:大数据分析中的陷阱

合集下载

精编2020年最新公需科目:大数据完整版考核题库(含参考答案)

精编2020年最新公需科目:大数据完整版考核题库(含参考答案)

2020年最新公需科目《大数据》考试题(含答案) 一、填空题1.Hadp三种运行的模式.单机版 . 伪分布式和分布式。

二、单选题2.数据清洗的方法不包括( D)。

(单)A.缺失值处理B.噪声数据清除C.一致性检查D.重复数据记录处理3.下列关于大数据的分析理念的说法中,错误的是(D )。

(单选题)A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据4.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的(B )。

(单选题)A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据5.大数据时代,数据使用的关键是( D )。

(单选题) A.数据收集B.数据存储C.数据分析D.数据再利用三、多选题6.中央网络安全和信息化领导小组,是中国全面深化改革得以顺利进行.中国社会现代化转型得以顺利完成的压仓之石。

正确7.大数据的思维会把原来销售的概念变成服务的概念。

对8.根据周琦老师所讲,以下哪些属于数据挖掘的内容?ABC分A.补充与完善路网属性B.建立道路拥堵概率与拥堵趋势变化模型C.多维分析统计用户出行规律D.高德地图导航有躲避拥堵功能9.运用大数据进行大治理要做到()。

ABCD分A.用数据决策B.用数据管理C.用数据说话D.用数据创新10.国务院在哪一年印发了《促进大数据发展行动纲要》?AA.2015年B.2014年C.2016年D.2013年11.2008年以后,第()信息传输技术.传输2亿路信号。

得分.0分A.三代B.一代C.二代D.四代12.吴军博士认为未来二十年就是()为王的时代。

CA.文化B.工业C.数据D.农业13.云计算是信息技术发展和集成应用到新阶段产生的新技术。

基于流行病学的大数据分析与预测研究

基于流行病学的大数据分析与预测研究

基于流行病学的大数据分析与预测研究随着互联网的普及和技术的进步,大数据的概念已经深入人心。

而大数据的一大应用领域就是流行病学。

流行病学是一门研究疾病在人群中发生和传播规律的学科,而大数据则为流行病学研究提供了更加全面和精细的数据支持,同时也使得疾病的预测和监测更加有效可靠。

本文将从数据采集、处理分析和模型预测等方面,深入探讨基于流行病学的大数据分析与预测研究。

一、数据采集数据采集是大数据分析的第一步,也是非常关键的一步。

传统的疾病监测方式主要依靠医疗机构报告、患者自报和流行病学调查等方式,这些方法虽然可靠,但是存在数据缺乏、信息滞后、范围狭窄等问题。

而大数据技术则可以从多种渠道采集数据,包括社交媒体、搜索引擎、电子病历、健康监测设备等,从而获取更加丰富、实时、全面的数据。

举个例子,2018年美国流感疫情爆发期间,亚利桑那州立大学的研究团队便利用Twitter和Google Flu Trends等数据源来监测流感病例。

研究团队发现,在Twitter 上,社交圈越小的用户越容易感染流感,而在Google Flu Trends上,谷歌搜索中“流感”的频率与实际报告病例呈现高度相关。

这些大数据分析的成果不仅可以辅助传统的流行病学调查,而且还可以提供更加实时和全面的数据信息,为疾病预防和控制提供更加准确和有效的科学依据。

二、数据处理分析采集到的大数据需要经过处理和分析才能发挥价值。

好的数据处理过程能够减少不必要的误差和歧义,让数据更加准确和可靠。

同时,数据分析也需要科学、统计学和计算机科学等多学科的知识结合起来,形成完整的数据分析流程。

大数据处理和分析应用最广泛的方法是机器学习。

机器学习是一种通过算法和模型学习和模仿数据中潜在关系的方法,从而实现数据的分类、预测和优化处理。

例如,在流感研究中,机器学习可以用于识别流感症状、患者行为和社交网络等数据特征,进而预测疾病的传播和爆发趋势。

同时,机器学习还可以识别医疗数据中的模式和规律,从而优化医疗系统和提高病人的诊疗效果。

浅论国家大数据战略实施的背景和意义

浅论国家大数据战略实施的背景和意义

浅论国家大数据战略实施的背景和意义中共大兴安岭地委党校 165300大数据是一场关乎中国前途未来,涉及格局深刻调整的革命。

幸运的是,这场革命才刚刚开始,面对机遇与挑战,中国已经有了大思路、大举措。

那就是完善国家顶层设计,全面实施“国家大数据”战略。

2014年3月,“大数据”首次写进了政府工作报告,大数据正式作为一种新兴产业,得到了国家层面的大力支持。

2015年10月29日,党的十八届五中全会通过的“十三五”规规划建议提出,要“实施国家大数据战略,推进数据资源开放共享”。

大数据第一次写入党的全会决议,标志着大数据战略正式上升为一项国家战略。

1月17日,工信部与发改委联合发布的《信息产业发展指南》(下称指南)提出,“十三五”时期,中国的信息产业收入将达到26.2万亿。

同在1月17日,工信部印发了《大数据产业发展规划(2016-2020年)》。

一、实施大数据战略的背景大数据时代的到来,让“数据驱动”成为新的全球大趋势。

世界各国纷纷利用大数据提升国家治理能力,“得数据者得天下”已经成为全球的普遍共识。

美国是世界上最早对大数据技术革命做出战略反应的国家。

2012年3月,奥巴马政府宣布了“大数据研发计划”,并设立了2亿美元的启动资金,认为这事关美国的国家安全和未来竞争力。

迄今为止,美国在大数据方面实施了三轮政策,开放了50多个门类的政府数据确保商业创新。

为促进大数据相关研发,美国政府还在斯坦福、伯克利等大学开设全新的大数据课程,为大数据时代储备“数据科学家”。

欧盟正在力推《数据价值链战略计划》,用大数据改造传统治理模式,试图大幅降低公共部门成本,并促进经济增长和就业增长。

预计,到2020年大数据技术将为欧盟创造9570亿欧元GDP,(2016年中国gdp总量74.4万亿元,合10.1万亿欧元)增加就业人数380万。

日本颁布了“面向2020年的ICT(信息Information、通信Communication、技术Technology)综合战略”,积极谋划利用大数据改造国家治理体系,提升国家竞争力。

从谷歌流感趋势(GFT)案例分析“医疗大数据”的局限性

从谷歌流感趋势(GFT)案例分析“医疗大数据”的局限性

受 服务 提供 商 的影 响 。 在现 代化 的 战争 中 , 过 多的 、 无法 辨 别
失败 。同样道 理 , 对 一个 临床 医 生来讲 , 病 房 如 战场 。而在 诊 时分秒 事 关人 命 , 充 斥噪 音 的大数据 显 然不 满足 要求 。
治过 程 中 ,依 赖 于大 数据 等 尖端 技 术 的一 般 是疑 难 杂症 , 此
l 预防医学暇
2 0 年4 月
从谷歌流感趋势 ( G F T ) 案例 分析“ 医疗 大数据” 的局 限性
刘 琛
( 湖 南 省 长 沙 市 中南 大 学 信 息 科 学 与 工 程 学 院 , 湖南 长沙 , 4 1 0 0 1 2 ) 摘要 : 在 目前的大数据 时代 , 医疗大数据 已经被 广泛地 应用到临床 医疗实践 中, 对 于疾病病 因的确 定、 疾病的诊 断和治疗都
4数据的时空性问题1在数据来源的稳定性上谷歌公司为了提供更好的服务出于商业目的提升了大数据算法或者某个特殊情况改变了用户的搜索行为都会造成数据库里的数据发生变动意味着即使我们可以顺利进入谷歌的数据库按照原始的计算方法也无法重新建立gft在2009年给出的模型这完全违背了科学研究中数据结果可以重复实现的基本要求89
深层 次 的原 因 , 本 文将 从 以下 四个 方面进 行 分析 。
1 大 数据 不 能替 代抽 样调 查 2 0 1 3年 2月 , D A VI D L A Z E R在 《 自然 》 杂 志 上 发文 认 为 , 上述 这种 依靠 大数 据推论 与 实际情况 出现 较大偏 差 的原 因有 两 个 ,一是认 为大 数据完 全可 以代替 传统 的抽 样调 查统 计方 法日 。但绝大 多数大 数据与传 统 的经过科 学实验 统计得 到 的真 实 数据是不一样 的, 这是这种观 点错误 所在 。 G F T以 5 0 0 0万条 常 用搜 索词 的周搜 索量 占比作 为解释 变量 进行 建模 ,以美 国

精选最新2020年最新公需科目:《大数据》完整题库(含参考答案)

精选最新2020年最新公需科目:《大数据》完整题库(含参考答案)

2020年最新公需科目《大数据》考试题(含答案)一、选择题1.内存够大,所以集群的瓶颈不可能是 a 和 d二、单选题2.大数据时代,数据使用的关键是( D )。

(单选题) A.数据收集B.数据存储C.数据分析D.数据再利用三、多选题3.阿兰·图灵在哪一年提出图灵测试的概念?CA.1952年B.1954年C.1950年D.1955年4.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是 3分得分.■A.从柜台式管理走向全天候管理■B.从粗放化管理走向精细化管理■C.从被动反应走向主动预见型管理■D.从单兵作战走向联合共享型管理5.医疗健康数据的基本情况不包括以下哪项?A.诊疗数据B.个人健康管理数据■C.公共安全数据D.健康档案数据6.宁家骏委员指出,大数据要与“互联网+”医疗健康紧密结合起来,国家明确支持“互联网+”医疗.“互联网+”健康。

对7.国务院在哪一年印发了《促进大数据发展行动纲要》?AA.2015年B.2014年C.2016年D.2013年8.下列哪些国家已经将大数据上升为国家战略?■A.英国■B.日本■C.美国■D.法国9.吴军博士认为未来二十年就是()为王的时代。

CA.文化B.工业C.数据D.农业10.在网络爬虫的爬行策略中,应用最为基础的是(AB )。

A.深度优先遍历策略B.广度优先遍历策略C.高度优先遍历策略D.反向链接策略E.大站优先策略11.根据周琦老师所讲,大数据加速道路网络快速更新,高德()完成全国10万公里15万处更新。

A.2010年B.2006年C.2014年D.2008年12.大数据仅仅是指数据的体量大。

×正确错误13.大数据正快速发展为对数量巨大.来源分散.格式多样的数据进行采集.存储和关联分析,从中发现新知识.创造新价值.提升新能力的(B)。

A.新一代技术平台B.新一代信息技术和服务业态C.新一代服务业态D.新一代信息技术14.以下说法错误的是哪项?DA.大数据是一种思维方式B.大数据不仅仅是讲数据的体量大C.大数据会带来机器智能D.大数据的英文名称是large data15.农业部发布的《关于推进农业农村大数据发展的实施意见》提出,到2020年底前,实现农业农村历史资料的数据化.()。

《我们的大数据时代》考试题目及答案

《我们的大数据时代》考试题目及答案

我们的大数据时代(一)单选题(每题2分)1. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高2. 下列关于大数据的分析理念的说法中,错误的是(D)A. 在数据基础上倾向于全体数据而不是抽样数据B. 在分析方法上更注重相关分析我不是因果分析C. 在分析效果上更追究效率而不是绝对精确D. 在数据规模上强调相对数据而不是绝对数据3. 万维网之父是(C)A. 彼得·德鲁克B. 舍恩伯格C. 蒂姆·伯纳斯—李D. 斯科特·布朗4. 下列关于普查的缺点的说法中,正确的是(A)。

A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象B. 误差不易被控制C. 对样本的依赖性比较强D. 评测结果不够稳定5.下列关于聚类挖掘技术的说法中,错误的是(B)。

A. 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B. 要求同类数据的内容相似度尽可能小C. 要求不同类数据的内容相似度尽可能小D. 与分类挖掘技术相似的是,都是要对数据进行分类处理6. 智慧城市的构建,不包含(C)。

A. 数字城市B. 物联网C. 联网监控D. 云计算7.大数据的起源是(C)。

A. 金融B. 电信C. 互联网D. 公共管理8. 智慧城市的智慧之源是(C)。

A. 数字城市B. 物联网C. 大数据D. 云计算9. 假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是(A)关系,而吸烟和肺癌则是(A)关系。

A. 因果;相关B. 相关;因果C. 并列;相关D. 因果;并列10. 下列关于数据交易市场的说法中,错误的是(C)。

A. 数据交易市场是大数据产业发展到一定程度的产物B. 商业化的数据交易活动催生了多方参与的第三方数据交易市场C. 数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助D. 数据交易市场是大数据资源化的必然产物11. 下列关于计算机存储容量单位的说法中,错误的是(C)。

大数据分析与处理的基础理论与核心算法 (3)

大数据分析与处理的基础理论与核心算法 (3)

一、立项依据(大数据分析与处理面临巨大挑战)
处理对象上:数据特征突变
中小规模 结构化 非时变
单一结构 集中存储 传统数据特征
超大规模 非结构化
流数据 多源异构 分布存储 大数据特征
一、立项依据(大数据分析与预期的大数据方法
目的
经典 统计 方法
一、立项依据(国内外研究进展)
对于上述挑战性问题,近年来科学界与产业界都开展了广泛的探索 与实践,取得一批令人振奋的结果。
代表性进展
突破点
以压缩感知为代表的处理高维数据 的稀疏性理论与方法
压缩感知(L1):由 E. J. Candes、J. Romberg、 T. Tao 和D. L. Donoho 等科学家于2004 年提出;
重大研究计划立项建议 大数据分析与处理的基础理论与核心算法
引言
问题一
问题二
委务会议已通过管理科学部启动 “大数据驱动的管理与决策研究” 重大计划,为什么还有必要启动 新的大数据重大计划?
为什么要聚焦研究“大数据分 析与处理的基础理论与核心算 法”?
汇报内容
第一部分 第二部分 第三部分
为什么要聚焦大数据分析与处理? 研究内容、科学问题与科学目标 必要性:为什么还要启动新的大数据重大计划?
一、立项依据(大数据分析与处理是核心)
聚焦大数据分析与处理具有紧迫性
据国际数据联盟(IDC)统计,中国目前拥有的数据量占全球的14%,但数据 利用率不到0.4%,大量的数据“沉睡”在各个角落,未发挥应有作用,其本质原
因是这些数据没有利到深入分析与处理。
公众要的是答案、不是数据!
大数据 大垃圾
大分析 大价值
抽样(独立同分 布)
n→∞(估计分布、 极限定理)

如何通过大数据分析预测市场趋势

如何通过大数据分析预测市场趋势

如何通过大数据分析预测市场趋势大数据分析在当今社会中扮演着越来越重要的角色。

通过收集和分析大量的数据,我们可以获取有关市场趋势的宝贵信息,从而为企业和投资者提供有力的决策依据。

本文将探讨如何通过大数据分析来预测市场趋势,并介绍一些成功的案例。

首先,大数据分析可以帮助我们识别和理解市场的潜在趋势。

通过收集和分析大量的市场数据,我们可以发现一些隐藏在数据背后的规律和趋势。

例如,通过分析过去几年的销售数据,我们可以发现某种产品在特定季节或特定地区的销售量会有所增加。

这种趋势的发现可以帮助企业调整生产和销售策略,以更好地满足市场需求。

其次,大数据分析可以帮助我们预测市场的未来走势。

通过收集和分析大量的相关数据,我们可以建立预测模型,从而预测市场的未来发展趋势。

例如,通过分析过去几年的股票交易数据和公司财务数据,我们可以预测某只股票未来的涨跌趋势。

这种预测可以帮助投资者做出明智的投资决策,从而获得更高的收益。

除了预测市场趋势,大数据分析还可以帮助我们发现市场中的机会和风险。

通过收集和分析大量的市场数据,我们可以发现一些市场中的新兴趋势和机会。

例如,通过分析互联网用户的搜索数据,我们可以发现某种新兴产品或服务的需求正在迅速增长。

这种发现可以帮助企业抓住市场机会,推出相应的产品或服务,从而获得竞争优势。

同时,大数据分析也可以帮助我们识别市场中的风险和挑战。

通过收集和分析大量的市场数据,我们可以发现一些市场中的潜在风险因素。

例如,通过分析宏观经济数据和行业数据,我们可以预测某个行业是否面临衰退的风险。

这种预测可以帮助企业及时调整战略,减少风险,保护企业的利益。

在实际应用中,大数据分析已经取得了一些成功的案例。

例如,亚马逊利用大数据分析来预测用户的购买偏好,从而提供个性化的推荐服务。

这种个性化推荐不仅提高了用户的购物体验,还帮助亚马逊提高了销售额。

另一个成功的案例是谷歌利用大数据分析来预测流感的传播趋势。

通过分析用户的搜索数据,谷歌可以提前发现流感的爆发地点和规模,从而帮助公共卫生部门采取及时的防控措施。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

谷歌流感趋势的启示:大数据分析中的陷阱*本文译自 ,“The Parable of Google Flu: Traps in Big Data Analysis ”,2013,343(3):1203~1205一文。

2013年2月,谷歌流感趋势(Google flu trends, GFT)成为新闻头条,但原因并非如谷歌高管们或者流感追踪系统开发者所愿。

《自然》(Nature )杂志发表文章指出,GFT 预测的流感样病例(influenza like illness, ILI)门诊比例超过了美国疾病控制和预防中心(the Cen-ters for Disease Control and Preven-tion, CDC)基于全美各实验室监测报告得出的预测结果的两倍多[1, 2]。

尽管开发GFT 的目的是预测CDC 报告,但还是出现了预测结果远远高于实际的问题。

鉴于GFT 通常被认为是大数据应用的典范[3, 4],那么我们能从这个错误中总结出作者:大卫·拉泽(David Lazer) 莱恩·肯尼迪(Ryan Kennedy) 盖瑞·金(Gary King) 亚历山德罗·维斯皮那尼(Alessandro Vespignani )译者:张志昌关键词:谷歌流感趋势 算法动力学什么经验教训呢?我们所要探讨的问题不仅仅限于GFT 。

对搜索或者社会媒体是否能预测某个未知参数x 的研究已经屡见不鲜 [5~7],并且常常与传统的方法和假设构成鲜明的对比。

虽然这些研究已经体现出搜索历史、社会媒体等数据的价值,但还远远没有达到可以取代传统方法或理论的地步[8]。

这里我们将探讨导致GFT 发生错误的两个原因——对大数据的浮夸和算法动力学,并从中总结经验教训,使我们能够在大数据时代更好地前进。

对大数据的浮夸“对大数据的浮夸”经常隐含这样一种假设, 即认为大数据是传统数据收集和分析方法的替代品,而不是传统方法的补充。

我们已经在很多地方断言,大数据中存在流感预测中的巨大误差在很大程度上是可以避免的,这为大数据的应用提供了经验教训。

着巨大的科学机遇[9~11]。

但是,数据量并不意味着我们可以忽略测量的基本问题、结构效度、可靠性以及数据间的依赖关系[12]。

大数据时代的核心挑战是,被广泛关注的大部分大数据并非是那些可生成适合科学分析的有效、可靠数据的设备的输出结果。

GFT的最初版本是一个特别的、有问题的大数据与小数据间的联姻。

从本质上讲,其所用的方法是从5000万个搜索词中寻找可拟合1152个数据点的最佳匹配[13]。

找到了与流感趋势匹配的检索词,但流感趋势和检索词在结构上不相关,因此无法用来预测流感发展趋势,这种可能性相当高。

实际上,GFT的开发者声称已经去除了与流感无关却与CDC的数据密切相关的季节性检索词,比如与高中篮球相关的数据[13]。

这本应当是对我们的警示,说明大数据可能会过拟合数量很少的案例。

在通常情况下数据分析都必须注意这一问题。

这种随心所欲地去除某些搜索词汇的方法在预测2009年非季节性甲型H1N1流感时失败了,根本没有预测到其流行[2,14]。

简而言之, GFT的最初版本功能部分是流感探测,部分是冬季探测。

GFT的工程师在2009年更新了算法,该模型一直沿用至今,只在2013年10月发布了几处更新[10, 15]。

尽管在2013年之前没有被广泛报道,但新的GFT已经在更加长的一段时间内一直在高估流感的流行情况。

在2011~2012年的流感季节里,GFT的预测结果与实际情况有非常大的差距。

从2011年8月份开始的108周时间内,GTF有100周的预测结果过高(见图1)。

这些误差不是随机分布的。

例如,上一周的预测误差会影响本周的预测结果(时间自相关),误差的方向和大小会随时间(季节性)而变化。

这些模式说明GFT忽略了值得考虑的信息,而这些信息是可以用传统的统计学方法提取的。

即使2009年对GFT进行了更新,把算法的比较值看作一个独立的流感监测器还是有问题的。

2010年的一项研究表明,GFT预测流感的准确度并不比利用已有的CDC数据(通常有2周的滞后)进行相当简单的前向投影所推测出的结果好[4]。

从那时起,GFT的比较值变得甚至更差,CDC滞后模型的效果要明显优于GFT(见图1)。

甚至用3周前的CDC数据来推测当前流感的流行情况,效果都比GFT的预测结果好(见补充材料(SM))。

在有大量的方法可以推测流感活动的情况下[16~19],是否意味着当前版本的GFT就没用了?当然不是。

通过把GFT与其他接近实时的健康数据相结合,可以获得更大的价值[2, 20]。

例如,将GFT07/01/1007/01/1107/01/12图1 GFT的过高估计。

对2012~2013年季节性流感的流行情况,GFT 的估计过高;对2011~2012年流感疫情的估计比实际情况高50%。

从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。

上图:对流感样病例门诊数的估计结果。

“CDC 滞后模型”结合了滞后的CDC数据和52周的季节性变量。

“Google Flu + CDC”模型结合了GFT、滞后的CDC估计、GFT估计的滞后偏差以及52周的季节性变量;下图:偏差[以百分比表示,{(非CDC估计值-CDC估计值)/CDC估计值}]。

两种替代模型的偏差都要比单独使用GFT的偏差低;GFT在样本外期间的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232。

以上这些差异在P<0.05时有统计显著性。

见补充材料SM。

和CDC滞后数据相结合,同时动态校准GFT,我们可以显著改善GFT的性能或改善单独使用CDC 时的性能(见图1)。

这并不能替代对GFT的不断评估和改进,但是,通过整合信息,GFT就能修补自己,从而避免在“新闻头条”出丑。

算法动力学所有经验主义的研究都是以测量为基础的。

测量仪器是否可以真实地捕捉到我们感兴趣的理论结构?测量是否可以在不同的情景、不同的时间均能保持稳定性和可比性?测量的误差是否呈现系统性?至少,非常可能的情况是,由于算法动力学(algorithm dynam-ics)影响了谷歌搜索算法,使得GFT不能稳定反映流感的流行状况。

算法动力学是指算法的各种变化,这些变化一方面源自工程师为了改进商业服务而修改算法,另一方面源自用户使用服务过程中行为的改变。

谷歌搜索算法和用户行为的各种改变很有可能影响了GFT的预测追踪。

对GFT预测误差通常的解释归咎于上一流感季节媒体引起的用户恐慌[1,15]。

尽管这可能是其中一个原因,但这并不能解释为什么GFT在两年多的时间里过高地估计了流感的流行情况。

GFT 2009年的版本经受住了与流感相关的媒体恐慌的考验,包括2005~2006年甲型H5N1流感(禽流感)的爆发和2009年的甲型H1N1流感(猪流感)的流行。

因此,最有可能的“罪魁祸首”是谷歌搜索算法本身的改变。

谷歌搜索算法并不是一个静止的实体,谷歌公司不断地对搜索进行测试和改进。

例如,谷歌搜索的官方博客仅在2012年6月和7月就公布了86项修改(见补充材料SM)。

其搜索模式是谷歌公司各个部门的程序员和全球数百万用户所做的数以千计决策的结果。

重现GFT的原始算法有许多挑战。

GFT从来没有以文档的形式公布过所用的45个检索词,而且其所发布的例子明显带有误导性[14](见补充材料SM)。

谷歌提供了“Google Correlate”这项服务,允许用户辨识与给定时间序列相关联的搜索数据。

然而,这仅限于国家级数据,开发GFT利用的却是与地区级关联的数据[13]。

这项服务也不会返回GFT相关文献中所记录的任何样本检索词[13, 14]。

然而,利用Google Correlate对GFT时间序列相关的检索词和CDC数据的返回结果进行比较,就会发现一些有趣的差异。

特别是对流感治疗方案的搜索以及普通感冒与流感之间的区别方面的搜索,和GFT的误差有很强的关联(见补充材料SM)。

这表明了一种可能性,即对用户相关搜索行为改变的解释是“蓝队”动力学——服务提供者根据他们的商业模式对产生数据的算法(用户使用的数据)进行修改。

谷歌在2011年6月宣布,他们对搜索结果进行了修改,目的是为用户提供系统建议的其它搜索词,并在2012年2月再次宣布,当用户搜索包括发烧、咳嗽之类的体症时,系统会返回一些可能的诊断方法[21]。

前者对一般流感检索的响应是推荐流感治疗方法的搜索,而后者可以对流感与普通感冒区别方法相关搜索的增加做出解释。

我们给出了其它几个可能会影响GFT预测结果的修改(见补充材料SM)。

在提高对用户的服务质量过程中,谷歌也在改进数据生成的过程。

对搜索算法进行修改的目的大概是为了支持谷歌的商业模式,比如,一方面是快速地为用户提供有用的信息,另一方面是为了增加更多的广告收益。

通常基于其他人的搜索历史所推荐的搜索会增加某些特定搜索的相对数量。

在这种模式下,由于GFT使用了相对较为流行的搜索词,搜索算法的改进反而会对GFT的预测产生不利影响。

然而,奇怪的是,GFT所秉承的假设是某些特定词项的相对搜索数量与外部事件是静态相关的,但实际上搜索行为并非仅由外在因素决定,它同样受服务提供者的内在影响。

“蓝队”问题不仅存在于谷歌一家公司。

像推特(Twitter)和脸谱(Facebook)等这样的平台总是在重新设计。

对从这些平台上采集到的数据进行研究,即便是一年前的研究结果,能否在以后或者早期重现,是一个尚无答案的问题。

尽管这对于GFT而言似乎并不是问题,但是研究人员也应该意识到我们监控的系统存在被“红队”攻击的可能性。

当研究对象(在此案例中指Web搜索者)试图操控数据生成过程以达到他们的经济或政治目的的时候,“红队”动力学就起作用了。

推特网站上的拉票就是这种策略的一个明显的例子。

竞选机构和公司都意识到了新闻媒体在关注着推特,因此使用了各种各样的手段来确保自己的候选人或者产品呈现流行趋势[22,23]。

类似的,可以利用推特和脸谱来散布关于股票价格和市场的谣言。

讽刺的是,利用这些开源信息监测用户行为越是成功,就越会有人试图去操控那些信息。

透明度、粒度和全数据将GFT的故事作为案例进行研究具有重要意义。

当我们在大数据分析时代向前迈进时,可从这个案例中学到很多关键性的教训。

透明度和可重现性 在整个学术界对结果可重现的关切日益增长。

有关GFT的论文中的支撑材料并没有满足研究群体正在形成的新标准,既没有给出核心搜索词,也没有提供更大的搜索语料库。

考虑到隐私问题,谷歌不可能将其所有数据都对外界公开,否则这在道德上也是不被接受的。

相关文档
最新文档