大数据分析的光荣与陷阱
大数据:利弊兼有还是潜在危险?辩论

在当今信息化时代,大数据已经成为了一种不可忽视的力量。
大数据的出现,让我们的生产、生活、科研等方方面面都发生了巨大变化。
然而,正如任何技术一样,大数据也不是完美的,它既有利益,又存在潜在的危险。
首先,我们来看看大数据的利益。
大数据的最大优势在于其海量、多样的数据能够提供全面的信息,从而帮助企业和政府做出更准确的决策。
通过对大量数据的分析,企业可以了解市场需求、消费者行为等,从而制定更精细化的营销策略。
政府可以通过分析大数据,改进公共服务,提高治理效率。
此外,大数据还广泛应用于医疗、教育、交通等领域,在提高效率的同时,也为人们带来了更多的便利与福利。
然而,大数据也存在潜在的危险。
首先是隐私问题。
在大数据时代,我们的个人信息被广泛收集和使用,而我们往往并不知情。
这可能导致我们的个人隐私被泄露、滥用甚至被黑客攻击。
其次是数据的质量问题。
虽然大数据数量庞大,但其中也存在着众多的噪声和低质量的数据,如果不加以挑选和筛选,便可能给决策带来误导。
另外,大数据的应用也可能导致人们的行为被算法所左右,降低了个体的自主权和选择权。
那么,我们应该如何平衡大数据的利弊?首先,保护隐私是至关重要的。
政府应加强相关法律和监管措施,保障个人信息的安全。
同时,企业也应采取措施保护用户隐私,并透明地告知用户数据收集和使用的目的。
其次,加强数据的质量管理。
在使用大数据之前,应对数据进行有效的清洗和筛选,确保数据的准确性和可靠性。
此外,培养数据分析的专业人才,提高数据分析的水平和能力,也是必不可少的。
在大数据时代,我们既不能盲目推崇大数据所带来的便利和效益,也不能过度放大其潜在的危险。
我们需要客观、理性地看待大数据,并制定出相应的规范和措施,使其发挥正面作用的同时,最大程度地避免潜在的危险。
只有这样,我们才能真正享受到大数据带来的红利,并确保我们的社会和个人权益得到有效保障。
大数据的利与弊

大数据的利与弊引言:随着信息技术的快速发展,大数据已经成为当今社会的热门话题。
大数据指的是海量的、多样化的、高速增长的数据集合,这些数据集合可以被用于分析、判断和决策。
然而,尽管大数据带来了许多机会和好处,但它也存在一些潜在的问题和挑战。
本文将详细探讨大数据的利与弊。
正文:一、大数据的利1. 提供商业价值:大数据可以匡助企业更好地了解市场需求和消费者行为,从而制定更精准的营销策略。
通过分析大数据,企业可以识别出新的市场机会,提高产品和服务质量,并实现更高的竞争力。
2. 促进科学研究:大数据为科学研究提供了前所未有的机会。
科学家可以利用大数据分析技术来挖掘隐藏在数据中的规律和趋势,从而推动科学的发展。
例如,在医学领域,大数据分析可以匡助科学家发现新的疾病治疗方法和药物。
3. 改善公共服务:政府可以利用大数据来改善公共服务的效率和质量。
通过分析大数据,政府可以更好地了解公众需求,优化资源配置,提高政府决策的科学性和准确性。
例如,交通部门可以利用大数据分析来优化交通流量,减少交通拥堵。
4. 支持智能城市建设:大数据可以为智能城市的建设提供支持。
通过采集和分析大数据,智能城市可以实现更高效的能源利用、智能交通管理、智慧环境监测等功能,提高城市的可持续发展和居民的生活质量。
二、大数据的弊1. 隐私问题:大数据的快速发展给个人隐私带来了新的挑战。
大数据分析可能会采集和分析个人的敏感信息,如个人偏好、消费习惯等,从而侵犯个人隐私权。
这引起了对数据安全和隐私保护的耽忧。
2. 数据质量问题:大数据的质量对于分析和决策的准确性至关重要。
然而,由于数据的来源和采集方式的多样性,大数据中可能存在大量的噪声和错误。
如果数据质量不可靠,分析结果可能会产生误导,从而导致错误的决策。
3. 技术挑战:大数据的处理和分析需要强大的计算和存储能力。
同时,大数据分析还需要高水平的专业知识和技能。
这意味着企业和组织需要投入大量的资金和人力资源来构建和维护大数据分析系统,这对于一些中小型企业来说可能是一个巨大的挑战。
大数据的陷阱

大数据的陷阱在当今数字化的时代,大数据无疑是一个热门的话题。
它被广泛应用于各个领域,从商业营销到医疗保健,从金融服务到社交媒体。
大数据似乎拥有神奇的力量,能够帮助我们做出更明智的决策,发现隐藏的模式和趋势,甚至预测未来。
然而,在我们对大数据的热情拥抱中,却往往容易忽视其背后隐藏的陷阱。
首先,大数据的质量问题是一个不容忽视的陷阱。
大量的数据并不总是意味着高质量的数据。
数据可能存在错误、缺失、重复或者不准确的情况。
比如,在医疗领域,患者的病历数据可能因为人为输入错误或者不同医疗机构之间的数据格式不一致而出现偏差。
这些质量不佳的数据如果被用于分析和决策,很可能会导致错误的结论和不良的后果。
其次,大数据的隐私问题是一个令人担忧的陷阱。
随着数据的收集和分析越来越广泛,个人的隐私受到了前所未有的威胁。
我们的购物习惯、浏览历史、社交关系等大量个人信息被收集和分析,而这些信息的使用往往超出了我们的预期和控制。
例如,一些公司可能会根据我们的在线行为来推送个性化的广告,甚至将这些数据出售给第三方。
这种对个人隐私的侵犯不仅会让我们感到不安,还可能导致更严重的后果,如身份盗窃、欺诈等。
再者,大数据的分析和解读也存在陷阱。
尽管大数据分析工具越来越先进,但它们仍然依赖于人类的设计和操作。
分析人员的偏见、错误的假设或者不合适的分析方法都可能导致对数据的错误解读。
而且,大数据往往只能揭示相关性,而不能确定因果关系。
例如,我们可能发现购买某种商品的消费者往往也会购买另一种商品,但这并不意味着前者导致了后者的购买行为,可能只是一种巧合或者受到其他未知因素的影响。
另外,大数据还可能导致决策的过度依赖。
当我们拥有大量的数据时,很容易陷入一种“数据崇拜”的误区,认为数据可以解决一切问题,从而忽视了人类的直觉、经验和判断力。
然而,在某些情况下,特别是在面对复杂的、不确定的情况时,人类的智慧和判断力仍然是不可替代的。
此外,大数据的应用还可能加剧社会的不平等。
大数据的利与弊

大数据的利与弊一、引言大数据是指规模巨大、种类繁多的数据集合,通过使用先进的技术和工具进行分析和处理,可以揭示出隐藏在数据中的有价值的信息和模式。
大数据的发展给社会带来了巨大的变革,但同时也面临着一些挑战和问题。
本文将探讨大数据的利与弊,从不同角度分析其对社会、经济和个人的影响。
二、大数据的利1. 促进科学研究和技术创新:大数据的分析和挖掘可以帮助科学家和研究人员发现新的规律和模式,推动科学研究的进展。
同时,大数据也为企业提供了更多的创新机会,可以通过分析用户行为和市场趋势来开发新产品和服务。
2. 改善决策和管理:大数据的分析可以提供决策者更准确的信息和预测,帮助他们做出更明智的决策。
政府可以利用大数据来优化公共服务的提供,提高效率和满足市民的需求。
3. 提升经济增长和竞争力:大数据分析可以帮助企业发现市场机会和潜在的客户需求,提高市场营销的精准度和效果。
同时,大数据还可以帮助企业优化生产和供应链管理,提高生产效率和降低成本,从而推动经济增长。
4. 改善医疗和健康管理:大数据的应用可以帮助医疗机构更好地管理患者数据和医疗资源,提高诊断和治疗的准确性和效果。
同时,大数据分析还可以帮助预测疾病的发展趋势和流行病的爆发,提前采取措施进行预防和控制。
5. 提升城市管理和生活质量:大数据分析可以帮助城市管理者更好地了解城市居民的需求和习惯,优化城市规划和交通管理,提高城市的运行效率和居民的生活质量。
三、大数据的弊1. 隐私和安全问题:大数据的分析需要收集和使用大量的个人数据,这可能涉及到用户的隐私和个人权益。
同时,大数据的存储和传输也面临着安全风险,一旦数据泄露或被滥用,将对个人和社会造成严重的损害。
2. 数据质量和可靠性:大数据的质量和可靠性对分析结果的准确性和可信度有着重要影响。
由于数据的来源和收集方式的多样性,数据质量的问题可能导致分析结果出现误差和偏差。
3. 不平等和歧视问题:大数据的分析可能会导致信息的不平等和歧视现象。
大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱

大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱在大数据时代,企业可以利用海量的客户数据来驱动业务发展和提高利润。
然而,大数据分析也存在一些陷阱需要注意。
本文将介绍大数据时代中客户数据驱动利润的潜在风险和解决方案。
首先,大数据分析的陷阱之一是处理庞大数据量的挑战。
随着数据量的增加,企业面临着处理和分析数据的困难。
传统的数据处理工具和技术往往无法胜任这个任务。
解决这个问题的方式是采用先进的数据处理和分析技术,如云计算和分布式计算,以加快数据处理速度并提高分析效率。
其次,大数据分析中的另一个陷阱是数据的质量问题。
大数据中常常存在数据质量不一致、数据缺失、数据重复等问题。
这些问题会影响数据分析的准确性和可信度。
因此,企业需要建立严格的数据管理和数据清洗机制,确保数据的准确性和完整性。
此外,选择合适的数据源和数据采集方法也非常重要,以获得高质量的数据。
第三个陷阱是隐私和安全问题。
在大数据分析中,企业通常需要处理客户的敏感信息,如个人身份、财务状况等。
泄漏这些信息可能会导致严重的法律和道德问题。
因此,企业应该制定严格的数据隐私和安全政策,并采用安全的数据存储和传输方式来保护客户数据的机密性和完整性。
此外,大数据分析还面临着算法和模型的选择挑战。
在选择合适的分析算法和模型时,企业需要考虑问题的复杂性、数据的特点以及分析目标。
选择不合适的算法和模型可能导致分析结果的不准确或不可靠。
为了解决这个问题,企业可以依靠数据科学家和专业人士的意见,并进行充分的测试和验证。
最后,大数据分析中的时间和成本也是一个重要的陷阱。
大数据分析需要投入大量的时间、资源和人力,包括数据收集、清洗、分析和解释等环节。
如果企业没有足够的资源来支持这些过程,大数据分析的效果可能会大打折扣。
因此,企业应该在进行大数据分析之前充分评估自身的能力和资源,并制定合理的计划和预算。
综上所述,大数据时代让客户数据驱动利润的同时,也存在一些潜在的陷阱。
大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱在当今信息时代,大数据的崛起使得数据分析成为了各个行业中不可或缺的一环。
作为一名大数据分析师,正确地进行数据分析对于决策者来说至关重要。
然而,在数据分析的过程中,常常会出现一些错误和陷阱,可能导致分析结果不准确或误导决策。
本文将探讨大数据分析师在数据分析过程中常见的错误和陷阱,并提出相应的解决方法。
一、数据采集阶段的错误和陷阱在数据分析的第一步中,数据采集是至关重要的一环。
然而,很多分析师在数据采集阶段会出现以下错误和陷阱:1. 数据的不完整性:在采集数据时,很容易忽视一些数据源或遗漏了重要的数据点,导致分析结果不完整。
解决这个问题的方法是,明确分析目标,确保涵盖了所有相关的数据源,并进行全面的数据采集。
2. 数据的不准确性:数据的准确性是数据分析的基础,但是由于数据源本身可能存在问题,例如数据输入错误、采集设备故障等,导致数据的准确性受到威胁。
为了解决这个问题,分析师需要在数据采集阶段进行数据验证和清洗,确保数据的准确性。
3. 数据偏差的影响:在数据采集过程中,数据偏差是一个不容忽视的问题。
例如,在调查问卷中,回答者可能存在回避某些问题或者给出不真实的答案,导致数据的偏差。
解决这个问题的方法是,采用合理的调查问卷设计,加强问卷回答者的信任感,尽量减少数据偏差的发生。
二、数据清洗阶段的错误和陷阱在数据采集之后,数据清洗是必不可少的一步。
然而,在数据清洗阶段,常常会出现以下错误和陷阱:1. 缺失值的处理不当:在数据清洗中,缺失值是一个常见的问题。
分析师需要注意对缺失值进行合理的处理,而不是将其简单地删除或用平均值填充。
根据实际情况选择合适的处理方法,以保证数据的准确性。
2. 异常值的处理错误:异常值的存在会对数据分析结果产生重要影响。
在处理异常值时,分析师需要根据分析目标和数据的特点,选择合适的方法进行处理。
需要注意的是,过度处理异常值可能会导致数据的失真,因此需要谨慎处理。
大数据的利与弊

大数据的利与弊引言概述:大数据是指规模庞大、复杂多变的数据集合,通过分析这些数据可以获得有价值的信息和洞察。
大数据的出现给各行各业带来了巨大的变革,但同时也带来了一些问题和挑战。
本文将从五个方面探讨大数据的利与弊。
一、提供商业洞察力1.1 提高决策效率:大数据分析可以帮助企业从庞大的数据中快速提取有关市场趋势、消费者偏好等信息,从而更快做出决策。
1.2 发现新的商业机会:通过对大数据的分析,企业可以发现市场中的新机会,及时调整产品策略和市场定位,从而获得竞争优势。
1.3 提升客户体验:大数据分析可以帮助企业更好地了解客户需求,个性化推荐产品和服务,提升客户满意度和忠诚度。
二、优化运营效率2.1 提高生产效率:通过对大数据的分析,企业可以优化生产过程,减少资源浪费,提高生产效率和质量。
2.2 降低成本:大数据分析可以帮助企业发现成本效益低的环节,进而进行优化,降低企业运营成本。
2.3 预测需求:通过对大数据的分析,企业可以更准确地预测市场需求,避免库存积压或供应不足的情况,提高供应链的效率。
三、推动科学研究与创新3.1 加速科学研究:大数据分析可以帮助科学家更快地分析海量数据,发现新的科学规律和研究方向,推动科学研究的进展。
3.2 促进创新:通过对大数据的分析,企业可以更好地了解市场需求和消费者行为,从而推动产品和服务的创新。
3.3 支持决策制定:大数据分析可以为政府和组织提供决策支持,帮助其更好地制定政策和规划,推动社会发展。
四、数据隐私和安全问题4.1 数据泄露风险:大数据的应用涉及大量个人和机密数据,一旦数据泄露,可能导致严重的隐私问题和经济损失。
4.2 数据滥用风险:大数据的分析结果可能被滥用,例如用于歧视性定价、个人画像等,对个人权益造成损害。
4.3 数据安全挑战:大数据的存储和传输面临着安全挑战,黑客攻击和数据篡改等威胁也日益增加。
五、技术和人才需求5.1 技术挑战:大数据的处理和分析需要先进的技术支持,包括高性能计算、分布式存储等,对技术的要求较高。
大数据比想象的不靠谱:数据驱动背后的谎言与欺骗

当然了,你所使用的这些干预体重的方法只会带来增减 5 磅(约为 4.5 斤)左右的差别,但是对于某些和我一样对于体重无比看重的人来说,这些小小的体重数字波动已经足以让我感觉自己确实有所转变,从这个人⬇ :变成了这个人⬆你也许觉得这只是个人生活方面的数字欺诈,世界上的其他数据,比如说发表在公开学术期刊上的数据总没那么容易被人为操纵吧。
不过如果你看到了最近刊登在美国权威学术期刊《科学》上面的一项研究,或许就不会这么认为了。
该项目的研究人员对于已发表的 100 篇高质量心理学论文中进行的实验进行了复制,看看是不是能够得出相同的数据,而实验结果是仅仅有 36% 的数据可以重现。
换句话说,就算是换了另一批小心翼翼且专业的研究人员,也有三分之二的论文结果是不能被重现出来的。
「这个研究项目为我们提供了不少证据,了解到在很多心理学研究论文中发现的结论仍然需要细致的工作去反复检验,看看这些结果到底是不是像我们知道的那样确定。
」在如今的很多研究领域当中,科学家们会一直收集数据,直到数据呈现出一种在统计学上显著的模式,然后他们会使用这些经过严格挑选的数据去发表论文。
在学术圈里这种做法被称作是「P 值篡改」(p-hacking),只要掌握一些数据操作的技巧,就可以让数据虚高,得出一个在统计学上显著且有意义的结果。
在论文中常用的篡改数据的手法如下:通过中途的实验分析决定是否要继续收集数据记录下许多因变量,并决定要选取报哪一个写入报告擅自决定是否要添加或者删除极端值对于实验群体重新进行排除、组合或者是分离操作当分析结果已经呈现出 P 值显著时就立刻停止数据采集把上述所有加在一起,你就会发现知识产出的过程当中存在着如此明显的问题。
当这些有问题的研究结论进入到 Facebook 驱动的社交媒体世界当中时,即便是一个小小的「P 值篡改」的研究也会迅速传遍世界,而且不会有多少人表示怀疑。
当一个普通人在快速浏览新闻的时候不会意识到那些「科学实验得出」、「研究表明」其实就是扯淡,其研究结果根本经不起检验,尤其是当这些说法出现在学术期刊上,就更不会引发怀疑了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析的光荣与陷阱本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。
本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。
一、谷歌流感趋势:未卜先知?“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。
2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。
甫一登场,GFT就亮出十分惊艳的成绩单。
2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。
有了这两周,人们就可以有充足的时间提前预备,避免中招。
多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。
2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。
2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。
高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。
这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。
那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT 的大幅报道导致人们的搜索行为发生了变化。
Lazer等学者穷追不舍。
他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。
并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。
因为遗漏了某些重要因素,GFT还是病得不轻。
为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。
二、新瓶装旧酒:过度拟合大数据时代的来临,为数据收集带来了深刻变革。
海量数据、实时数据、丰富多样的非机构数据,以前所未有的广度进入了人们的生活。
但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。
而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。
我们先用一个故事来解释过度拟合问题。
假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。
该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。
但是这所学校有个古怪,就是从不教授犯罪心理学。
象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。
学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。
学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。
比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。
完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。
测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。
冠军即象牙塔最棒警察,可以派到社会上抓小偷了。
一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔,该警察就老犯错抓、该抓不抓的错误。
他抓小偷的表现,甚至比重来没有来象牙塔学习的人还要差。
在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习过程之后挑选出来的最优模型。
小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。
前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。
不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。
训练最佳警察的过程,就类似于运用机器学习技术,采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中。
最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。
由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。
又由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。
也就是说,在样本内预测很好的模型,到样本外预测很差。
这,就是过度拟合的问题。
从过度拟合角度可以帮助我们理解为什么GFT在2009年表现好而之后表现差。
在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT 可以清楚知道CDC报告的哪里发病率高而哪里发病率低。
这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合现有发病率。
Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。
2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。
但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。
从上面的故事可以看到,产生过度拟合有三个关键环节。
第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。
第二,象牙塔学校训练警察,不关心小偷的形成原因,主要追求细致掌握已知小偷的特征。
第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。
在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。
三、大数据分析的挑战(一) 陷阱一:“大数据自大”Lazer等学者提醒大家关注“大数据自大(big data hubris)”的倾向,即认为自己拥有的数据是总体,因此在分析定位上,大数据将代替科学抽样基础上形成的传统数据(后文称为“小数据”)、而不是作为小数据的补充。
如今,大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能,那么说企业有这样的数据就不需要关心抽样会有问题吗?这里的关键是,企业或者机构拥有的这个称为总体的数据,和研究问题关心的总体是否相同。
《数据之巅》一书记载了下面这个例子:上世纪三十年代,美国的《文学文摘》有约240万读者。
如果《文学文摘》要了解这个读者群的性别结构与年龄结构,那么只要财力人力允许,不抽样、直接分析所有这240万左右的数据是可行的。
但是,如果要预测何人当选1936年总统,那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同,就会差之毫厘谬以千里了。
事实上,《文学杂志》的订户数量虽多,却集中在中上层,并不能代表全体选民。
与此相应,盖洛普根据选民的人口特点来确定各类人群在样本中的份额,建立一个5000人的样本,采用这个小数据比采用《文学文摘》的大数据,更准确地把握了民意。
在GFT案例中,“GFT采集的搜索信息”这个总体,和“某流感疫情涉及的人群”这个总体,恐怕不是一个总体。
除非这两个总体的生成机制相同,否则用此总体去估计彼总体难免出现偏差。
进一步说,由于某个大数据是否是总体跟研究问题密不可分,在实证分析中,往往需要人们对科学抽样下能够代表总体的小数据有充分认识,才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。
(二) 陷阱二:算法演化相比于“大数据自大”问题,算法演化问题(algorithm dynamics)就更为复杂、对大数据在实证运用中产生的影响也更为深远。
我们还是通过一个假想的故事来理解这一点。
假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度,其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。
观察一段时间后该团队发现,小和尚智空原来遇到老虎的频率大概是一个月一次,但是从半年前开始,智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。
由于大数据分析不关心因果,研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎,而根据历史数据认定小智空比过去更愿意冒险了。
但是研究团队不知道的情况是:过去智空与老和尚同住,半年前智空奉命下山化斋;临行前老和尚交代智空,山下的女人是老虎、遇到了快躲开。
在这个故事里,由于老和尚的叮嘱,智空眼里老虎的标准变了。
换句话说,同样是老虎数据,半年前老虎观测数量的生成机制,和半年后该数据的生成机制是不同的。
要命的是,研究团队对此并不知情。
现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。
以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。
为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。
这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。
这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。
第二,数据收集过程的性质发生了变化。
大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。
在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。
这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。
(三) 陷阱三:看不见的动机算法演化问题中,数据生成者的行为变化是无意识的,他们只是被页面引导,点出一个个链接。