大数据往往也会造成大错误么
大数据应用中的问题和优化方案

大数据应用中的问题和优化方案一、引言随着信息技术的发展,大数据已经成为当前社会和经济发展的主要驱动力之一。
然而,在大数据应用过程中,也会面临一些问题和挑战。
本文将探讨大数据应用中的问题,并提出相应的优化方案。
二、大数据应用中的问题1. 数据安全性:在大数据应用过程中,数据被广泛收集、存储和分析。
然而,由于涉及个人隐私和商业机密等敏感信息,数据安全性成为一个重要挑战。
黑客攻击、恶意软件以及内部人员泄露等风险时刻存在,对于大数据平台来说保证数据的安全非常重要。
2. 数据质量:大数据平台收集到的海量数据往往包含了各种噪音、错误和不完整信息。
这些低质量的数据会对分析结果产生负面影响,并降低决策的准确性。
因此,如何确保数据质量成为一个关键问题。
3. 大规模计算:由于大规模数据集需要进行复杂且高效率的计算与处理,传统计算硬件与软件系统往往表现出明显瓶颈。
大数据处理过程中的计算速度和资源管理问题需要通过优化方案来解决。
4. 数据隐私保护:随着大数据应用的深入,个人及企业数据日益暴露在公共视野之下。
对于用户隐私数据的保护成为一个亟待解决的问题,政府与企业需要制定相应法规并提供可行的技术手段来保护个人和商业机构的数据安全。
5. 决策支持能力:大数据分析旨在帮助决策者做出更明智的决策。
然而,由于数据量庞大且多样化,如何从海量数据中提取关键信息、洞察趋势,并为决策者提供实时准确的结果成为一个挑战。
三、大数据应用中的优化方案1. 数据加密和权限管理:采用强大的加密技术,确保敏感数据在传输和存储过程中得到有效保护。
同时,建立严格权限管理机制,限制不同用户对敏感信息的访问权限,以减少潜在风险。
2. 数据清洗与预处理:通过清洗、去重、纠错等操作,排除低质量的数据,并完善各项指标。
此外,可应用机器学习和数据挖掘技术,自动化地识别并修复低质量数据。
3. 分布式计算与存储:采用分布式计算与存储系统,充分利用集群架构的优势,提高大数据处理的效率。
大数据认识误区的案例

大数据认识误区的案例大数据作为一种新兴的技术和方法,正在广泛应用于各个领域。
然而,由于对大数据的认识存在一些误区,导致了一些错误的决策和做法。
下面列举了十个大数据认识误区的案例。
一、数据越多越好很多人认为,数据越多越好,可以得到更准确的结果。
然而,过多的数据可能会导致维度灾难和信息超载的问题,增加了分析的复杂性和计算的成本。
二、大数据等于数据分析有些人认为,拥有大量的数据就可以进行数据分析。
然而,大数据只是数据分析的一部分,还需要结合合适的算法和模型来进行分析和挖掘。
三、数据的价值在于数量很多人认为,数据的价值主要在于数量,即数据越多越有价值。
然而,数据的价值主要在于质量,即数据的准确性、完整性和可信度等。
四、数据分析是一种技术活有些人认为,数据分析是一种高深的技术活,只有专业人士才能进行。
然而,随着大数据分析工具的普及和简化,越来越多的人可以进行数据分析。
五、数据分析只适用于大企业有些人认为,数据分析只适用于大企业,对于中小企业来说并不重要。
然而,数据分析对于所有企业来说都是重要的,可以帮助企业提高效率和竞争力。
六、数据分析只能解决业务问题有些人认为,数据分析只能解决业务问题,对于其他领域没有作用。
然而,数据分析可以应用于各个领域,包括医疗、金融、教育等,可以帮助解决各种问题。
七、数据分析只能用于预测有些人认为,数据分析只能用于预测,不能用于其他方面。
然而,数据分析可以用于预测、分类、聚类、关联等多种分析任务。
八、数据分析需要大量的计算资源有些人认为,进行数据分析需要大量的计算资源,只有拥有强大的计算机才能进行。
然而,随着云计算和分布式计算的发展,可以在云平台上进行数据分析,无需拥有强大的计算机。
九、数据分析只能处理结构化数据有些人认为,数据分析只能处理结构化数据,对于非结构化数据无能为力。
然而,随着文本挖掘和图像分析等技术的发展,数据分析可以处理各种类型的数据。
十、数据分析是一种黑盒操作有些人认为,数据分析是一种黑盒操作,不知道其中的原理和过程。
大数据的陷阱

大数据的陷阱在当今数字化的时代,大数据无疑是一个热门的话题。
它被广泛应用于各个领域,从商业营销到医疗保健,从金融服务到社交媒体。
大数据似乎拥有神奇的力量,能够帮助我们做出更明智的决策,发现隐藏的模式和趋势,甚至预测未来。
然而,在我们对大数据的热情拥抱中,却往往容易忽视其背后隐藏的陷阱。
首先,大数据的质量问题是一个不容忽视的陷阱。
大量的数据并不总是意味着高质量的数据。
数据可能存在错误、缺失、重复或者不准确的情况。
比如,在医疗领域,患者的病历数据可能因为人为输入错误或者不同医疗机构之间的数据格式不一致而出现偏差。
这些质量不佳的数据如果被用于分析和决策,很可能会导致错误的结论和不良的后果。
其次,大数据的隐私问题是一个令人担忧的陷阱。
随着数据的收集和分析越来越广泛,个人的隐私受到了前所未有的威胁。
我们的购物习惯、浏览历史、社交关系等大量个人信息被收集和分析,而这些信息的使用往往超出了我们的预期和控制。
例如,一些公司可能会根据我们的在线行为来推送个性化的广告,甚至将这些数据出售给第三方。
这种对个人隐私的侵犯不仅会让我们感到不安,还可能导致更严重的后果,如身份盗窃、欺诈等。
再者,大数据的分析和解读也存在陷阱。
尽管大数据分析工具越来越先进,但它们仍然依赖于人类的设计和操作。
分析人员的偏见、错误的假设或者不合适的分析方法都可能导致对数据的错误解读。
而且,大数据往往只能揭示相关性,而不能确定因果关系。
例如,我们可能发现购买某种商品的消费者往往也会购买另一种商品,但这并不意味着前者导致了后者的购买行为,可能只是一种巧合或者受到其他未知因素的影响。
另外,大数据还可能导致决策的过度依赖。
当我们拥有大量的数据时,很容易陷入一种“数据崇拜”的误区,认为数据可以解决一切问题,从而忽视了人类的直觉、经验和判断力。
然而,在某些情况下,特别是在面对复杂的、不确定的情况时,人类的智慧和判断力仍然是不可替代的。
此外,大数据的应用还可能加剧社会的不平等。
大数据的局限性

大数据的局限性在当今数字化的时代,大数据无疑是一个热门话题。
它似乎拥有着神奇的力量,能够为企业决策提供依据,帮助政府制定政策,甚至改变我们的日常生活。
然而,就像任何事物都有两面性一样,大数据也并非是完美无缺的,它存在着诸多的局限性。
首先,大数据面临着数据质量的问题。
尽管我们拥有海量的数据,但其中很多数据可能是不准确、不完整或者过时的。
比如说,在医疗领域,患者的病历数据可能因为人为输入错误或者系统故障而出现偏差。
在电商领域,商品的评价数据可能受到刷单等不正当行为的影响,从而失去真实性。
这些低质量的数据如果被用于分析和决策,很可能会导致错误的结论和决策。
其次,大数据存在着隐私和安全的隐患。
随着数据收集和存储的规模不断扩大,个人隐私受到侵犯的风险也日益增加。
我们的购物记录、浏览历史、位置信息等都可能被收集和分析,而这些数据一旦泄露,可能会给个人带来极大的困扰和损失。
此外,大数据也成为了黑客攻击的目标,企业和政府的大量敏感数据面临着被窃取和篡改的威胁。
再者,大数据的分析结果可能会产生误导。
由于大数据的复杂性和多样性,分析过程中可能会忽略一些重要的因素,或者过度强调某些表面上的关联。
例如,通过大数据分析发现,某个地区的冰淇淋销量和犯罪率之间存在正相关关系,但这并不意味着吃冰淇淋会导致犯罪,很可能只是存在其他未被考虑到的共同影响因素。
另外,大数据还存在着样本偏差的问题。
我们所收集到的数据往往只是整个群体的一部分,而这部分数据可能并不能代表全体。
比如,在社交媒体上进行的民意调查,可能更多地反映了活跃用户的观点,而忽略了那些不常使用社交媒体的人群的意见。
而且,大数据在处理非结构化数据方面也存在困难。
虽然技术在不断进步,但对于图像、音频、视频等非结构化数据的分析和理解仍然面临挑战。
这些数据中蕴含着丰富的信息,但要将其有效地转化为有价值的洞察并非易事。
此外,大数据的应用还可能导致伦理问题。
例如,在招聘过程中,如果仅仅依靠大数据来筛选候选人,可能会因为算法的偏见而排除一些有潜力的求职者,从而造成不公平。
大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱在当今信息时代,大数据的崛起使得数据分析成为了各个行业中不可或缺的一环。
作为一名大数据分析师,正确地进行数据分析对于决策者来说至关重要。
然而,在数据分析的过程中,常常会出现一些错误和陷阱,可能导致分析结果不准确或误导决策。
本文将探讨大数据分析师在数据分析过程中常见的错误和陷阱,并提出相应的解决方法。
一、数据采集阶段的错误和陷阱在数据分析的第一步中,数据采集是至关重要的一环。
然而,很多分析师在数据采集阶段会出现以下错误和陷阱:1. 数据的不完整性:在采集数据时,很容易忽视一些数据源或遗漏了重要的数据点,导致分析结果不完整。
解决这个问题的方法是,明确分析目标,确保涵盖了所有相关的数据源,并进行全面的数据采集。
2. 数据的不准确性:数据的准确性是数据分析的基础,但是由于数据源本身可能存在问题,例如数据输入错误、采集设备故障等,导致数据的准确性受到威胁。
为了解决这个问题,分析师需要在数据采集阶段进行数据验证和清洗,确保数据的准确性。
3. 数据偏差的影响:在数据采集过程中,数据偏差是一个不容忽视的问题。
例如,在调查问卷中,回答者可能存在回避某些问题或者给出不真实的答案,导致数据的偏差。
解决这个问题的方法是,采用合理的调查问卷设计,加强问卷回答者的信任感,尽量减少数据偏差的发生。
二、数据清洗阶段的错误和陷阱在数据采集之后,数据清洗是必不可少的一步。
然而,在数据清洗阶段,常常会出现以下错误和陷阱:1. 缺失值的处理不当:在数据清洗中,缺失值是一个常见的问题。
分析师需要注意对缺失值进行合理的处理,而不是将其简单地删除或用平均值填充。
根据实际情况选择合适的处理方法,以保证数据的准确性。
2. 异常值的处理错误:异常值的存在会对数据分析结果产生重要影响。
在处理异常值时,分析师需要根据分析目标和数据的特点,选择合适的方法进行处理。
需要注意的是,过度处理异常值可能会导致数据的失真,因此需要谨慎处理。
大数据分析师的工作中常见问题及解决方法

大数据分析师的工作中常见问题及解决方法在如今信息爆炸的时代,大数据分析师的工作显得尤为重要。
他们从庞杂的数据中提取有价值的信息,为企业决策提供依据。
然而,在大数据分析师的日常工作中,也会遇到一些常见问题。
本文将介绍一些常见问题,并提供解决方法。
一、数据质量问题1. 数据清洗困难:大数据源数以万计,但其中往往存在错误、缺失等问题,数据质量对分析结果的准确性至关重要。
解决方法:首先,建立一套完整的数据验证和清洗流程,包括去除重复数据、修复错误数据等。
其次,利用数据挖掘算法发现和修复数据异常,确保数据质量。
2. 数据分析意义不明确:数据分析必须服务于业务目标,但常常存在数据分析的具体意义不明确的问题。
解决方法:在进行数据分析前,与业务团队进行深入沟通,明确分析目标和预期结果。
根据业务需求,制定明确的指标和评估标准,确保分析结果与业务目标一致。
二、数据处理问题1. 数据处理时间长:大数据量需要通过分布式计算才能处理,而这往往需要较长的时间。
解决方法:利用并行计算、分布式处理等技术来提升数据处理速度。
使用高效的数据处理工具和算法,尽量减少不必要的计算负担,提高数据处理效率。
2. 数据存储与管理:海量数据的存储和管理是大数据分析的基础,但也存在一些问题,如存储成本高、数据安全等。
解决方法:选择合适的存储方案,如云存储、分布式文件系统等,根据数据类型和需求灵活设置数据存储策略。
同时,加强数据安全管理,采用数据加密、访问控制等手段保护数据安全。
三、模型选择和优化问题1. 模型选择困难:大数据分析中有很多模型可供选择,但如何选择最适合的模型常常成为问题。
解决方法:根据数据特点、分析目标和业务需求,综合评估各类模型的优缺点,选择适合的模型。
可以基于交叉验证、模型评估指标等方法进行模型选择和比较。
2. 模型优化挑战:对于复杂的大数据模型,模型优化和参数调整往往存在困难。
解决方法:通过对模型进行分析,找出性能瓶颈和关键参数,利用优化算法对模型进行调整和改进。
大数据轨迹分析有误

大数据轨迹分析有误1、分析目标不明确“海量的数据其实并不能产生海量的财富”,许多数据分析人员由于没有制定清晰的分析目标,常常在海量数据中混乱,要么是收集了错误的数据,要么收集的数据不够完整,这会导致数据分析的结果不够准确。
但如果一开始就锁定了目标,你究竟要分析什么?再以结果为导向去思考,你就会知道需要用什么样的数据去支撑你的分析?从而确定数据的来源、收集方式以及分析指标。
2.收集数据时产生误差当我们捕获数据的软件或硬件出错时,就会出现一定的误差。
例如,使用日志与服务器不同步,则可能丢失移动应用程序上的用户行为信息。
同样,如果我们使用像麦克风这样的硬件传感器,我们的录音可能会捕捉到背景噪音或其他电信号的干扰。
3.样本缺乏代表性在进行数据分析时,一定要有可信的数据样本,这是确保数据分析结果靠不靠谱的关键,如果数据样本不具代表性,终分析的结果也就没有价值。
因此,对于数据样本,也要求完整和全面,用单一的、不具代表性的数据来代替全部数据进行分析,这种片面的数据得到的分析结果有可能完全是错误的。
例如,Twitter的用户可能受到更高教育且收入更高,其年龄也会偏大一些。
如果用这种有偏的样本来预测目标观众是年轻人的电影票房,份析结论可能就不会合理了。
所以确保你得到的样本数据代表了研究总体。
否则,你的分析结论就缺乏坚实的基础。
4、相关关系和因果关系混乱大部分的数据分析人员在处理大数据时假设相关关系直接影响因果关系。
使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定。
要想实现数据分析的好效果,必须理解相关关系和因果关系两者的根本区别。
相关关系往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。
在数据分析中,这是两个完全不同的事情,但是许多数据分析人员往往忽视了它们的区别。
“数据科学中相关关系不是因果关系”。
如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。
大数据时代数据质量存在何种挑战

大数据时代数据质量存在何种挑战随着大数据时代的到来,数据质量成为了一个重要的议题。
大数据的应用范围广泛,从商业决策到科学研究,都需要依赖高质量的数据。
然而,由于数据量庞大、数据来源多样化以及数据处理过程中的各种问题,大数据时代面临着许多数据质量挑战。
本文将详细讨论大数据时代数据质量所面临的主要挑战。
1. 数据准确性挑战:大数据时代的数据量庞大,其中可能存在大量的错误数据。
这些错误数据可能是由于数据输入错误、传感器故障、数据传输错误等原因引起的。
数据准确性的挑战在于如何在海量数据中准确地识别和纠正错误数据,以确保数据的可靠性和准确性。
2. 数据完整性挑战:大数据往往由多个来源的数据组成,这些数据可能以不同的格式、结构和粒度存在。
在数据整合和处理过程中,可能会出现数据缺失、重复、冗余等问题,从而影响数据的完整性。
如何有效地处理和清洗数据,以保证数据的完整性成为了一个重要的挑战。
3. 数据一致性挑战:大数据时代的数据可能来自于不同的系统、部门或组织,这些数据可能存在着不一致的问题。
例如,同一个实体在不同系统中可能有不同的标识符或命名方式,导致数据无法进行有效的整合和分析。
解决数据一致性问题需要建立统一的数据标准和规范,以确保数据在不同系统之间的一致性和可比性。
4. 数据可信度挑战:大数据时代的数据来源多样,其中包括传感器数据、社交媒体数据、用户生成内容等。
这些数据的可信度不同,有些数据可能存在虚假、误导性或欺骗性的问题。
如何评估和提高数据的可信度,成为了一个关键的挑战。
这包括建立数据验证和验证机制,以及使用数据质量评估模型来评估数据的可信度。
5. 数据安全性挑战:大数据时代的数据存储和传输面临着安全的威胁。
数据泄露、数据被篡改或数据被未经授权的访问是大数据安全性的主要挑战。
保护数据的安全性需要使用加密技术、访问控制机制和安全审计等手段来确保数据的机密性、完整性和可用性。
6. 数据隐私挑战:大数据时代的数据往往包含着个人隐私信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据往往也会造成大错误么△Smart-Plant大数据应用大数据是对于大规模现象的一种模糊的表达。
这一术语如今已经被企业家、科学家、政府和媒体炒得过热。
五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。
该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。
他们的追踪速度甚至比疾控中心(CDC)要快的多。
谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。
谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
“谷歌流感趋势”不仅快捷、准确、成本低廉,而且没有使用什么理论。
谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如”流感症状“或者”我身边的药店“)跟感冒传染有相关性。
他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。
谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。
兴奋的媒体记者们不停的在问,谷歌给我们带来了什么新的科技?在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。
一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。
然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。
谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。
这类数据集甚至比对撞机的数据规模还要大(例如facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。
它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。
我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。
因此我们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。
大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证:数据分析可以生成惊人准确的结果;▪因为每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;▪不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;▪不再需要科学的或者统计的模型,”理论被终结了”。
《连线》杂志2008年的一篇文章里豪情万丈的写到:“数据已经大到可以自己说出结论了“。
不幸的是,说的好听一些,上述信条都是极端乐观和过于简化了。
如果说的难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者——译者注)David Spiegelhalter评论的那样,这四条都是“彻头彻尾的胡说八道”。
在谷歌、facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。
爱德华.斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。
咨询师敦促数据小白们赶紧理解大数据的潜力。
麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。
虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。
Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。
这些问题不会随着数据量的增大而消失,它们只会更加突出。
”在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。
这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。
然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。
问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。
谷歌的工程师们没有试图去搞清楚关联背后的原因。
他们只是在数据中找到了一些统计特征。
他们更关注相关性本身而不是相关的原因。
这种做法在大数据分析中很常见。
要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。
而发现两件事物之间的相关性则要简单和快速的多。
就像Viktor Mayer-Schönb erger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。
”这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。
如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。
谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。
还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。
这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。
谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。
这当然是正确的做法。
能够有更多的机会让我们简捷的采集和处理大规模的数据,这当然有一百个理由让人兴奋。
然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。
统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。
如今数据的规模更大了,更新更快了,采集的成本也更低了。
但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。
在1936年,民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林.罗斯福——译者注)竞选下届总统。
《读者文摘》这家颇有声望的杂志承担了选情预测的任务。
当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。
可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。
8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。
所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。
”最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。
然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。
让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小的多的问卷,得出了准确得多的预测结果。
Gallup预计Roosevelt将稳操胜券。
显然,Gallup先生有他独到的办法。
而从数据的角度来看,规模并不能决定一切。
观点调查是基于对投票人的的大范围采样。
这意味着调查者需要处理两个难题:样本误差和样本偏差。
样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。
而误差的幅度,则会随着样本数量的增加而减小。
对于大部分的调查来说,1000次的访谈已经是足够大的样本了。
而据报道Gallup先生总共进行了3000次的访谈。
就算3000次的访谈已经很好了,那240万次不是会更好吗?答案是否定的。
样本误差有个更为危险的朋友:样本偏差。
样本误差是指一个随机选择的样本可能无法代表所有其他的人;而样本偏差则意味着这个样本可能根本就不是随机选择的。
George Gallup费了很大气力去寻找一个没有偏差的样本集合,因为他知道这远比增加样本数量要重要的多。
而《读者文摘》为了寻求一个更大的数据集,结果中了偏差样本的圈套。
他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。
在1936年那个时代,这个样本群体是偏富裕阶层的。
而且Landon 的支持者似乎更乐于寄回问卷结果,这使得错误更进了一步。
这两种偏差的结合,决定了《文摘》调查的失败。
Gallup每访谈一个人,《文摘》对应的就能收到800份回执。
如此大规模而精确的调查最终却得出一个错误的结果,这的确让人难堪不已。
如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。
现实数据的集合是如此混乱,很难找出来这里面是否存在样本偏差。
而且由于数据量这么大,一些分析者们似乎认定采样相关的问题已经不需要考虑了。
而事实上,问题依然存在。
《大数据》这本书的联合作者,牛津大学互联网中心的Viktor Mayer-Schönberger教授,曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”,在这里不再需要采样,因为我们有整个人群的数据。
就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。
当“N=所有”的时候确实不再有采样偏差的问题,因为采样已经包含了所有人。
但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗?恐怕不是。
“我不相信有人可以获得所有的数据”,Patrick Wolfe说,他是伦敦大学学院的一名计算机学家和统计学教授。
推特(Twitter)就是一个例子。
理论上说你可以存储和分析推特上的每一条记录,然用后来推导出公共情绪方面的一些结论(实际上,大多数的研究者使用的都是推特提供的一个名为“消防水龙带”的数据子集)。
然而即使我们可以读取所有的推特记录,推特的用户本身也并不能代表世界上的所有人。
(根据Pew互联网研究项目的结果,在2013年,美国的推特中年轻的,居住在大城市或者城镇的,黑色皮肤的用户比例偏高)我们必须要搞清楚数据中漏掉了哪些人和哪些事,尤其当我们面对的是一堆混乱的现实数据的时候。
Kaiser Fung是一名数据分析师和《数字感知》这本书的作者,他提醒人们不要简单的假定自己掌握了所有有关的数据:“N=所有常常是对数据的一种假设,而不是现实”。
在波士顿有一款智能手机应用叫做“颠簸的街道”,这个应用利用手机里的加速度感应器来检查出街道上的坑洼,而有了这个应用市政工人就可以不用再去巡查道路了。
波士顿的市民们下载这个应用以后,只要在城市里开着车,他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。
几年前还看起来不可思议的事情,就这样通过技术的发展,以信息穷举的方式得以漂亮的解决。
波士顿市政府因此骄傲的宣布,“大数据为这座城市提供了实时的信息,帮助我们解决问题并做出长期的投资计划”。