大数据的十大局限

合集下载

大数据的利与弊

大数据的利与弊

大数据的利与弊大数据(Big Data)是指规模巨大、复杂度高且多样化的数据集合。

随着科技的发展,大数据的应用越来越广泛,对社会经济、科学研究等领域产生了深远的影响。

然而,大数据也存在一些利与弊,下面将详细介绍。

一、大数据的利1. 提供更准确的决策依据:大数据分析可以从庞大的数据中提取有价值的信息,匡助企业、政府等做出更准确的决策。

例如,通过分析消费者的购买行为和偏好,企业可以调整产品策略,提高销售额。

2. 促进经济发展:大数据技术的应用可以带动相关产业的发展,创造就业机会,提升经济效益。

例如,电商平台通过大数据分析用户行为,为商家提供精准的广告投放服务,推动了电商行业的快速发展。

3. 改善公共服务:大数据分析可以匡助政府更好地了解民众需求,提供更精准的公共服务。

例如,通过分析交通流量数据,政府可以优化交通规划,减少拥堵问题。

4. 促进科学研究:大数据分析可以匡助科学家发现新的规律和趋势,推动科学研究的发展。

例如,在医学领域,大数据分析可以匡助研究人员发现新的疾病风险因素,提高疾病的预防和治疗水平。

二、大数据的弊1. 隐私问题:大数据的应用需要采集大量的个人信息,可能会侵犯用户的隐私权。

例如,一些社交媒体平台可能会采集用户的个人信息,用于精准广告投放,但用户对此并不知情。

2. 数据安全风险:大数据的存储和传输需要强大的技术支持,但也存在数据泄露和黑客攻击的风险。

一旦大数据被非法获取,可能会导致个人隐私泄露、经济损失等问题。

3. 数据质量问题:大数据集合中可能存在大量的噪声数据和错误数据,这些数据可能会对分析结果产生误导。

因此,在进行大数据分析时,需要对数据进行清洗和整理,提高数据质量。

4. 不平等问题:大数据的应用可能会加剧社会的不平等现象。

例如,一些企业通过大数据分析用户行为,可以进行精准的定价和营销,但这也可能导致不同群体之间的价格差异。

三、结论大数据的利与弊是相辅相成的,我们不能只看到其带来的好处,也不能忽视其可能带来的问题。

大数据技术的优缺点及其应用场景

大数据技术的优缺点及其应用场景

大数据技术的优缺点及其应用场景随着互联网的快速发展,数据已成为我们生活中不可或缺的一部分。

而大数据技术的出现,进一步推动了数据处理和应用的发展。

在这篇文章中,我们将会探讨大数据技术的优缺点及其应用场景。

一、大数据技术的优点1. 高效性大数据技术可以快速、高效地处理大量数据。

无论数据量有多大,大数据技术都可以轻松胜任。

2. 精准性通过大数据技术,我们可以获取更准确的数据。

数据是基于真实的、实时的情况所得出的结论,而不仅仅是基于假设、推测、预测。

这个优点为我们的商业和决策制定带来了极大的革新。

3. 实时性大数据技术也可以实现数据的实时收集、分析和处理。

这对于那些需要及时做出决策的企业和政府部门来说非常重要。

4. 开放性大数据技术的开放性为不同平台、系统和数据源之间的交流和共享提供了便利。

这种开放性为企业提供了更多的选择和灵活性。

二、大数据技术的缺点1. 隐私问题处理大量数据涉及到隐私问题。

处理的数据可能包含个人信息,因此任何数据处理都必须确保隐私安全。

2. 偏见大数据可能会产生偏见,并导致误导性的结论。

因此,数据处理的评估和分析需要更多的精度和细致性。

3. 成本问题大数据技术需要巨大的投资来获得合适的硬件和软件。

大数据技术对于中小型企业来说可能是不可承受的。

三、大数据技术的应用场景1. 金融领域金融领域一直是数据分析的热点,大数据技术可以帮助金融机构优化风险控制、投资决策、交易处理等方面。

大数据技术可以实时监测客户的投资行为,判断客户的风险承受能力,并为客户提供个性化的理财方案。

2. 智慧城市城市的发展需要扎实的数据支持。

大数据技术可以从城市智能交通、智能建筑、人员流动、环境污染等诸多方面收集数据,改善城市的运转和管理,让城市成为更加智能和高效的。

3. 医疗行业大数据技术对于医学研究和医疗管理都有很多应用。

通过大数据的分析,医生可以更精准的进行疾病诊断和治疗,同时政府可以通过大数据来统计国民健康状况,为医疗政策调整提供参考。

大数据的利与弊

大数据的利与弊

大数据的利与弊标题:大数据的利与弊引言概述:随着信息技术的飞速发展,大数据已经成为当今社会的热门话题。

大数据的应用给我们带来了许多便利和机遇,但同时也带来了一些负面影响。

本文将从不同角度探讨大数据的利与弊。

一、大数据的利1.1 提高决策效率大数据可以帮助企业和政府更准确地了解市场需求和社会状况,从而更快地做出决策。

1.2 促进创新发展大数据可以帮助企业发现新的商机和创新点,推动产业升级和经济发展。

1.3 提升用户体验通过分析大数据,企业可以更好地了解用户需求,提供更个性化的服务,提升用户体验。

二、大数据的弊2.1 隐私泄露风险大数据的收集和分析过程可能会侵犯用户的隐私,导致个人信息泄露。

2.2 数据安全隐患大数据的存储和传输过程存在被黑客攻击的风险,一旦数据泄露将对个人和企业造成重大损失。

2.3 数据滥用一些企业和政府可能会利用大数据来监控和操纵用户行为,对社会造成不利影响。

三、大数据的利与弊的平衡3.1 加强数据保护政府和企业应加强数据保护措施,保护用户隐私和数据安全。

3.2 完善法律法规制定相关法律法规,规范大数据的收集、使用和分享,维护数据安全和公平竞争。

3.3 提升数据伦理意识加强大数据从业者和用户的数据伦理教育,引导大家正确使用大数据,避免滥用和侵犯他人权益。

四、大数据的未来发展趋势4.1 人工智能与大数据的融合未来大数据将与人工智能、物联网等新技术融合,为社会带来更多创新应用。

4.2 数据治理与共享建立数据治理机制,促进数据共享和合作,推动大数据行业健康发展。

4.3 数据伦理与社会责任大数据从业者应当增强数据伦理意识,承担社会责任,引领行业发展。

五、结论大数据既是一把双刃剑,既有利也有弊。

在充分利用大数据的同时,我们也需要警惕其潜在风险,加强数据保护和伦理意识,共同推动大数据行业的健康发展,实现数据的合理利用和社会价值最大化。

大数据的局限性

大数据的局限性

大数据的局限性在当今数字化的时代,大数据无疑是一个热门话题。

它似乎拥有着神奇的力量,能够为企业决策提供依据,帮助政府制定政策,甚至改变我们的日常生活。

然而,就像任何事物都有两面性一样,大数据也并非是完美无缺的,它存在着诸多的局限性。

首先,大数据面临着数据质量的问题。

尽管我们拥有海量的数据,但其中很多数据可能是不准确、不完整或者过时的。

比如说,在医疗领域,患者的病历数据可能因为人为输入错误或者系统故障而出现偏差。

在电商领域,商品的评价数据可能受到刷单等不正当行为的影响,从而失去真实性。

这些低质量的数据如果被用于分析和决策,很可能会导致错误的结论和决策。

其次,大数据存在着隐私和安全的隐患。

随着数据收集和存储的规模不断扩大,个人隐私受到侵犯的风险也日益增加。

我们的购物记录、浏览历史、位置信息等都可能被收集和分析,而这些数据一旦泄露,可能会给个人带来极大的困扰和损失。

此外,大数据也成为了黑客攻击的目标,企业和政府的大量敏感数据面临着被窃取和篡改的威胁。

再者,大数据的分析结果可能会产生误导。

由于大数据的复杂性和多样性,分析过程中可能会忽略一些重要的因素,或者过度强调某些表面上的关联。

例如,通过大数据分析发现,某个地区的冰淇淋销量和犯罪率之间存在正相关关系,但这并不意味着吃冰淇淋会导致犯罪,很可能只是存在其他未被考虑到的共同影响因素。

另外,大数据还存在着样本偏差的问题。

我们所收集到的数据往往只是整个群体的一部分,而这部分数据可能并不能代表全体。

比如,在社交媒体上进行的民意调查,可能更多地反映了活跃用户的观点,而忽略了那些不常使用社交媒体的人群的意见。

而且,大数据在处理非结构化数据方面也存在困难。

虽然技术在不断进步,但对于图像、音频、视频等非结构化数据的分析和理解仍然面临挑战。

这些数据中蕴含着丰富的信息,但要将其有效地转化为有价值的洞察并非易事。

此外,大数据的应用还可能导致伦理问题。

例如,在招聘过程中,如果仅仅依靠大数据来筛选候选人,可能会因为算法的偏见而排除一些有潜力的求职者,从而造成不公平。

浅谈大数据的缺陷

浅谈大数据的缺陷

浅谈大数据的缺陷在当今数字化的时代,大数据无疑是一个热门话题。

它在众多领域展现出了强大的力量,为我们的生活和工作带来了诸多便利和创新。

然而,就像任何事物都有两面性一样,大数据也并非完美无缺,它存在着一些不容忽视的缺陷。

首先,大数据的质量问题是一个关键挑战。

在海量的数据中,不可避免地会存在错误、缺失和重复的数据。

这些不准确或不完整的数据可能会导致分析结果的偏差,从而影响决策的正确性。

例如,在医疗领域,如果患者的病历数据存在错误,可能会导致医生做出错误的诊断和治疗方案。

其次,大数据存在隐私泄露的风险。

随着数据收集和存储的规模不断扩大,个人的隐私信息越来越容易受到威胁。

我们的购物习惯、浏览记录、社交活动等都可能被收集和分析,而这些数据一旦落入不法分子手中,可能会被用于欺诈、骚扰甚至更严重的犯罪活动。

此外,一些公司或机构在数据保护方面的措施可能不够完善,导致数据被黑客攻击或意外泄露。

再者,大数据可能会导致偏见和歧视。

由于数据是基于过去的行为和模式生成的,如果这些数据本身存在偏见,那么分析结果也可能会延续这种偏见。

比如,在招聘过程中,如果基于大数据的算法对某些特定群体存在偏见,可能会导致这些群体在就业机会上受到不公平的对待。

另外,大数据的分析和解释也并非总是准确无误。

虽然大数据可以提供大量的信息,但如何从这些海量的数据中提取有价值的洞察,并进行正确的解释,是一个复杂的问题。

有时候,人们可能会过度依赖数据,而忽略了一些无法量化的因素,从而做出错误的判断。

大数据还可能引发信息过载的问题。

过多的数据可能会让人们感到困惑和不知所措,难以筛选出真正有用的信息。

在面对海量的数据时,人们可能会花费大量的时间和精力来处理和理解,反而降低了工作效率。

而且,大数据技术的发展可能会加剧数字鸿沟。

那些拥有先进技术和资源的企业和地区能够更好地利用大数据,从而获得更多的优势,而一些技术落后或资源匮乏的地区和群体则可能被进一步边缘化,导致贫富差距和社会不公平的加剧。

大数据的弊端研究报告总结

大数据的弊端研究报告总结

大数据的弊端研究报告总结
经过分析和研究,大数据的弊端主要有以下几个方面:
1. 隐私权问题:大数据分析需要收集大量的个人信息,可能导致个人隐私被泄露或滥用。

此外,个人数据的集中可能威胁到民众的权利和自由。

2. 数据安全风险:大数据的存储和处理需要强大的技术支持,但也意味着更多的安全风险。

数据泄露、黑客攻击和恶意软件等威胁可能导致数据损失和业务中断。

3. 权威性问题:大数据分析算法需要准确的数据作为基础,然而大数据的质量问题(如数据错误、重复、不完整等)可能导致结果不准确甚至错误,影响决策的准确性和公正性。

4. 社会不平等:大数据分析可能导致数据不平衡,因为只有少数人能够访问和控制大数据资源。

这可能会加剧社会中的不平等现象,导致社会资源的不公平分配。

5. 失业和失去人类智慧:大数据的自动化分析能够替代一些人类工作,从而导致失业问题。

另外,过分依赖大数据分析可能会忽视人类的主观判断和创造力,导致失去人类智慧的风险。

综上所述,大数据的弊端需要引起重视并采取措施加以解决。

同时,大数据的应用也需要平衡个人隐私保护和社会利益,以确保大数据能够为社会发展和个人生活带来更多的好处。

大数据的利与弊

大数据的利与弊

大数据的利与弊引言概述:随着信息技术的不断发展,大数据已经成为各行各业的热门话题。

大数据的利与弊一直是人们讨论的焦点。

本文将从不同角度探讨大数据的利与弊。

一、利:1.1 提升决策效率:大数据可以帮助企业快速分析海量数据,为决策者提供准确的信息,从而提升决策效率。

1.2 发现商机:通过大数据分析,企业可以发现潜在的商机和市场需求,帮助企业制定更具针对性的营销策略。

1.3 优化产品和服务:大数据分析可以帮助企业了解客户需求,优化产品和服务,提升客户满意度。

二、弊:2.1 隐私泄露:大数据收集的信息可能涉及个人隐私,一旦泄露将对个人造成损失,引发隐私保护问题。

2.2 数据安全:大数据的存储和传输需要高度保护,一旦数据泄露或被攻击,将对企业造成重大损失。

2.3 信息过载:大数据带来的信息量庞大,可能导致信息过载,使人们难以获取有效信息,增加决策的难度。

三、挑战:3.1 技术挑战:大数据处理需要强大的计算和存储能力,企业需要投入大量资金和人力资源来解决技术挑战。

3.2 人才挑战:大数据需要专业的数据分析师和科学家来进行数据挖掘和分析,企业面临人才短缺的挑战。

3.3 法律挑战:大数据的应用涉及到法律和道德问题,企业需要遵守相关法律法规,防止引发法律纠纷。

四、发展趋势:4.1 人工智能与大数据:人工智能技术的发展将进一步推动大数据的应用,实现更加智能化的数据分析和决策。

4.2 云计算与大数据:云计算技术的普及将为企业提供更加灵活和高效的大数据处理和存储方案。

4.3 数据安全与隐私保护:随着数据泄露事件的频发,数据安全和隐私保护将成为大数据发展的重点。

五、结论:综上所述,大数据的利与弊并存,企业在应用大数据时需要权衡利弊,加强技术研发和人才培养,同时注重数据安全和隐私保护,才能更好地利用大数据带来的机遇,应对挑战,实现可持续发展。

大数据行业的弱点和改进方案

大数据行业的弱点和改进方案

大数据行业的弱点和改进方案一、引言随着信息技术与互联网的快速发展,大数据已经成为当今世界经济中不可或缺的重要资源。

大数据的应用对企业业务增长、决策制定等方面带来了巨大优势。

然而,我们也必须认识到,大数据行业仍面临着一些弱点和挑战。

本文将探讨大数据行业的弱点以及如何改进这些问题。

二、弱点分析1. 数据质量尽管现在有大量的数据可供使用,但是其中很大一部分都缺乏准确性和完整性。

不同来源或不同系统之间的数据集成难题使得维护高质量数据成为一个挑战。

因此,在进行任何决策之前,准确地评估和清洗数据变得至关重要。

2. 隐私保护在大数据时代,个人隐私泄露和滥用已经成为令人担忧的问题。

由于个人信息广泛收集和使用,我们需要建立更加健全且透明的法律法规来保护个人隐私权益,并加强监管力度。

3. 缺乏标准化大数据行业缺乏统一的标准和规范。

不同公司和组织在数据处理、存储和共享方面使用的技术和工具各不相同,这给数据集成和互操作性带来了困难。

4. 技术挑战大数据所需的庞大计算能力和存储资源对计算机技术提出了很高要求。

尽管硬件设施不断升级,但是仍然需要更多创新来满足日益增长的处理需求。

三、改进方案1. 提高数据质量为了提高数据质量,我们需要全面评估数据来源,并建立正确的数据收集方法。

此外,引入自动化清洗和纠错算法有助于消除错误或重复的数据,并确保高质量的数据可供应用程序使用。

2. 加强隐私保护加强个人信息的隐私保护至关重要。

政府应制定并完善相关法律法规,明确个人信息的合法收集和使用范围,并惩罚侵犯个人隐私权益的行为。

同时,企业也应采取有效措施加强信息安全管理,包括使用加密技术、限制敏感信息访问等。

3. 建立标准和规范为了促进大数据行业的健康发展,需要制定一套统一的标准和规范。

这些标准和规范应该涵盖数据处理、共享、隐私保护等方面,以确保各个环节的互操作性和有序发展。

4. 技术创新大数据行业需要不断创新来满足不断增长的需求。

在硬件方面,可以提升计算能力和存储容量,并加强网络安全防护;在软件方面,可以研发更高效的算法和工具,提高数据处理和分析的速度和精度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的十大局限“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能。

这里面有认识上的原因,也有故意忽悠的成份。

笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。

在这里谈大数据的十大局限性,并非要否定其价值。

相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集、加工、应用,充分挖掘和发挥其价值。

1、数据噪声:与生俱来的不和谐大数据之所以为大数据,首先是因为其数据体量巨大。

然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。

随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。

这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。

2、真实性:不得不接受的虚假“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。

”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。

网络是大数据最重要的来源之一,而网络本身就充斥着大量的虚假信息。

例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。

这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。

除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。

就拿电信运营商来说,即便推行了实名制,数据质量与期望仍有相当差距。

可以预见,在相当长的时间内,即使最优秀的数据科学家、最先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。

3、代表性:永不可能的全样本迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。

笔者认为,这种观点是错误的。

大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。

然而,这两类数据的产生、收集都存在很大的盲区和局限性。

例如:很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。

撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。

喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,由带有明显倾向的小众来代表整个群体明显是错误的。

无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。

而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。

也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。

4、完整性:广度与深度的缺失大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。

这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。

举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,有着较好的信息广度,但其掌握的信息深度却不够。

运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等(信息广度充分),但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等(信息深度不足)。

很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。

在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画,信息广度和信息深度缺一不可。

从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据。

然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。

应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。

毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。

5、时效性:秒级价值存在任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。

不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价值,新数据则更具有个体应用价值。

大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往非常短。

用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。

美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。

短短的9分钟,基本反映了当前人类计算的最高水平,但这对于瞬间消失的生命来说还是太长了。

实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求。

数据处理上有一个著名的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。

这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。

6、解释性:不能没有因果关系对于舍恩伯格关于大数据的另一个核心观点,“不是因果关系,而是相关关系”,只需要了解是什么或未来会发生什么,而不是为什么和事情发生的内在原因,笔者同样不敢苟同。

相关关系仅代表着过去和个案,没有解释性,有时甚至是错误的,而且不能推而广之。

只有掌握了事物之间的因果关系、原因机制和科学原理,才能举一反三,迭代更新,持续推动社会进步。

这是很简单的道理,不必赘言。

关于相关性,一直为人津津乐道的便是啤酒与尿布的故事。

然而,沃尔玛商品品种成千上万,相关关系数十亿之多,我想类似的绝妙组合尚有不少,为什么再也难见?更何况,人们仍然对啤酒与尿布的相关关系进行了合理的因果逻辑解释。

试想,如果首先发现了这样的因果关系,再通过相关关系予以验证,是否可以发现更多的“啤酒和尿布”?大数据分析需要借助机器来完成,而机器从来就只能给出数据间的相关关系,而不能说明因果逻辑。

因果关系需要人的思考和判断,电脑现在没有、将来也不可能完全替代人脑。

玩笑一下,如此急迫地强调相关关系而不是因果关系,难道我们真的不需要脑子了吗?7、预测性:让过去决定未来大数据分析无论被赋予多么绚丽的光环,从根本上讲都只是对过去和现实的归纳和总结,其本身并不具有趋势和方向性的特征。

决定趋势的是事物发展的内在因素及相互作用,在此方面大数据无能为力,这是大数据的先天性缺陷之一。

舍恩伯格也坦言,与大数据同行是有一定风险的,大数据有可能会把我们锁定在以往的错误当中,使我们堕入让过去决定未来的陷阱。

现在有些基金公司推出大数据指数基金,期望通过大数据对股票行情进行准确的预测。

历史行情走势只是过去已经发生的影响股票市场的诸多因素共同作用的结果,以此来预测未来的市场根本不靠谱。

普林斯顿大学经济学教授伯顿·麦基尔早在1973年的畅销作品《漫步华尔街》中就指出,把一只猴子蒙上双眼后让它向报纸的金融版掷飞镖而选中的投资组合,和那些专家经过大量研究而谨慎选择的投资组合相比,盈利性可能一样好。

近几年甚至有研究者提出,麦基尔的这种看法低估了猴子(应该是高估了基金经理吧)。

2008年,好事的俄国人更是用实验证明了这一点。

俄罗斯《财经周刊》从马戏团找来一只猴子,让它从代表不同股票的牌子中选择8支进行模拟投资组合,并投入100万虚拟卢布。

一年后,当金融专家再次观察猴子所选股票的表现时不由大吃一惊,其市值上涨了近3倍,跑赢了94%的基金。

必须承认,我们处于一个不确定的世界里,有许多事件是无法预测的。

过分依赖大数据和预测模型是危险的,因为有许多决定性的影响因素都不能纳入模型参数的覆盖范围之内。

从天气预报、地震预测、足球比赛到金融危机等等,都对这一点做了很好的诠释。

8、误导性:数据也会说谎与大数据的代表性、真实性、完整性、解释性等局限性相关的,对统计现象只看结果不重解释,很可能导致错误甚至危险的结论。

二战时期英国与德国的空战中,工程师发现,每次战斗机回来机翼上都带有很多枪眼,因此认为机翼是最容易受到攻击的地方,需要进行特别防护。

可是增加防护之后,飞机的损失率不但没有降低,反而提高了。

问题究竟出在哪呢?原来工程师们被这一统计结果误导了,从而采取了错误地防护措施。

对机翼枪眼的统计只针对成功返航的飞机,而那些不幸的飞机被击落的原因并没有被统计和发现。

相反,机翼受损还能飞回来,说明机翼被攻击并不是飞机被击落的主要原因。

至于为什么增加防护后飞机损失率反而提高了,原因很简单,因为负荷增加降低了飞机的灵活性和航程。

后来,工程师们反其道而行之,在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,事实证明效果良好。

9、合法性:数据安全与隐私保护大数据本身及其采集、使用过程都极有可能会涉及个人隐私、商业机密、公众权益和国家信息安全。

因此,安全性和合法性问题构成了大数据价值发挥的限制性因素之一。

商业和技术很重要,但商业和技术背后的价值观更重要。

Google曾将"不作恶"作为自己的公司价值观;百度为了短期商业利益售卖多个贴吧,公然践踏公众隐私,结果遭千夫所指,万人唾骂。

这些都充分反映了公众对隐私和信息安全的关注和重视。

白宫曾在2014年发表书面声明称,大数据创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。

中国政府在此方面虽然尚未立法,也从来没有明确的说法,但民众的基本权益和诉求理当被审慎考虑。

诚然,安全性、合法性要求限制了大数据的使用和商业价值的充分发挥,但从社会价值的角度来看,是值得的,也是必须的。

10、价值性:投入与收益的平衡价值密度低是被公认的大数据特征之—,这也在一定程度上限制了大数据的研究和应用。

一方面,因为大数据的低密度价值特征,那么要使其价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取。

相关文档
最新文档