大数据时代对社会的影响与挑战

大数据时代对社会的影响与挑战
大数据时代对社会的影响与挑战

大数据时代面临机遇和挑战。

一、“大数据”概念的界定

(一)“大数据”概念的提出与发展

2008年9月4日,《自然》(Nature)刊登了一个名为“Big Data”的专辑,首次提出

大数据(Big Data)概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。[1]2011年5月,EMC(全球最大的外置存储硬盘供应商)举办了主题为“云计算相遇大数据”的大会;紧随其后,IBM、麦肯锡等众多国外机构发布了“大数据”的相关研究报告,2011年6月,麦肯锡全球研究所发布研究报告——《大数据的下一个前沿:创新、竞争和生产力》(Big Data: The Next Frontier for Innovation, Competition, and Productivity)[2],首次提出“大数据时代”来临。此后,联合国、世界经

济论坛也纷纷关注信息时代海量数据对社会经济发展所带来的冲击,2012年5月,联合国“全

球脉冲”(Global Pulse)计划发布《大数据开发:机遇与挑战》(Big Data for Development: Challenges & Opportunities)[3]报告,阐述了大数据带来的机遇、主要挑战和大数据应用。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国

际发展新的可能性》(Big Data, Big Impact: New Possibilities for International Development)[4]等系列报告。

奥巴马政府创造性地将“大数据”概念全面引入到公共行政领域。2009年,美国联邦政府

发布《开放政府指令》(The Open Government Directive),作为大数据的前奏推出了“https://www.360docs.net/doc/a16603706.html,”公共数据开放网站。2012年3月,美国联邦政府发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative)[5],正式启动了“大数据发展计划”,宣布将投入超

过2亿美元在大数据研究上[6];同年5月,联邦政府发布《数字政府战略》(Digital Government Strategy)[7],致力于为公众提供更好的“数字化”服务,围绕数据进行的一系列措施在美国政府全面推进,大数据对美国政府的影响逐步显现。

(二)大数据的概念

“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系,因此很难

进行精准的定义。维基百科将大数据定义为“所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”[8]。全球知名的咨询公司如麦肯锡、Gartner以及知名信息化企业如IBM等作为大数据的推崇者,更侧重于从技术层面界定大数据。2011-2013年,Gartner发布了多个与大数据有关的白皮书,如“Hype Cycle for Big Data, 2012”,定义了大数据的技术生命周期,报告中指出大数据不只是一项单一的技术,而是一个概念,一套技术。《互联网周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。[9]

⒈大数据的技术属性

大数据在诞生之初仅仅是一个IT行业内的技术术语,其主要的特征有:

海量化数据(Volume)——数据体量巨大及规模完整性。随着数据加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长,数据规模从TB级别跃升到PB级别。

多样化结构(Variety)——数据类型繁多。随着物联网、社交网络、智能终端等的普及和应用,网络日志、视频、图片等非结构化数据所占比例越来越大。

高速化处理(Velocity)——主要表现为数据流的处理速度快。数据规模的无限扩张既对高速化处理提出了新的要求,也为其带来了新的机遇,大数据的高速化处理要求具有时间敏感性和决策性的分析,要求能在第一时间抓住重要事件发生的信息。这一点也是大数据和传统的数据挖掘技术的本质区别所在。

低密度价值(Value)——体现出的是大数据运用的真实意义所在。数据规模大并不意味着价值高,相反,这些数据间更多地表现为稀缺性、不确定性和多样性。[10]

尽管对大数据难以明确定义,但大数据所具有的规模性(Volume)、多样性(Variety)和高速性(Velocity)特征被广泛地认同。在3V基础上,人们对大数据的第四特性有不同的看法,IDC认为大数据具有高价值性(Value),尽管这种价值更多地表现在低价值度的碎片化数据中,如何挖掘这种价值正是大数据的关键所在;IBM则认为大数据应该具有真实性(Veracity),真实性将促使人们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。[11]2014年,IBM发布了《践行大数据承诺:大数据项目的实施应用》(Realizing the Promise of Big Data: Implementing Big Data Projects)白皮书,在该报告中进一步扩展了大数据的特性,首次提出将大数据的特性由4V扩展为“Vs”。[12]“Vs”在大数据已有特性的基础上,增加了数据粘度(Viscosity),主要用来衡量数据流间的关联性(resistance to flow of data);数据易变性(Variability),主要衡量数据流的变化率;数据有效性(Volatility),主要表明数据有效性的期限和存储的期限时长。我们认为,未来随着大数据技术的发展成熟,以及人们对大数据应用的深入,大数据的“Vs”特性将会不断变化和拓展(参见表1)。

2.大数据的社会属性

任何事物都具有物理和社会两类属性特征。无论是最初的“4V”还是IBM修正后的“Vs”理论,我们认为它们都属于大数据的物理属性,是大数据所具有的区别于其他事物的特征,更多关注的是大数据的物理属性。这时的大数据被贴上的是“技术”标签。事实上,现在我们所谈到的大数据概念,其范畴已经远远超过了技术领域,而是被赋予了更丰富的社会属性。在看待大数据时,要建立全面、系统的大数据意识,要看到大数据在创造社会价值、变革行为方式等社会属性的“大”,而不仅仅只是其物理属性的“大”。

艾伯特·拉斯洛·巴拉巴西在《爆发:大数据时代预见未来的新思维》一书中指出,“大数据,更强的流动能力,社会化增强;每个人都是自媒体,个性化增强;更大范围的连接,网络化增强”;涂子沛在《大数据:正在到来的数据革命》一书中指出,“大数据时代是一个更开放的社会、一个权力更分散的社会、一个网状的大社会”。综合以上观点来看,我们认为,大数据只有与人发生了关系,展示了人类行为的规律性,才真正具有了意义。大数据应该具有它的社会属性,大数据社会属性是指大数据受社会影响所衍生出来的属性。

事实上,我们认为,大数据发展到今天,其内涵已经不仅仅局限于技术维度,而是在演变过程中概念和涵义不断扩展,进而形成了一个语义更加丰富、维度更加多元的综合性的概念,主要可以从以下几个方面理解:

大数据是一种技术。大数据中的数据量非常巨大,达到了PB级别,在这庞大的数据之中不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、音频、视频等数据)。这使得大数据的存储、管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往深藏其中。这就需要利用可视化分析、数据挖掘算法、预测性分析能力、语义引擎和数据质量管理(Data Quality Management)等技术对海量数据进行快速处理并获取有价值的信息,这个获取信息的过程就是大数据技术。

大数据是一种能力。大数据是一种寻找确切意思的能力,在大量数据当中寻找到背后隐藏的意义,发现事先未能想到的关系、有意思的联系的能力;大数据是一种能较准确判断事物发展趋势的能力,大数据通过对行为数据、物理数据等的分析,可以找出数据之间微妙的关联关系,然后利用这些关系找到事物发展的规律,进而预测未来;大数据是一种能带来创新的能力,大数据通过对数据的整合,将看似不相关的数据进行“重组”和分析,挖掘数据的潜在价值,进而实现数据创新,这种创新有可能带来产业的转型,也可能创新某种产品。

大数据是一种思维。大数据是一种以“开放共享”为核心价值观的思维方式,在大数据时代强调从信息公开到开放数据,从开放数据到开放数据接口,随着数据开放共享程度的提高,社会的开放共享程度也在提高。2014年4月24日,百度宣布开放全球首个大数据引擎,并向外界开放,为社会提供大数据存储、分析及挖掘的技术能力。

大数据是一个时代。大数据开启了一个以数据为基本元素的、以数据为战略资产的时代,在大数据时代掌握了数据就意味着拥有了核心竞争力。每个个体都是一个数据“源”,每个个体都可以发声,大数据时代让社会朝着更加个性化、民主化、自由化、开放化的方向发展。

(三)大数据的技术路线

从技术角度来说,大数据不是数据的简单罗列和堆积,而是需要对所收集的碎片化、多样化、价值度低的数据进行关联分析,如对政府部门业务数据库、政府网站浏览量,以及政务微博和微信等社交网络数据进行抽取集成后,利用数据挖掘、统计分析等分析工具找出可以预测事物发展的规律、可以对现象做出解释的原因,然后以可理解的、交互的方式展现给使用者,为用户提供决策分析支持(参见图1)。

二、大数据时代对政府治理的影响

在看待大数据时,要建立全面、系统的大数据意识,要看到大数据在创造社会价值、变革行为方式等社会属性的“大”,而不仅仅只是其物理属性的“大”。大数据时代,政府治理中更加关注的是大数据的社会属性,物理属性为政府治理提供了技术支撑,而社会属性却可能变革政府治理的模式,对于政府治理创新有着不可估量的作用。从技术层面来看,大数据时代社会信息化和政府信息化程度前所未有,物联网、云计算、数据整合、基于语义网的Web3.0、关联数据、信息发布等新技术的发展与普及,为政府治理实现“智能”化提供了技术支撑,将会从根本上改革政府的组织模式和政府形态,进而改变政府治理模式,影响整个政府存在的形态。从长远来看,大数据将会对政府治理范式、政府职能和政府自身管理等多个方面产生影响。

(一)对政府治理理念的影响

⒈开放的意识

“开放”是大数据时代最强音。无论是美国提出的“开放政府”战略,还是规模不断扩大的世界“开放联盟”组织,世界各国政府的开放意识在强化。开放意识的缺失,将使一个国家或政府在大数据时代处于“被淘汰”的境地。

⒉包容的心态

大数据时代,国家间的包容性增强,欧盟科学数据的开放战略志在打破体系内20多个国家的数据分界线,实现数据世界的一体化。美国与印度联合开发公共数据OGLP平台,希望可以将其免费、无条件地移植到世界各国或组织,国家边界模糊化;美国“We the People”的上线,政府利用“社交”方式为公民提供了合法的倾诉平台,可以更近距离地听到公众的声音,政府与公众之间的包容度增强。

⒊科学的态度

大数据时代,数据的颗粒度在变小,政府所能获得和提供的数据更加原始与真实,政府决策过程在科学技术的支撑下变得高效与可考证化,决策结果中不确定因素所带来的风险大大降低。科学思考成为一种习惯,经验分析不再主导。

⒋关联的思考

大数据时代,认识问题、分析问题、思考问题、解决问题,都需要进行“关联”,人的关联、物的关联、人与物的关联,历史时间的关联,地理位置空间的关联,多维度的关联。

⒌深度的分析

大数据时代,分析是深度的、实时的,大数据分析的是极端个人化的数据,这些个人信息以形态各异的形式分散在不同的时间段、不同的地理位置、不同的网站平台,大数据要做的就是不停地分析,深入挖掘这些看似不相关的数据,找出数据间可能存在的规律。

(二)对政府治理范式的影响

随着政府治理环境的改变,政府治理范式在不断发展创新。大数据被认为是继互联网革命之后又一次技术革命。技术是政府治理的要素之一,技术变革是政府治理现代化的重要推动力量。对于政府来说,技术变革既可以带来治理手段的创新,也可能推动治理机制的创新,最终变革政府治理范式。[13]

大数据时代要对数据进行治理,而非管理,避免出现数据的独享、集中和单向性,充分体现社会开放性、权力多中心和双向互动特性。一般认为,新公共管理自20世纪90年代末已经进入了后新公共管理时期,兴起了“治理”理论。在美国,对新公共管理进行批评并对它大有取代之势的是新公共服务,代表性人物罗伯特·登哈特甚至认为,新公共服务已经成为公共行政的一种模式。在英国,对新公共管理的批评发展起来的是整体性治理模式(holistic governance),其代表人物是佩里·希克斯和帕却克·登力维。[14]新加坡政府在其《新加坡电子政务总体规划(2011-2015)》(eGov2015)中提到了“整体政府转型”,整体政府转型的目的是为公众提供更加便捷的服务,核心是达到共享和协同。

除了已经发展较为成熟和体系化的新公共服务和整体性治理两大主流政府治理理论体系外,在信息技术飞速发展的影响下相继出现了数字化治理、网络化治理等提法。尽管各流派侧重点各有不同,但也存在一定的共性,“治理”理论的核心观点是主张通过合作、协商、伙伴关系,确定共同的目标等途径,实现对公共事务的管理,涉及的核心问题就是权力多中心化以及由此引发主体多元化、结构网络化、过程互动化和方式协调化的诉求。对比大数据的社会属性,发现其与“治理”理论在多中心、回应性、协同化等诸多方面不谋而合。因此,将大数据应用到政府治理中将加速政府治理的创新,可以产生“倍增”效应。

大数据时代的政府治理范式将在新公共管理、新公共服务、整体治理、数字化治理、网络化治理等多种治理模式的基础上,以“智能化”重新塑造政府治理模式。虽然这种想法尚不成熟,但我们认为:大数据创新政府治理的动力源于其“智能”治理,大数据将引领社会从信息时代、

知识时代向智能时代迈进。在智能时代,人与人之间的合作、任务之间的对接会更精确,要求政府治理实现“智能化”,以降低整个国家和社会的运行成本。在大数据时代,海量基础数据经过三次转化,政府治理实现“智能”化。首先,通过利用先进的数据技术对大量的政府业务数据和公众行为数据进行分析,实现无序数据向关联化、隐性数据向显性化、静态数据向动态化、海量数据向智能化的转化;然后,政府加大数据开放力度,形成新的产业进而创造利润,同时也可以利用数据加强绩效考评提升政府人员、政府组织和IT资产的效率,进而节省政府行政成本,提升政府竞争力;最后政府加深在网络反腐、舆情监控等公共领域对数据的应用,实现政府决策、政府管理由事后决策转变为事前预警,将数据转化为科学决策,提升政府决策力。如此,经过三次转化,政府把低价值度的数据转变成政府治理能力,实现“智能”治理。

(三)对政府社会管理的影响

⒈公共决策——趋于“社会化”

大数据对政府决策的影响,其核心在于运用大数据理念和意识创新决策机制,实现“数据驱动决策”,“引导政府前进的将是基于实证的事实,而不是意识形态,也不是利益集团在政府决策过程中施加的影响”。[15]诺贝尔经济学奖获得者赫伯特·西蒙提出决策者在决策过程中表现出有限理性而非纯理性的观点,当决策者试图理性地行动时受到获得信息和加工信息能力方面的限制。[16]显然,按照西蒙的理论,基础数据和信息是正确决策的重要依据,没有准确可靠的数据和信息作保障,就无法作出及时、正确的决策。

大数据时代,信息和加工信息能力方面的限制被最大程度地“最小化”了,物联网的广泛应用和智能终端的普及为信息决策提供了大量实时而精准的数据,云计算为海量数据存储提供了“场地”和平台,开源软件、商业智能等技术的成熟保证了对海量数据的处理能力。更为关键的是,社交网络快速发展所产生的社会行为数据使得政府决策“社会化”特征更加明显,社会行为数据的深度分析使得政府在决策治理机制上呈现出社会化创新趋势。

⒉社会参与——从“象征性”到“实质性”

根据美国学者阿尔斯泰因(S.R.Arnstein)的观点,公众参与可以分为三个层次:第一层次是假性参与或非参与,包括操纵性参与和教育性参与两种形式;第二层次是象征性参与,包括告知性参与、咨询性参与和限制性参与等形式;第三层次是实质性参与,有合作性参与、代表性参与、决策性参与等形式。公众的参与程度与参与层次呈正相关,随着参与层次的上升而逐渐加强(参见图2)。[17]目前,公众参与仍然以象征性参与为主,集中表现在政府网站以发布国家政策、领导活动等告知性政务信息为主,政府网站上的“建议征集”“网站调查”等更新不及时,公众参与反馈度不足,公众希望了解的涉及政府管理的敏感信息公开度不够,等等。

大数据时代,政府将以更加开放的心态把民众当作“合作伙伴”和城市问题的“决策者”,给民众提供广泛的参与机会,从而推动公众参与由象征性参与阶段迈向实质性参与阶段。

⑴增强公众社会参与的合法性

在大数据时代,社会成为一个社交平台,公众可以任意使用平台上的资源,同时可发表自己作为公民的意愿或建议。政府会主动或被动地听取公众的意愿或建议,公众的声音在社会响起。2011年9月,奥巴马曾作出承诺,启动一个全新的在线工具“We the People”项目,让美国人民能直接向白宫请愿,让政府可以听到他们的声音。“We the People”网页允许用户创建账户、登录、发起请愿并投票,当投票超过美国白宫设置的“阈值”,政府会对其“Petition”发表官方回复,同时还会将请愿书提交给制定政策的相关部门。截至2013年5月上旬,美国共对110个“Petition”作了官方回复(参见网址:https://https://www.360docs.net/doc/a16603706.html,/)。公众参与社会治理的合法性在一定程度上得到承认。

⑵拓展公众参与的渠道

基于Web3.0语义网技术,以“微博”等社交媒体为主的分布式信息发布技术为公众参与提供了实时互动的全新信息空间,导致了信息的海量递增和传播渠道的极度多元,加强了与公众的沟通。政府充分重视社交媒体和手机移动应用的功能,美国政府网站为公众搭建了政府与公众沟通的Web2.0平台,Facebook、Twitter等社交媒体成为公众表达意愿的最佳发言“场所”,政府服务被越来越多地“搬上”手机,APP应用的下载率和评级可以告诉政府公众需要什么。美国政府计划把“We the People”与社交媒体整合,并推出一个移动版本。

⑶激活公众的社会创造力

个人可以将数据转化为大众应用,提升公众在社会管理中的参与度,以美国纽约市为例,大数据时代,纽约市以更加开放的心态、更加有战略的意识和更加先进的技术,实现了政府治理模式的转型与创新。纽约市通过向公众开放数据“激活”大众创新,通过政府数据开放统一网站NYC Open Data,纽约市政府向公众大量开放政府部门的数据资源。目前,已经有60多个政府部门向公众开放了750多个数据库,任何人都可从网站上直接下载这些数据,这些数据格式是机器可读的。公众可利用来这些数据参政议政和监督政府,也能利用其提高生活品质和创造社会价值。纽约市的官员认为,开放政府数据还有助于提升投资者对城市的信心,从而能增加资本流入、带动经济发展促进就业(参见:https://https://www.360docs.net/doc/a16603706.html,)。依托于数据开放,从2009

年起,纽约市政府举办的纽约大苹果App竞赛(NYC BigApps),吸引了二十多万的人关注,有8万多人参与了“最佳APP”的投票活动(参见:https://www.360docs.net/doc/a16603706.html,)。过去三年,主办方共收到了238个应用,其中30多个获得了奖项。例如,“别在这里吃饭”(Don't Eat At)会在用户走进一家存在不良卫生记录的餐馆时,自动向其发送短信提醒。这些获奖者通过其APP

应用共吸引了600多万美元的投资。[18]

⒊社会危机治理——“去危机”化

所有危机的发生都不是偶然的,而是有着内在联系和必然性。在应对各种危机中,政府要做的是监测数据,找到规律,预警防范。大数据通过增强对现象发生小概率的关联与研究,可以有效减少社会危机发生的不确定性,增强风险预警能力,降低社会危机带来的危害。例如,美国联邦执法部门和情报机构在网上发布的信息征集启事显示,美国政府正在寻找一款能够分析社交媒体海量数据,并预测未来恐怖主义袭击和国外暴乱等重大事件的软件(参见https://www.360docs.net/doc/a16603706.html,/archives/24254.html)。

一般来说,社会危机主要包括经济风险、自然风险、公共健康风险(食品和药品安全)、技术风险(核泄露、疫情传播)和社会群体危机等几大类[19],利用大数据技术可以增强对经济风险、自然风险发生可能的预见性;可以有效追踪食品与药品从生产到流通的各个环节,将隐患消除在源头,同时,政府还可以通过对被召回的物品进行关联分析实现对企业、行业的有效监管;可以利用世界医疗、技术资源共享增强风险的可解决性。此外,公共危机发展态势越来越取决于公众的态度,通过对公众所关心的社会热点、微博等社交媒体的分析,可以较早地发现社会群体事件预兆,进而采取有效的解决策略。

例如,美国政府推出的“一站式”产品召回网站,就是利用大数据有效减少社会危机、增强风险预警能力的应用。为了便于公众查找召回产品信息以及对行业进行监管,美国国家公路交通安全管理局(NHTSA)、食品药品管理局(FDA)、海岸警卫队、农业部(USDA)、环保署等六个联邦政府部门联合不同管辖区共建了“一站式”产品召回网站(网址:https://www.360docs.net/doc/a16603706.html,/),向公众集中提供消费者产品、机动车、食物、药品、化妆品和环保产品等七大类产品的召回信息。在该网站中,公众可以查到最及时的召回信息,大到汽车、药品,小到汽车安全坐垫、超市猪肉质量等,同时公众也可以在该平台向有关部门提交不安全产品信息,形成查询、举报一体化平台。该网站的作用决不止于此,政府部门可以通过该网站浏览量监测到近期不合格产品出现的频度、领域等,近而加强对有关行业和企业的监管,最终实现联合执法和管理。

三、大数据时代政府治理面临的挑战

新生事物的发展和变迁,往往在给社会带来福音的同时,不可避免地也会伴随新问题的产生。大数据时代,政府在获得数据“红利”的同时,也将面临海量数据爆炸所带来的个人隐私、数据安全等技术难题,面临公共数据的有用性不足、公众参与的有效性不够、业务数据驱动力不足等所带来的深层次社会问题,如何有效应对这些问题将是大数据时代政府治理所面临的新挑战。

(一)公众参与的“悖论”

无序参与过度和创新参与无力是政府进入大数据时代面临的公众参与“悖论”。随着社交网络、移动互联网、智能终端等的普及成熟,公众表达诉求和参与社会公共治理的渠道更为多元、更加便捷,公众个人意愿和诉求的表达无限自由,“自由爆炸”导致社会无序“参与过度”。另外,公众利用海量数据开发新应用、创新新技术等实践少之又少,中国的公众创新无力与美国、新加坡等国通过公众参与提升社会创造力和创新力相比,有着极大的差距。政府如何引导公众增强创新参与并减少无序参与是大数据时代面临的一个挑战。

(二)数据治理的瓶颈

数据治理既是技术难题,也是管理难题,难题解决的根本却在于后者。一般来说,数据治理主要表现在对数据碎片、数据割据和数据孤岛三个方向的治理。从政府角度来看,政府部门所产生的资料多数为文本信息,有调查显示,虽然政府部门多年来积累了丰富的数据资产,但利用频率和效率低,这些文件即使以“电子化”手段保存,也只有散着的数据碎片,缺乏统一的标准使其“格式化”。电子政务经过多年的发展,虽然建成了大量纵横向业务系统,但建设时期、建设主体、业务领域等的不同导致业务数据标准格式不统一,系统异构、数据异构导致政府在数据治理过程中面临着数据割据。政府部门条形化、层级化衍生出数据保护主义,在数据时代有增无减,很可能由“信息孤岛”走向“数据孤岛”。

(三)可用数据匮乏的“尴尬”

在数据大爆炸的时代,政府、研究机构、企业和公众却总是存在着数据不足的感觉,想用的、能用的数据无处可寻,可用的、可信的数据极端匮乏,正是这种“优质”数据缺乏的现状影响制约着社会数据意识的形成、政府业务的应用和数据产业链的形成。因此,在大数据时代初期,将存在“无用”数据爆炸与“可用”数据短缺并存的现象,折射出的是制度尴尬——政府在数据战略、数据开放等方面的制度缺位。

(四)数据开放的权衡

大数据时代,数据开放程度不够首当其冲地成为政府面临的第一难题。政府数据作为国家核心资产,对社会经济、政治和安全都有着决定性作用,仅当季的CPI就可以对金融、建筑等多个行业带来较大影响。公共数据开放带来的震动是可以想像的。数据开放不是无条件的,政府要权衡数据开放和个人隐私保护、数据开放时间和开放程度、满足社会数据开放需要和保护国家安全等多个方面,然后找到均衡点。如何均衡各方的数据需求是大数据时代政府面临的一大挑战与难题。

(五)“被质疑”的政府公信力

大数据时代,社交网络的发展使得信息更难控制。政府信息引导的“正能量”让位于网络谣言的“负能量”,出现了经济学里所说的“劣币”驱逐“良币”现象,最根本的原因在于政府公信力“被质疑”了,这种质疑在社交媒体的助力下,呈现出“多米诺效应”,一个很小的与政府或社会有关的负面消息可以带来系列的连锁反应,进而造成不可想象的恐慌、灾难等负面影响。

(六)数据驱动力不足

政府接收的数据量之巨令人难以置信,掣肘于意识、制度和技术等多个原因,政府的海量数据多处于“休眠”状态,真正用于提升业务效率、改变业务流程、变革业务发展的应用并不多。目前,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的更是屈指可数。在挖掘信息系统价值方面,数据分析也受管理体制和职能的制约,以及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。[20]政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的科学决策依然有相当长的路要走。

四、总结

大数据时代背景下的社会将是一个更开放的社会、一个权力更分散的社会、一个网状的大社会,社会将具有更强的流动能力,并呈现个性化、社会化和网络化等特征。这些新变化与新特征或多或少会影响政府治理的方方面面,影响的“反射弧”长短不同、影响程度不同,有的影响可能立竿见影,有的影响则是潜移默化的,有的影响可能只是技术方法上的微小变革,有的影响则有可能是对治理理念和服务方式的根本变革。而毋庸置疑的是,大数据的影响已然发生,如何准确辨析新形势,快速应对新变化,正确采取新措施,这是政府在新时代背景下需要认真思考和积极应对的。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

大数据时代的机遇与挑战论文3000字[精品文档]

大数据时代的机遇与挑战 什么是大数据时代? “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据时代是怎样产生的? 物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累,数据是人类社会最重要的财富大数据时代的到来 大数据时代的特点? 1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 2.类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 3.价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 4.速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。 大数据时代的机遇 大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。建立大数据中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。对社会大数据进行历时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。

大数据时代下的安全思考

大数据时代下的安全思考 2014-09-03 01:23:39来源: 北京商报(北京)有0人参与 分享到 根据互联网数据中心(IDC)相关数据显示,互联网上的数据每年将增长50%,每两年将翻一番,而目前全球互联网90%以上的数据是近几年才产生的。以大数据、智慧城市、移动互联网和云计算为重要特征的“大智移云”时代已经到来。 大数据时代的互联网安全形势发生变化,信息安全上升到国家战略高度。棱镜门等事件背后凸显出大数据安全布防的重要性和紧迫性,企业需要加快自主技术创新才能摆脱外界控制,彻底实现信息安全和发展自由。 大数据引擎成为企业服务创新发展的核心驱动力,正在影响企业安全市场格局生变。由于利用系统漏洞的网络攻击范围更广、危害更大,企业安全攻防强度和防御难度全面升级。对于企业来说,大数据变成了重要的生产力因素,在散发出不可估量的商业价值的同时也存在巨大安全隐患,因而要求企业决策从“业务驱动”转变为“数据驱动”。在整个数据生命周期里,企业需要遵守更严格的安全标准和保密规定,对数据存储与使用的安全性和隐私性要求越来越高。 从今年以来发生的震惊业界的心脏出血漏洞、携程拖库等事件可以看出,黑客利用大数据分析向企业发起的攻击更为精准。而由于用户隐私和商业机密涉及的技术领域繁多、机理复杂,很难贯通法理与专业技术,界定出由于个人隐私和商业机密的传播而产生的损失,也很难界定侵权主体是出于个人目的还是企业行为。 随着移动互联网的全面普及,社交网络成为黑客攻击和网络犯罪的新途径、云应用的进步加大了用户信息泄露的风险和事故处理难度、移动支付安全和移动终端漏洞成为安全新课题。大数据时代的企业安全正面临内部管理和外部攻击的新型挑战,可靠的数据存储、安全的挖掘分析、严格的运营监管是大数据时代企业安全的刚需。 在此种背景下,传统的端级防护、单点布防安全解决方案能起到的作用甚微,任何一家企业都无法单独对抗大数据安全的全面挑战,安全产业链协同成为必然趋势。由于安全产业链过于复杂冗长,任何一个环节受到网络攻击都将给整个产业链带来不可估量的损失。利用大数据等现代技术提升企业安全实力,“开放是前提、法律是保障、技术是支撑”,信息安全需要在政府主管部门的统一协调管控之下,由产业链各个环节的企业开放安全数据和技

大数据技术的挑战和启示分析

大数据技术的挑战和启示 目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。第三是数据处理。 有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。 大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。 为了开发大数据这一金矿,我们要做的工作还很多。首先,大数据分析需要有大数据的技术与产品支持。发达国家一些信息技术(IT)企业已提前发力,通过加大开发力度和兼并等多种手段,努力向成为大数据解决方案提供商转型。国外一些企业打出免费承接大数据分析的招牌,既是为了练兵,也是为了获取情报。过分依赖国外的大数据分析技术与平台,难以回避信息泄密风险。有些日常生活信息看似无关紧要,其实从中也可摸到国家经济和社会脉搏。因此,我们需要有自主可控的大数据技术与产品。美国政府2012年3月发布《大数据研究与发展倡议》,这是继1993年宣布“信息高速公路”之后又一重大科技部署,联邦政府和一些部委已安排资金用于大数据开发。我们与发达国家有不少差距,更需要国家政策支持。 中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。例如,提供各地天气与航班延误的关系,推动航空公司提升正点率。

大数据的应用及带给企业的挑战

大数据的应用及带给企业的挑战 随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。根据国际数据公司IDC发布的研究报告,预计全球数据量大约每两年翻一番,到2020年全球将达到35ZB的数据信息量。随着前所未有巨量数据信息的聚集,“大数据”已得到广泛关注。本文将分企业数据、机器数据和社会化数据三类,针对企业数据处理面临的挑战、机器数据应用场景、社会化数据带来的变革展开讨论。 1、企业数据处理面临的挑战 中国的企业已经认识到大数据蕴含着巨大的商业价值,但国内互联网巨头作为率先使用大数据技术的用户,仅仅是基于开源软件自主开发大数据应用,未形成企业级的个性化应用。 (1)非结构化和结构化数据的统一及整合 随着互联网和通信技术的迅猛发展,企业中的数据类型早已不是单一的以文本为主的结构化数据,还充斥着广泛存在于社交网络、物联网、电子商务等之中的网络日志、音频、视频、图片、地理位置信息等多类型的数据。这些数据称为非结构化数据。据统计,企业中

85%的数据属于非结构化数据。但是企业现有的数据处理方法仅适用于结构化数据,无法将大量的非结构化数据与结构化数据进行统一、整合,就无法发掘数据中的价值。 (2)跨业务平台数据的关联 当今企业环境中存在着:不同业务模块的数据分布在不同的系统平台,这些被割裂的数据在单一业务平台无法得到有效利用;不同业务模块的数据无法实现共享、关联;仅对关键业务的数据进行收集、整合和利用,非关键业务的数据被忽视等现状。企业中的数据由于业务模块的划分而被割裂开来.单一业务模块的数据价值远远小于所有业务模块数据关联起来进行分析运用,企业将如何实现跨业务平台数据的关联与整合将面临巨大的挑战。 (3)面向数据的实时分析 随着经济的飞速发展,企业所面临的市场行情也在瞬息万变,企业曾经惯用的事后处理机制已经不能应对,企业需要实时洞察业务运营状态,以便迅速应对不断变化的市场形势。 企业业务的运营状态将体现在海量数据的快速处理和有效进行 实时分析的基础上。但随着大数据的爆炸式增长,与企业相关的数据可能在无限量的不断增长,这些不断变化的数据,需要企业进行全面、实时的分析。

大数据题目及参考答案

公需科目大数据培训考试 考试时间:120分钟 选择题中红色代表正确答案,判断题X为错,R为对。 1.根据涂子沛先生所讲,摩尔定律是在哪一年提出的?(单选题1分) A.1988年 B.2004年 C.1965年 D.1989年 2.2015年,贵阳市的呼叫服务产业达到()坐席。(单选题1分) A.3万 B.5万 C.10万 D.20万 3.以下说法错误的是哪项?(单选题1分) A.大数据的思维方式遵循因果逻辑推理 B.摩尔定律是戈登?摩尔提出的 C.图灵测试是阿兰·图 D.ENIAC于1946年诞生 4.茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题1分) A.北大 B.清华 C.浙大 D.复旦 5.促进大数据发展部级联席会议在哪一年的4月13日召开了第一次会议?(单选题1分) A.2014年 B.2015年 C.2013年 D.2016年 6.根据涂子沛先生所讲,哪一年被称为大数据元年?(单选题1分) A.2012年 B.2010年 C.2008年 D.2006年 7.数据、信息与知识三者之间的变化趋势是(单选题1分) A.价值先增后减 B.价值递减 C.价值递增 D.价值不变 8.具体来说,摩尔定律就是每()个月,产品的性能将提高一倍。(单选题1分) A.18 B.16 C.12 D.6 9.“()大数据交易所”2015年4月14日正式运营,目前,交易所已有包括京东、华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。(单选题1分)

A.毕节 B.安顺 C.贵阳 D.遵义 10.()说明如果联网越多,从介入方式、技术上越来越突破,则网络规模越大、成本越低,网络的成本可能会趋向于零。(单选题1分) A.吉尔德定律 B.摩尔定律 C.梅特卡尔夫定律 D.新摩尔定律 11.以下说法错误的是哪项?(单选题1分) A.大数据会带来机器智能 B.大数据不仅仅是讲数据的体量大 C.大数据的英文名称是large data D.大数据是一种思维方式 12.美国首个联邦首席信息官是下列哪位总统任命的?(单选题1分) A.克林顿 B.奥巴马 C.小布什 D.老布什 13.截至2015年年底,全国电话用户总数达到()。(单选题1分) A.13.37亿户 B.12.37亿户 C.14.37亿户 D.15.37亿户 14.2012年全国各城市支付宝人均支出排名中,位居第七位的是()(单选题1分) A.嘉兴市 B.台中市 C.高雄市 D.嘉义市 15.吴军博士认为过去五十年是()的时代。(单选题1分) A.科尔定律 B.艾尔定律 C.摩尔定律 D.拉尔定律 16.ENIAC诞生于哪一年?(单选题1分) A.1946年 B.1938年 C.1940年 D.1942年 17.梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。(单选题1分) A.正比 B.对数 C.指数 D.反比 18.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题1分) A.38 B.21 C.25 D.30 19.2012年全国各城市支付宝人均支出排名中,位居第三位的是()(单选题1分) A.嘉义市 B.杭州市 C.嘉兴市 D.高雄市

大数据时代的机遇和挑战

大数据时代的机遇和挑战 【】First of all ,the paper makes a simple analysis of the concept and characteristics of large data. Secondly ,it explores the opportunities and challenges that big data brings to all aspects of economic life. Finally ,it explores how to deal with opportunities and challenges ,and improve the development environment of big data. improve the environment for the development of big data ,so as to make a certain contribution to the economic development in the era of big data. 【Keywords】big data age ;quantitative economics ;application 1引言 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。被称为“第三次浪潮的华彩乐章”。近几年来,大数据吸引了越来越多的关注,

人们随时都能感觉到生活在一个日益信息化的世界中。随着网络技术的发展,越来越多的人使用社交软件进行网上聊天,发布个人心情状态,对网络中的信息进行评论,这些都极大的丰富了我们的生活。同时,网上每天都会产生大量的数据,根据有关统计,每天网络中大约出现220 万TB 的新数据, 而且这个速度还在不断增加 伴随着大数据时代的到来,数据资源越来越庞大,数据处理速度越来越快,人们可以通过大数据技术实现各种构想。学者能够利用大数据这一有利条件进行更加科学且贴近现实的经济研究。银行能够通过大数据考查企业的诚信状况,并决定是否放贷。而计算机则可以在海量的数据中统计分析出人的行为、习惯等方式,从而更好地学习模拟人类智能。随着科学技术的不断发展,未来大数据会发挥出更加强大的作用, 而如何应对大数据时代的机遇与挑战,有效利用大数据资源,是各行各业应关注的焦点。 2大数据时代的特点 大数据又可以称之为巨量资料,它的概念比较抽象,其定义是依靠互联网技术下的主流软件对一些规模较大、较复杂的资料进行处理、分析、管理,从而形成对经济发展更加有用的信息。大数据的主要特点就是信息量大、多样化、高速等。大数据的形成需要特殊专业的技术,例如互联网、数据挖掘电子网或者大规模并行处理数据库等软件,通过有效的掌握丰富的数据资源,并对这些数据进行专业化的处理,从而在经济社会的发展中实现盈利,把对大数据的处理加工有效的转变为信息资

大数据带来的给予和挑战

大数据带来的机遇和挑战 互联网高端技术的创新与发展,给人类社会带来了巨大变化。今后20年全球将步入大数据新时代。高端互联网将再铸新世界。我们正处在一个数据爆发增长的时代。移动互联网、移动终端和数据感应器的出现,使数据以超出人们想象的速度在快速增长。据国际数据资讯公司(GlobalPulse)估测,数据数量一直在快速增加,每年增长50%,这个速度不仅是指数据流的增长,而且还包括全新的数据种类的增多。据统计,全球企业2010年在硬盘上存储了超过7EB的新数据,消费者在PC和笔记本电脑等设备上存储了超过6EB新数据,而1EB数据就相当于美国国会图书馆中存储数据的4000多倍。目前数据容量增长的速度,已经大大超过了硬件技术的发展速度,并正在引发数据存储和处理的危机。 有研究统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息,而现在,这样的数据量却仅需两天就被创造出来,且速度仍在加快。数据显示,2011年全球创建和复制的数据总量,就达到了1.8ZB(1ZB等于10的21次方比特),相当于全球每人产生300GB以上的数据。目前这个数字仍在快速增长,预计2020年,全球产生的数据量更将超过80ZB。由此可见,我们的确已经迈入了大数据时代。 2012年3月,美国奥巴马政府发起了《大数据研究和发展倡议》,将大数据定义为“未来的新石油”,称将斥资2亿美元用于大数据研究,以应对大数据革命正在带来的大机遇。据美国咨询机构Gartner预测,从现在起到2015年,大数据将会在世界范围内创造440万个工作岗位。 “大数据”,这一新兴概念,正在被赋予极其丰富的内涵,并被寄予特别巨大的希望……大数据时代,我们该如何寻找对策,迎接挑战? 一、“大数据资源”成为重要战略资源 互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,“大数据”,也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。

浅谈大数据时代的机遇与挑战

湖南农业大学课程论文学院:信息科学技术学院班级:计算机1班姓名:XXX 学号:2015XXXX 课程论文题目:浅谈大数据时代的机遇与挑战 课程名称: 评阅成绩: 评阅意见: 成绩评定教师签名: 日期:年月日

课程论文题目 ——浅谈大数据时代的机遇与挑战 学生:XXX (信息科学技术学院计算机1班) 摘要:随着时代的发展,大数据这个词慢慢进入了人们的视野的当中,而大数据也与我们的生活关联越来越紧密,对我们的影响也越来越大。怎么样才能把握住机遇,在大数据时代中脱颖而出,怎么样才能在大数据时代到来的挑战中稳步前行。 关键词:大数据;机遇与挑战;大数据时代分析 Abstract:with the development of The Times, the word big data slo wly into the people's horizons, and big data is linked to our life more and more closely, to our influence is growing. How to seize the opportunity, in the era of big data, how can ability in the er a of big data move steadily in the coming challenges. Key Words: Big data; Opportunities and challenges; The era of big da ta analysis

一、绪论 (一)什么是大数据? “大数据”作为时下最火热的IT行业的词汇在互联网时代显得越来越重要。大数据究竟有多大?大数据能做些什么?在新互联网时代,这些词汇让我们应接不暇。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据还有四个特性分别是数据量大,种类多,速度快,价值大。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(二)大数据能做些什么? 大数据的应用示例包括了大科学、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。仅仅十余年,现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。二、本论 (一)大数据的重要性 1.大数据的处理分析正成为新一代信息技术融合应用的结点 有专家指出,大数据及其分析,会在未来10年改变几乎每一个行业的业务功能,从科学研究到保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业,根据数据预测,如果具备相关的IT设施,数据投资和分析能力等条

在大数据时代你需要这样思考

在大数据时代,你需要这样思考 数据分析微信公众号datadw——关注你想了解的,分享你需要的。 维克托?迈尔?舍恩伯格和肯尼斯?库克耶在《大数据时代》中告诉我们大数据的4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity (真实)。相比小数据,大数据一定是复杂的。然而,复杂性对于我们来说,绝对是一个机会而不应是一个问题。面对大数据时代的扑面而来,如何拥抱大数据,从思考方式的转变开始。 从“基于预设的结构化数据库”到“无需预设的非关系型数据库” 小数据时代,我们对于数据的存储与检索一直依赖于分类法和索引法,分类和索引是一种清晰获取数据的机制设计,这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列与准确存储,毫无疑问,这与追求数据的精确性目标是完全一致的,在数据稀缺与问题清晰的年代,这种基于预设的结构化数据库能够有效的回答人们的问题,并且这种数据库在不同的时间能够提供一致的结果。 面对大数据,由于数据的海量、混杂等特征会使预设的数据库系统崩溃。其实,数据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征,想要获得大数据的价值,承认混乱而不是对抗或避免混乱才是一种可行的路径。为此,伴随着大数据的涌现,出现了非关系型数据库,它不需要预先设定记录结构,而且允许

处理各种各样形形色色参差不齐的数据。因为包容了结构的多样性,这些无需预设的非关系型数据库设计能够处理和存储更多的数据,成为大数据时代的重要应对手段。如微软的数据库设计专家PatHelland所言:“我们再也不能假装活在一个齐整的世界里。” 从“随机样本”到“全量数据” 统计学家通过分析发现,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。这个发现对于小数据时代无疑是非常鼓舞人心的,随机采样获得了巨大的成功,并成为现代社会测量领域的核心思想。随机样本的基础是采样的绝对随机性,然而,如此严格意义的随机实现起来是非常困难的,一旦采样过程存在任何偏见,分析结果将相去甚远,况且随机样本带给我们的只能是事先预设问题的答案。这种缺乏延展性的结果,无疑会使我们错失更多的问题域。 大数据时代,数据的收集问题不再成为我们的困扰,采集全量的数据成为现实。全量数据带给我们视角上的宏观与高远,这将使我们可以站在更高的层级全貌看待问题,看见曾经被淹没的数据价值,发现藏匿在整体中有趣的细节。因为拥有全部或几乎全部的数据,就能使我们获得从不同的角度更细致更全面的观察研究数据的可能性,从而使得大数据的分析过程成为惊喜的发现过程和问题域的拓展过程。

大数据时代题目及答案(三套试题仅供参考)

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别

大数据时代数据安全问题思考

大数据时代数据安全问题思考 隐私OR便利 互联网上的“透明人” “中国人更加开放,对隐私问题没有那么敏感,很多情况下他们愿意用隐私交换便利性。”今年3月,一位知名互联网企业负责人在公开场合谈到个人信息保护的问题。然而,这一言论迅速击中了网民的痛点:在大数据时代,普通网民究竟还有没有隐私?我们如何保护个人信息? 日常生活中,人们也常常面临“选择”:是否同意获取个人信息。使用一个简单的应用程序,注册一个网络账号,都会让用户提供手机号码、身份证号、银行卡号等隐私信息。 安装一个新的APP,使用前先要收到一连串的提醒:“允许发送通知”“允许访问位置”“允许获得手机通讯录”“允许启用电话、短信、相机”……尽管用户可以选择“同意”或者“不同意”,但用户一旦选择了“不同意”,很多APP便自动退出不再提供服务。 甚至发在个人朋友圈中的照片,都有可能被他人恶意盗取。近日有媒体曝光称,大量来自朋友圈、QQ空间或者微博上的私人照片,正在被放在网上低价出售,甚至被非法用于商业广告或婚恋网站。对此,有网友感叹:“原来,我们一直在互联网上‘裸奔’!” 网上个人信息泄露还可能引发次生灾害,成为精准诈骗的帮凶。一些人把个人隐私信息当成赚钱的工具,通过售卖越权获取的用户信息获得巨额利润,并由此形成了黑色产业链。如何提高网络安全性,保护用户的个人信息,成为互联网时代人们的核心关切。 北京大学互联网发展研究中心主任田丽认为,随着互联网技术的快速普及,传统问题向互联网延伸,线上向线下延伸,人类空间向虚拟空间延伸。人们在互联网上变成了“透明人”,个人的一举一动都被互联网“记录在案”,导致人们在网络空间越来越缺乏安全感。

浅谈基于大数据时代的机遇与挑战

浅谈基于大数据时代的机遇与挑战 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 随着信息时代的到来,大数据(Big Data)一词逐渐被人们认知和熟悉,其常被用于定义和描述“信息爆炸时代产生的海量数”。随着“大数据”时代的来临,在商业、经济及其他领域中,人们做出决策不仅仅依靠经验和直觉,常以数据分析作为决策依据,这种方式大大提高了决策的科学性,最大限度避免决策失误。用好大数据,必将对商业发展、科学研究和政府决策产生积极的影响。 1 大数据的基本概况 大数据(Big Data)是指那些超过传统数据库系统处理能力的数据,其具有以下四个基本特性,即海量性、多样性、易变性、高速性。同时数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等也是其主要特征。 2 大数据的时代影响 大数据,对经济、政治、文化等方面都具有较为深远的影响,其可帮助人们进行量化管理,更具科学性和针对性,得数据者得天下。大数据对于时代的影

响主要包括以下几个方面: (1)“大数据决策”更加科学有效。如果人们以大数据分析作为基础进行决策,可全面获取相关决策信息,让数据主导决策,这种方法必将促进决策方式的创新和改变,彻底改变传统的决策方式,提高决策的科学性,并推动信息管理准则的重新定位。2009 年爆发的甲型H1N1 流感就是利用大数据的一个成功范例,谷歌公司通过分析网上搜索的大量记录,判断流感的传播源地,公共卫生机构官员通过这些有价值的数据信息采取了有针对性的行动决策。 (2)“大数据应用”促进行业融合。虽然大数据源于通信产业,但其影响绝不局限于通信产业,势必也将对其他产生较为深远的影响。目前,大数据正逐渐广泛应用于各个行业和领域,越来越多的企业开始以数据分析为辅助手段加强公司的日常管理和运营管理,如麦当劳、肯德基、苹果公司等旗舰专卖店的位置都是基于大数据分析完成选址的,另外数据分析技术在零售业也应用越来越广泛。 (3)“大数据开发”推动技术变革。大数据的应用需求,是大数据新技术开发的源泉。相信随着时代的不断发展,计算机系统的数据分析和数据挖掘功能将逐渐取代以往单纯依靠人们自身判断力的领域应用。借

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据时代的挑战--价值与应对策略

2012中国国际信息通信展专刊 14 2012年第17期 大数据时代的挑战、价值与应对策略 随着全球数据量爆炸式的增长,大数据时代已经到来。文章从大数据时代的基本特征入手,引出了大数据时代面临的挑战以及大数据带来的价值,提出了以创新为核心的务实应对策略。 【摘 要】 【关键词】大数据时代 “四V ”特征 流量经营 安全威胁 收稿日期:2012-08-14 责任编辑:左永君 zuoyongjun@https://www.360docs.net/doc/a16603706.html, 随着移动互联网、物联网、云计算等的快速发展,及视频监控、智能终端、应用商店等的快速普及,全球数据量出现爆炸式增长。即使在遭遇金融危机的2009年,全球信息量也比2008年增长62%,达到80万PB(1015字节),2010年增至120万PB。据IDC预测,至2020年全球以电子式形存储的数据量将达32ZB (1021字节)。以120万PB数据为例,如果将其刻录在DVD上,再将这些盘片堆叠起来,可从地球到月球垒一个来回! 在此背景下,电信运营商在其网络无休止扩容的同时,却面临“增量不增收”的困境;而一些采用“数据驱动型决策”模式经营的公司,则可将其生产力提高5%~6%。因此,有必要深入研究大数据时代(Big Data Era)的挑战、价值与务实应对策略。 1 大数据时代的基本特征 据统计,2010年以互联网为基础所产生的数据比之前所有年份的总和还要多;而且不仅是数据量的激增,数据结构亦在演变。Gartner预计,2012年半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右;而 且,整个网络体系架构将面临革命性改变。由此,所谓大数据时代已经来临! 对于大数据时代,目前通常认为有下述四大特征,称为“四V”特征: (1)量大(V o l u m e B i g )。数据量级已从T B (1012字节)发展至PB乃至ZB,可称海量、巨量乃至超量。 (2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。 (3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。 (4)价值高和密度低(V a l u e H i g h a n d L o w Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。 2 大数据时代面临的挑战 (1)运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战,管道化压力化解及“云-管- 端”的有效装备也均面临新挑战。 (2)大数据的“四V”特征在数据存储、传输、

大数据的机会与挑战

大数据的机会与挑战 我们活在大数据的世界,数据的数量与多样化的程度,每日都以前所未有的规模扑向人类。无论你是不是在相关产业工作,都不可能逃离被大数据「围攻」的现实。自哈佛大学电脑科学系毕业、Cambridge Semantics共同创办人Lee Feigenbaum撰写的〈Turnning Big Data into Smart Data〉一文,告诉我们横亘企业眼前的「大数据挑战」。让我们先来看看,大数据到底有多大? 每天全球每一个人聚沙成塔,累积的新数据达到「艾位元组(exabytes)」(甚 至达到「皆位元组(zettabytes)」,端赖统计的来源)。 至今一半以上(有些报告甚至指出高达90%)的数据资料是在过去12个月产生的。 人们创造数据的速度每一个月都以双倍速度成长。 除了吓人以外,光有这些「大数据」,其实没有什么意义,唯有人类能够从中发 掘价值,大数据才产生意义。所幸,已有很多应用实例,让大数据发出应有的光芒,也让我们看到各行各业有无穷尽的机会,等待数据科学家的探勘。

在「大数据」还没变成人人琅琅上口的流行词汇之前,小说改变而成的电影《魔球》描述美国大联盟运动家队点石成金在缺乏明星球员的状况下杀出血路的真实故事,早已让人津津乐道,而它正是数据分析的绝佳体现。 医疗与制药产业纷纷投入大笔经费,研发「客制化」的个人医学,透过分析病人的特徵与基因组成,给予个别病人量身定做的诊断与疗法,实验室与临床都需要大量且多样化的数据整合。 智能手机、运动手环甚至後来的智慧型手表,我们分分秒秒都在「量化自我」, 健身的程度、摄取的营养、身心状况、行为趋向全部都被巨细靡遗的记录下来。 大型银行与隶属政府的金融部门对资料长(chief data officer,CDO)与数据 科学家需求若渴,他们要能全盘考量组织职能,针对数据的蒐集、分析与应用做出策略性的思维。

2018年大数据时代的互联网信息安全试题和答案解析(100分)

1.网盘是非常方便的电子资料存储流转工具。不仅不占用空间,而且在任何电脑上都能访问,下面这些使用网盘的做法中,哪一项会造成个人隐私信息泄露的风险?()(单选题2分) 得分:2分 C.将所有信息保存在云盘,设置一个复杂的云盘密码,然后将密码信息保存在电脑D 盘的文件夹中 2.位置信息和个人隐私之间的关系,以下说法正确的是()(单选题2分)得分:2分 C.需要平衡位置服务和隐私的关系,认真学习软件的使用方法,确保位置信息不泄露 3.你收到一条10086发来的短信,短信内容是这样的:“尊敬的用户,您好。您的手机号码实名制认证不通过,请到XXXX网站进行实名制验证,否则您的手机号码将会在24小时之内被停机”,请问,这可能是遇到了什么情况?()(单选题2分)得分:2分 D.伪基站诈骗 4.我们在日常生活和工作中,为什么需要定期修改电脑、邮箱、网站的各类密码?()(单选题2分)得分:2分 D.确保个人数据和隐私安全 5.浏览网页时,弹出“最热门的视频聊天室”的页面,遇到这种情况,一般怎么办?()(单选题2分)得分:2分 D.弹出的广告页面,风险太大,不应该去点击 6.在某电子商务网站购物时,卖家突然说交易出现异常,并推荐处理异常的客服人员。以下最恰当的做法是?()(单选题2分)得分:2分 C.通过电子商务官网上寻找正规的客服电话或联系方式,并进行核实 7.重要数据要及时进行(),以防出现意外情况导致数据丢失。(单选题2分)得分:2分 C.备份 8.我国计算机信息系统实行()保护。(单选题2分)得分:2分 B.安全等级 9.当前网络中的鉴别技术正在快速发展,以前我们主要通过账号密码的方式验证用户身份,现在我们会用到U盾识别、指纹识别、面部识别、虹膜识别等多种鉴别方式。请问下列哪种说法是正确的。()(单选题2分)得分:2分 C.使用多种鉴别方式比单一的鉴别方式相对安全 10.日常上网过程中,下列选项,存在安全风险的行为是?()(单选题2分)得分:2

相关文档
最新文档