社会计算:大数据时代的机遇与挑战

社会计算:大数据时代的机遇与挑战
社会计算:大数据时代的机遇与挑战

社会计算:大数据时代的机遇与挑战*

孟小峰1李勇1? 祝建华2

1(中国人民大学信息学院北京 100872)

2(香港城市大学媒体和传播系香港 999077)

Social Computing in the Era of Big Data:Opportunities and Challenges

Meng Xiaofeng1,Li Yong1 and Jonathan J.H.Zhu2

1(School of Information,Renmin University of China, Beijing 100872)

2(Department of Media and Communication,City University of Hong Kong,Hong Kong 999077)

Abstract With the rapid development of information technology,especially sweeping progress in the internet of things,cloud computing,social networks and social media,the era of big data is coming.As a data-intensive science,social computing is an emerging that leverages the capacity to collect and analyze data with an unprecedented breadth and depth and scale.It represents a new computing paradigm and an interdisciplinary research and application field.A broad comprehension of major topics involved in social computing is important for both scholars and practitioners. In this paper,we give a brief survey of the various research fields in social computing.We present key concepts and analyze state-of-the-art of the field.The article not only shed insights on social computing,but also afford conduit for future research in the field.Social computing has two distinct foci.One is on the social science issues,such as computational social science,computational sociology,social network analysis etc.The other focus is on the use of computational techniques,such as social use,hedonic use and generative use.Finally some new challenges ahead are summarized,including interdisciplinary cooperation and training,big data sharing for scientific data mashups,and privacy protect.

Keywords Social Science; Social Computing; Social Networks Analysis; Computational Social Science; Big Data

摘 要 信息技术的飞速发展,特别是物联网、云计算、社交网络、社会媒体以及信息获取技术的进步,数据正以前所未有的速度迅速增长和积累,大数据时代已经到来.社会计算作为一种数据密集型科学,在收集和分析数据的广度、深度以及规模上都产生了巨大影响,社会计算作为一种新的计算范式,产生了一个新的跨学科研究与应用领域,其广阔的研究内容与应用已引起了学术界和工业界的广泛关注.分析了社会计算产生的历史背景及概念、研究现状及大数据带来的机遇,综述了社会计算不同的研究领域,主要有2个发展趋势:一个面向社会科学,包括计算社会科学、计算社会学、社会网络分析等;一个面向技术应用,包括社交应用、娱乐应用、生产应用等,这2种发展趋势同时又相互影响.最后讨论了社会计算研究领域存在的挑战,包括跨学科合作与训练的问题、科学研究中大数据共享问题以及隐私保护.

关键词 社会科学;社会计算;社会网络分析;计算社会科学;大数据

中图法分类号 TP3-05

收稿日期:2013-06-27;修回日期:2013-09-25

基金项目:国家自然科学基金项目(61379050,91024032,91224008,91124001,91324015);国家“八六三”高技术研究发展计划基金项目(2012AA011001,2013AA013204);中国人民大学科学研究基金项目(11XNL010)

?通信作者:李勇,facingworld@126.com

0 引言

物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累,数据是人类社会最重要的财富,大数据时代的到来,为研究人类社会动态和模拟社会问题带来了前所未有的机遇.计算机科学家、社会学家等各领域学者开始关注大数据对社会、经济、科学研究等方面带来的巨大价值.美国圣塔菲研究所(Santa Fe Institute )、谷歌研究院(Research at Google )、惠普社会计算实验室(HP Social Computing Lab )等跨学科研究机构和哈佛、斯坦福、康奈尔等大学,开始用复杂性科学来描述社会系统中的复杂现象,提出了复杂适应系统等一系列新理论,用计算机作为研究复杂性科学的基本工具,开创了计算社会科学等新的研究方法,社会计算开始进入人类社会(“social computing ”一词也有文献译成“社会化计算”).

本文从社会计算的本质出发,对现有的研究中若干关键问题进行分析总结,讨论这一研究领域存在的机遇和挑战.首先简要介绍了社会计算产生的历史背景及其定义,对社会计算领域进行分类研究,介绍了大数据为社会计算带来的机遇,分析社会计算研究现状的基础上讨论了其面临的挑战.

1社会计算产生的历史背景

社会科学作为独立的学科是在19世纪末才出现[1],这是对工业化所带来的挑战作出的回应.由于大规模的社会结构、社会组织的出现,人们的社会联系越来越频繁和多样,导致社会冲突加剧,社会管理和控制的难度空前增大,传统的那种靠少数社会精英拍脑袋决策管理社会的方式已经过时,社会科学的产生和发展成为历史的必然.社会科学的主要学科有经济学、社会学、政治学等,社会学研究的是市民社会以及以市民社会为基础形成的社会组织,是关于社会良性运行以及协调发展的条件和机制的综合性具体社会科学[2].

自然科学、社会科学和人文科学只是学术建制意义上的区分,它们之间总是密切联系.自然科学的根本目的在于发现自然现象背后的规律,20世纪50年代之前,社会科学与自然科学相对独立,跨学科研究较少.如图1所示,社会科学与自然科学由一条学科河分隔[3],河的左岸是以科学计算为核心研究范式,以系统科学、控制论、人工智能等作为研究方法的自然科学;右岸是心理学、经济学、传播学、社会学、政治学等社会科学.

Scientific Computation

Mathematical

Model

System

Science

Cybernetics

Artificial Intelligence

Fuzzy Theory

Data Mining

Natural Science

Social Science

Sociology

Economics

Discipline River

Social Computing

Social Network Analysis Technology

application

Dynamical Systems Theory

Social Simulation

Scientific Theory

Scientific Experiment

Data-Intensive

Science

Communication

Information Visualization

Psychology

Politics

……

Sociocybernetics

Computational Sociology

Computational Social Science

Fig .1 Classification of disciplines [3]

图1 学科划分

[3]

20世纪70至90年代,人类进入后工业化(post-industrialization)时代,信息革命改变了一切,经济、政治、文化的全球化融合达到新的阶段,科学发展变得越来越快,越来越复杂.大工业和高科技为人类创造了非常丰富的财富,但同时也把人与自然的关系、人与人的关系置于一个危险的境地,社会不平等、阶级冲突、社会异化、种族冲突、政治革命、宗教冲突、国家冲突、环境恶化等社会问题突出,人类越来越重视对自身前途与命运的价值关怀.为了准确地研究社会问题,经济学、社会学等学科都试图形成一套完整的定量分析研究手段,用严谨的数学方法对问题进行描述和求解,但由于现实世界是一个多变量复杂系统,很难像物理学那样用数学公式精确地描述和求解问题.在这种共同的背景下,自然科学、社会科学开始走到一起,任何一门科学都开始意识到自己的相对性,意识到与其他学科密切关联[4].如图1所示,建立在自然科学与社会科学之间,位于学科河之上的跨学科社会计算研究逐渐兴起,这些学科都有数据密集型的特点,包括社会网络分析、计算社会科学、社会控制论等.

2社会计算的定义

Parsons在1949年主持美国社会学学会工作时[5],在他的努力下建立了哈佛大学社会关系系,尽管其结构功能主义理论(structural functionalism)广受批评,但他开创了跨学科研究的先河.Parsons的理论另一个重大影响是对欧洲社会学在控制论和系统科学方法的影响.互联网的缔造者、心理学家Licklider在担任美国国防部高级研究计划署信息处理技术办公室第一任主任期间,于1960年发表了《人与计算机的共生》[6]一文,创造了因特网的原始设想,第1次提出了交互计算概念,他认为人类将会有一种网络将世界上所有计算机联成一体,人们可以使用地理上很远的计算机,获取任何计算机中的数据,使用很多计算机来做一件事,可以互相共享资源、平衡负载,为全世界的用户服务.在Licklider 等人的推动下,计算机网络作为一种通讯设施于20世纪60年代末开始发展[7].

1978年,社会学家Hiltz出版了《网络国家:人类通过计算机交流》[8]一书,这是最早描写网络社区社会学的著作.网络社区通过计算机网络将人们互联,人们在网络平台上相识、工作、讨论、争论、协作.该书最早预测到未来虚拟社区以及对社会、政治、法律等方面的影响,也最早预测到网络的爆炸式发展以及隐私问题、匿名问题、远程办公、在线政治活动等.书中还提到了审查制度、监管制度、成瘾问题、IP和盗版、Email、美国邮政服务的消亡以及工作、政治、法律的改变.该书的出版引起了计算机科学家、管理科学家、政治家、社会学家、医生、计算机狂热人士等一大批人的兴趣,被称之为计算机会议上的“圣经”[9].

20世纪90年代中期是个人计算向社会计算转型的时期.个人计算关注个体使用信息技术,社会计算通过小型的社会群体或大型的社区用户一起协作使用信息技术.社会计算对社会和经济具有深远的影响,尽管不用质疑其影响,但也很难定量研究其影响的程度,只能在跨学科的范围内保持其一定的领域评判.

1994年,社会计算的概念第1次出现,Schuler认为[10]:“社会计算可以是任何一种类型的计算应用,以软件作为媒介进行社交关系的应用”;Dryer等[11]将社会计算描述为一种理论概念,包括科学和技术2方面:“人类使用计算技术进行的社交行为和交互行为所产生的相互作用”;Wang等人[12]认为社会计算是:“信息技术和通信技术等促进了人类社会的研究和社会动态发展”;文献[13]认为,社会计算是指使用信息系统作为社会交互的场所,并使用信息系统作为数据收集和处理的空间,社会计算是在虚拟场所中的感知、交流和协作,社会计算需要把计算设备作为人与人之间交流的媒介,需要将人机交互设定成为一个社会实践的环境,将理解社会过程作为交互系统的一部分工作.

近年来,科学家不仅发现人类大脑和生命是计算系统,而且发现整个世界也是一台计算系统,因此哲学界产生了计算主义思潮.计算主义认为:“人所处的整个世界是由算法控制,并且按算法确定的程序进行演化.宇宙是一部巨型计算装置,任何自然事件都是在自然规律作用下的计算过程.事物的多样性是因为算法的复杂度不同而产生的不同外部表现”[14].虽然计算主义导致许多哲学家的质疑[15],但计算的确已经渗透到经济学、物理学乃至科学研究的各个领域,计算已成为人们认识自然、生命、思维、社会的一种普遍的观念和方法.如果没有计算机,就没有当代科学的突飞猛进发展,就不会有社会的快速进步,复杂性科学就不会出现.基于以上分析,本文认为社会计算是使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法,将社会科学理论与计算理论相结合,为人类更深入地认识社会、改造社会,解决政治、经济、文化等领域复杂性社会问题的一种理论和方法论体系.

3社会计算主要研究领域

社会计算不仅是一种技术而且是一种社会现象,社会实践所处的环境决定了技术系统的社会特点.社会计

算形成了2种发展趋势:一种是面向社会科学的社会计算;一种是面向技术应用的社会计算,这两种发展趋势同时又相互影响.

3.1面向社会科学的社会计算

3.1.1社会网络分析

社会科学的网络概念非常广泛,主张采用多理论多层次方法研究传播以及其他形式的组织和社会网络[16].文献[17]研究了包括人在内4个不同动物种群的42个网络以及多种关系内涵、多种社群规模,尝试研究这些网络“表面存在差异,结构是否相似”这一问题.社会网络分析(social network analysis)[18-19]的目标是研究大型动态复杂网络,特别是人类社会系统的结构和交互模式等.社会网络分析研究的主题包括社会流动、健康行为、疾病扩散的关键节点、连锁董事、在线社区分析等.

社会网络分析所采用的研究与分析方法主要是基

于代理的模型、理论物理、图论等.在Milgram[20]、Watts[21]等开创的小世界(small world)现象研究基础上,Barabási等在无标度网络(scale-free networks)[22]特性

上有多个发现,他们发现复杂网络中的联接符合幂律分布(power-law distribution),有些切点联接稠密,而大多节点联接很稀疏,这些发现说明复杂网络尽管结构复杂但并不是随机的,符合一定的宇宙主宰原则,在混沌中存在着秩序.社会网络分析领域经典的研究成果还有强弱关系(strong and weak ties)[23],结构洞(structural holes)[24],信息级联(information cascades)[25]等.

3.1.2计算社会科学

社会学中早就有一个计算社会学(computational sociology)[26]分支.计算社会学不仅与传统的系统科学、控制论和复杂性科学交叉,并且跨越社会科学多个领域,如经济学、生态学、社会网络组织、人口学中的小群体动力学、环境以及城市规划等.计算社会学的主要研究领域是社会模拟(social simulation),使用计算机建立人工实验环境,研究复杂社会系统,模拟方法包括基于方程的模型(equation based modeling)和计算模型(computational modeling).主要计算方式是在个体代

理或多代理系统观点下进行社会模拟[27].

计算社会学从20世纪50年代出现,早期使用离散事件模型等方法,此后40年时间一直试图使用计算机科学方法进行社会研究,但如同文献[27]指出的:“从社会学家使用计算机起,计算机模拟在社会学中扮演了一个重要的,但是第二位的角色.模拟方法得出的结果显得苍白,远离主流社会学的方法,因此这种方法总是不被社会学家们所欣赏”.

最近10年之内,随着互联网的兴起和在线实时数据的公开易得,来自政治学、经济学、语言学、传播学、人类学等社会和人文学科的研究者联手计算机、物理、数学、控制等科学技术界专家,兴起了规模更大、参与更广的计算社会科学(computational social science)[28]。计算社会科学的核心技术是数据挖掘[29],使用机器智能从大量复杂真实数据集中发现有趣模式和知识,在数据的驱动之下,使用统计学、机器学习、模式识别、数学模型等方法,进行探索式的知识发现和数据管理,数据源包括数据库、Web等以及动态地流入系统的数据.数据挖掘对于社会学家分析复杂社会系统产生的大量数

据有很多好处,可以分析数据质量,可以聚焦于社会过程和关系,可以处理非线性、有噪音、概念模糊的数据等.与依赖计算机模拟的计算社会学相比,现在流行的计算社会科学依赖海量和实时的网络数据,由社会和人文科学各学科广泛参与,并与科学计算界紧密合作,所以研究成果及影响力均不可同日而语,一个例证就是《Science》、《Natrue》、《美国科学院年报》(PNAS)等世界顶级期刊经常刊登计算社会科学的最新研究成果。

3.2 面向技术应用的社会计算

面向技术应用的社会计算将社会科学中的一些概

念或理论融入技术应用,例如社区、社会网络、社会心理学等,从而推动应用的快速健康发展.技术应用也有助于社会交互,获取的数据可以更好地分析社会交互的计算模型,包括从小规模的动态交互到大规模的社会演变.面向技术应用的社会计算经历了群件(groupware)、社交软件(social software)、社会媒体(social media)等几个阶段[30].

群件在20世纪70年代提出,主要在学术机构等有限的范围内使用.群件是指一套协作技术,其目标是支持协同交互,例如eies系统(electronic information exchange system)[9],在这方面的研究产生了2个主要的应用成果:一个是计算机支持的协同工作(computer supported cooperative work);另一个是计算机支持的协同学习(computer supported collaborative learning).

20世纪90年代末,随着互联网泡沫的破灭,为了应对信息技术市场面临的困境,以Web 2.0作为基础的社

交软件成为主要的解决方案.互联网泡沫为社交软件的产生提供了前提,但互联网在家庭中的普及也同样重要.2000年之后,面向商业的公共应用,支持群体交互的在线社交软件迅速发展,并于2002年达到顶峰.2005年,随着Web 2.0[31]的蓬勃发展,社会媒体

开始涌现.社交软件向社会媒体的演变,主要是由面向技术的交互模式转变为面向人的交互模式,强调交互的动态性和社会实践的影响,这些应用通过用户自发的交互,对内容和服务进行生产、发布、消费,例如博客、播客、维基百科、社会网络站点等.近几年来,随着智能手机等设备的普及,移动社会媒体发展迅速.面向技术应用的社会计算可以分为三个维度:社交应用(social use)、娱乐应用(hedonic use)和生产应

用(generative use) [32],这三个维度并没有严格的界限,也是交叉影响.

3.2.1社交应用

社交应用主要通过博客、微博、论坛等社会媒体维持社交关系,这方面的研究主要包括在线社会网络分析、社会媒体挖掘和社区发现[33]等.社会网络分析已有大量研究工作,分析社会网络的影响力,发现参与的机会,共享用户对特定的话题、品牌、产品的看法.社会媒体挖掘和社区发现探测网络环境中的社区结构,发现内聚的子群,对于定量分析社会群体演化、预测用户行为有重要意义.社会媒体对个人或企业的声誉、信任等方面的管理也有重大意义.

3.2.2娱乐应用

娱乐应用主要通过共享媒体、社会新闻、社会书签、维基百科、在线游戏等平台,方便人们共享知识、享受便利.这方面的工作有协同标记(collaborative tagging),通过用户对Web内容打标签,促进社交导航和共享表达;协同过滤(collaborative filtering),通过大量的社会媒

体数据,在推荐系统中利用用户偏好来预测其喜好的话题或产品.情感计算(affective computing)[34] [35]将心

理学、认知科学等融入科学计算,通过社会媒体累积的海量数据,分析人在特定时间段情绪随时间的变化趋势;环境感知计算(context aware computing)在移动计算应用中用不同的设备和服务来发现环境信息并从中获益,例如用户位置、用户行为、附近的人等.3.2.3生产应用

生产应用主要指创建和共享协作内容,为生产生活提供便利,例如计算机支持的协同工作、智能交通、危机应急响应、商业应用、健康管理等.已有大量研究成果和应用,例如,众包(crowdsource)通过大量的参与人协作解决难题,形成了人肉搜索[36-37]等社会现象;IBM 的智能交通项目[38]从用户的智能手机等不同的传感设

备上收集路面、收费站、交叉路口、桥梁等基于位置的数据,判断道路运行模式,基于这些数据分析,为用户提供交通信息,预警拥堵状况,避免交通事故;将社会心理学中的社会惰化(social loafing)理论应用到计算机支持的协同工作的设计之中,利用行为理论解释人们在网络环境中为什么做事不按经验性规则或程式化模式,预测不同设计方案的结果[39];通过装配有GPS和传感器的智能设备,有效及时地分享环境感知的信息,为人类在面对灾难时作出正确的判断和提供决策支持[40]等.

4大数据时代的社会计算

科学实验、科学理论和科学计算是人类探索自然、研究社会的三种基本范式.大数据[41]时代的到来,在数据收集和分析的广度、深度以及规模上都产生了前所未有的影响.社会计算是一种数据密集型科学研究范式(data-intensive science)[42],近年来,随着大数据的影响不断深远,越来越引起学术界和工业界的高度关注.在大数据条件下,传统的以计算为中心的理念要逐渐转变到以数据为中心,形成数据思维.

所谓数据思维,Schonberger指出就是在处理数据时要作到三大转变[43].第1个转变是在大数据时代可以分析更多的数据,甚至是与之相关的所有数据,而不再依赖于采样.社会科学研究社会现象的总体特征,采样一直是主要数据获取手段,信息技术的普及让人们意识到这其实是一种人为限制.使用所有数据可以带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息.正如Watts所期望的[44],借助于大数据和计算机分析技术,21世纪的社会科学可能实现定量化的研究,从而成为一门真正的科学.

第2个转变,是不再追求精确度.与银行、电信等行业的精确计算需求不同,社会计算是对社会动态的反映,当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,会让社会科学在宏观层面拥有更好的洞察力.

第3个转变,是不再热衷于寻找事物间的因果关系,而应该寻找相互之间的相关关系.社会科学中的因果关系是概率性的,只能研究原因的结果(effects of causes),而不是结果的原因(causes of effects),相关关系也许

不能准确地说明一个社会现象发生的原因,但是它会揭示其发展过程.

5社会计算研究现状

社会计算作为一种新的研究范式,已引起了国内外学术界、工业界的普遍关注.2012年11月15日,第四届全国社会计算学术会议(China national conference on social computing,ncsc2012)在中国人民大学举行,来

自国内外计算机、管理学、经济学、新闻学、社会学、物理学等学科以及工业界44名专家学者发表演讲,全国37所大学和研究机构超过300人次参会研讨.在这次会

议上,形成了鲜明的两种观点,以技术为主导的学科和工业界普遍对大数据时代的社会计算持乐观的态度,而社会学领域学者持过度谨慎的看法.

5.1技术乐观派

计算机、物理学、经济学等学科学者以及工业界普遍认为,大数据时代的社会计算为科学研究提供了不同视角,蕴藏了大量有重大价值的研究课题,为社会预测创造了条件,为大数据在国民经济发展和社会安全中的应用提供了理论思路.本世纪的第2个10年是复杂性科

学深入各个领域、不断有新的突破且面临更大挑战的时代,许多重要复杂系统迫切需要运用社会计算研究方法,通过实证统计和理论模型分析相结合的手段进行全新

的认识和探索.

5.2理论谨慎派

社会科学界对大数据时代的社会计算所持的态度

比较谨慎.他们认为当前大数据的概念大而空洞,就数据论数据,忽视人性,带来了很大挑战.对大数据分析大多处于商业应用层面,没有上升到社会科学层面.如何运用社会科学理论来指导社会计算,特别需要提出新的理论来指导大数据对社会动态的分析,这是学术界亟需突破的问题.5.3工业界亟待解决的问题

社会媒体在互联网上迅猛发展,计算广告、人脸识别等技术在工业领域的广泛应用,虚拟社会如何良性运行与协调发展,已成为当前社会计算应用的主要挑战.例如,电子商务企业在线交易中,虚假数据带来虚拟社会严重的信任危机,但当前反作弊业务流程主要关注算法的精确性和结果的可解释性,而作弊行为有突发性的特点,单规则认定作弊行为具有不确定性特点,基于这种方法解决虚假交易只能“堵”无法“疏”,需要学术界探索解决这一问题.工业界还提出很多亟需解决的问题,例如在线广告中展示广告与搜索行为之间的关系问题,大规模用户群的行为预测、同一个用户在不同网络终端个体识别、欺诈检测等问题.

6社会计算面临的挑战

6.1学科壁垒的挑战

“小世界”、“结构洞”等一系列影响深远的研究成果被发现之后,社会网络分析工作引起许多研究人员的关注,不仅社会学家跟踪研究,大量物理学、计算机等学科研究人员也开始关注社会网络分析.近年来,用数学模型和各种算法对在线社会网络进行分析,发表了海量的论文,但这些研究工作大多是不断重复许多早期社会网络研究成果,用非常简单的数据模型解释非常复杂的社会现象,虽然取得了一些惊人的结果,例如“四度分隔”[45]等,但都无法超越社会学家早期在社会网络分析方面的成果.正如Watts指出的:“物理学家可能是非凡的技术专家,但他们只能是二流的社会学家”[46].社会学所研究的人类动态社会网络是具有社交性

的网络[47],社会网络基于社会结构,社会结构包含社会地位和社会关系2方面,社会关系是制约社会结构的重要因素之一.社会网络具有个体性、非正式性、持续性等特点,个体性是指具有私人层次上的交往和交流.以社会媒体在线用户群为主要研究对象的社会网络分析中,研究者将社会关系简化处理,忽略社会地位的影响,将用户作为节点,用户间简单的“关注”关系作为边构成网络,以节点间边的紧密程度划分“社区”,这种研究方法忽略了社会网络的本质,节点与节点之间无法体现出社会关系中的个体性特征,因此很难在社会性上有跨越性的研究突破.

社会科学与自然科学本质区别在于思维方式的不同[48],社会科学是总体逻辑思维,自然科学是类型逻辑

思维.类型逻辑思维认为应该重点关注典型现象,只要理解了典型现象的规律,就可以将其概括并推广到个体和具体问题.总体逻辑思维关注独立各异个案的整体分布,社会科学认为变异是社会现实的本质,社会学家的工作就是从变异中寻求规律,以经验为基础、以量化为导向地去概括总体变异的系统模式,社会科学的量化无法挖掘出普适规律来描述和解释所有个体行为[49].正是因为思维方式的不同,社会科学与自然科学之间的壁垒仍然难以逾越,社会学家批评技术学派所作的社会计算研究缺乏理论指导,技术学派认为社会科学研究所用数据规模太小不可信任.为社会计算提出跨学科的协作与训练、提出学科间统一的理论指导是当前最大的挑战.

6.2大数据带来的挑战

长期以来社会科学的定量研究都是通过问卷调查的方式收集数据,这种方式收集的数据量小且真实性难以确定,这些数据往往是在一个时间点或相隔很久的不同时间点获得,对连续的、动态的社会过程只能推断.大数据时代的到来,基于互联网的各种应用正以前所未有的方式生成和保留各种值得研究的大规模数据,这些具有空前宽度、深度和规模的数据对社会科学研究人员来说是宝藏和机遇,同时也是挑战.

一方面,绝大多数通信领域和社会媒体领域的企业都拒绝或限制研究人员获取其数据,跨组织的数据共享对于科学研究至关重要,但是社会计算研究正受到数据获取的限制所带来的严重挑战[50].另一方面,由于社会各系统相对独立,数据之间存在封闭性或关系的断裂性特点,大数据可能带来规律的丧失或失真,导致错误发现的风险增加.当前计算的速度越来越快,但分析的程度却越来越低,每个研究平台都有自己的数据,这些数据在表面上看起来很全面,但实际上都是各个领域信息的片段描述,而且数据背后看不见人性因素,失去社会意义.在这种社会背景下,看似人类拥有所有数据,但同时又什么数据都缺,大数据挖掘必须发挥人的主动性,体现人类对自身价值的终极关怀.要从大数据中采集到足够准确、系统而有代表性的社会个体特征,面临着伦理、法规和技术等多个方面的困难,这些难题已经构成大数据时代社会计算的严重挑战.

6.3隐私保护

文献[51]通过手机轨迹数据分析了15个月150万人

的移动规律,发现每个人的移动踪迹高度独立,在这个数据集中每个人的位置在每小时是特定的,四个时空点就足以唯一识别95%的个人.收集和发布移动数据、社会媒体数据、个人医疗数据等直接给个人隐私带来威胁,如果数据拥有者直接发布隐含着敏感信息的数据,而不采取适当数据保护技术,将可能造成个人敏感信息的泄露.在多样化的社会中隐私是基本的需要,是个人权利的基础,互联网和移动通信放大了个体的唯一识别性,进一步增强了传统的隐私挑战.

如何既能公开发布更多的数据,为社会计算提供更大的数据支持,同时又能保证个人的隐私不会泄露,作到数据开放与隐私保护的两者平衡,这是学术界需要关注的问题.

7总结

工业化时代的学科分类为推动社会进步做出了巨

大贡献,随着后工业化时代的到来,这种学科划界越来越成为人们思想上的羁绊.计算机科学的基础虽然基于电子学等自然科学,但集成电路、操作系统等都不是自然界客观存在的,是人类智慧的产物.因此哲学家Popper 称其为“第三世界科学”以别于自然科学.计算机科学既依赖于自然科学的发现又依赖于人的创造,既独立于人的意志之外又受人的意志驱动.正是由于学科的特殊性,将社会科学与计算机科学结合起来进行研究,越来越成为人们的共识.社会计算为人类发现自身价值提供了更多的机会,计算语言学、计算人类学、计算广告学、城市计算等跨学科研究领域不断产生.社会计算的研究还处于起步阶段,本文作了一些初步的探索,分析了社会计算产生的历史背景、学科分类,给出了确切的定义,对现有的研究工作及方法进行了归纳总结,最后指出了大数据时代社会计算面临的挑战性问题.希望能为研究人员提供参考.

参考文献

[1] Zhu Hongwen.Study of the nature of social science [J].Academic Monthly,

1999,31(11):33-40(in Chinese)

(朱红文.社会科学性质再探[J].学术月刊,1999,31(11):33-40)[2] Zheng Hangsheng.Introduction to sociology[M].Beijing:China Renmin

University Press,2003:1-3(in Chinese)

(郑杭生.社会学概论新修 [M].北京:中国人民大学出版社,2003:1-3)

[3] Castellani B,Hafferty F W.Sociology and Complexity Science:A New Area

of Inquiry[M].Germany:Springer,2009:246

[4] Zhu Hongwen.The nature of social science and its relationship with the

humanities[J].Philosophical Researches,1998(12):29-36(in Chinese)(朱红文.社会科学的性质及其与人文科学的关系[J].哲学研究,1998(12):29-36)

[5] Castellani B,Hafferty F W.Sociology and Complexity Science:A New Area

of Inquiry[M].Germany:Springer,2009:14-15

[6] Licklider J C R.Man-computer symbiosis[J].IRE Trans.on Human Factors

in Electronics, 1960,HFE-1:4-11

[7] Licklider J C R,Taylor R W.The computer as a communication

device[J].Science and technology,1968,76(4):21-31

[8] Hiltz S R,Turoff M.The Network Nation:Human Communication Via

Computer[M].Boston:Addison-Wesley,1978

[9] Subramanian R.Starr Roxanne Hiltz:pioneer digital sociologist[J].IEEE

Annals of the History of Computing,2013,35(1):78-85

[10] Schuler D.Social computing[J].Communications of the ACM,37(1),

1994:28-29

[11] Dryer D C,Eisbach C,Ark W S.At what cost pervasive? a social computing

view of mobile computing systems[J].IBM Systems Journal,1999,38(4):652-676

[12] Wang Feiyue,Carley K M,et al.Social computing:from social informatics

to social intelligence[J].IEEE Intelligent Systems,2007,22(22):79-83 [13] Musser D,Wedman J,Laffey J.Social computing and collaborative learning

environments[C] //Proc of the 3rd IEEE International Conference on

Advanced Learning Technologies,Piscataway,NJ:IEEE,2003:520-521 [14] Li Jianhui.Toward computationalism[J].Journal of Dialectics of Nature,

2003,25(3):31-36(in Chinese)

(李建会.走向计算主义[J].自然辩证法通讯,2003,25(3):31-36)[15] Liu Xiaoli.Querying computationalism [J].Philosophical Researches,2003

(4):88-94(in Chinese)

(刘晓力.计算机主义质疑[J].哲学研究,2003(4):88-94)

[16] Peter R M,Noshir S C.Theories of Communication

Networks[M].Translated by Chen Yu,Liu Ying.Beijing:China Renmin University Press,2009:276-276(in Chinese)

(彼得·R·芒戈,诺什·S·康特拉克特.传播网理论[M].陈禹,刘颖,译.北京:中国人民大学出版社,2009:276-276)

[17] Faust K,Skvoretz J.Comparing networks across space and time,size and

species[J].Sociological Methodology,2002,32(1):267-299

[18] Freeman L.What is social network analysis? [EB/OL]. [2013-05-23].

https://www.360docs.net/doc/8a14476721.html,/what_is_sna.html

[19] Wasserman S,Faust K.Social Network Analysis:Methods and

Applications[M].Translated by Chen Yu,Sun Caihong.Beijing:China

Renmin University Press,2011(in Chinese)

(斯坦利沃瑟曼,凯瑟琳福斯特.社会网络分析:方法与应用[M].陈

禹,孙彩虹,译.北京:中国人民大学出版社,2012)

[20] Milgram S.The small-world problem[J].Psychology Today,1967,1(1):

61-67

[21] Watts D J,Strogatz S H.Collective dynamics of small-world’

networks[J].Nature,1998,393(4):440–442

[22] Barabási A L,Bonabeau E.Scale-free networks[J].Scientific American,

2003,288(5):50–59

[23] Granovetter M.The strength of weak ties[J].American Journal of Sociology,

1973,78(6):1360–1380

[24] Burt R S.Structural holes and good ideas[J].American Journal of Sociology,

2004,110(2):349–99

[25] Easley D,Kleinberg J.Networks,Crowds,and Markets:Reasoning About

a Highly Connected World[M].Translated by Li Xiaoming,et al.Beijing:

Tsinghua University Press,2011:299-314(in Chinese)

(大卫伊斯利,乔恩克莱因伯格著.网络、群体与市场:揭示高度互

联世界的行为原理与效应机制[M].李晓明,等译.北京:清华大学出

版社,2011:299-314)

[26] Castellani B,Hafferty F W.Sociology and Complexity Science:A New Area

of Inquiry[M].Germany:Springer,2009:154-159

[27] Halpin B.Simulation in sociology[J].American Behavioral Scientist,1999,

42(10):1488–1508

[28] Lazer D,Pentland A,et al.Life in the network:the coming age of

computational social science[J].Science,2009,323(5915):721-723 [29] Han Jiawei,et al.Data Mining:Concepts and Techniques[M]. Translated

by Fan Ming,Meng Xiaofeng.3rd ed.Beijing:China Machine Press,

2012 (in Chinese)

(韩家炜,等.数据挖掘:概念与技术[M].范明,孟小峰,译.3版.北

京:机械工业出版社,2012)

[30] Lugano G.Social computing:a classification of existing paradigms[C]//Proc

of 4th ASE/IEEE International Conference on Social Computing,Piscataway,NJ:IEEE,2012:377-382

[31] O'Reilly T.What is Web2.0:design patterns and business models for the

next generation of software [EB/ OL].(2005-09-30)

[2013-05-26].http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/0

9/30/what-is-web-20.html

[32] Ali-Hassan H,Nevo D,et al.Organizational social computing and employee

job performance:the knowledge access route[C] //Proc of the 44th Hawaii

International Conference on System Sciences,Piscataway,NJ:IEEE,2011:

1-10

[33] Tang Lei,Liu Huan.Community Detection and Mining in Social

Media[M].Translated by Wen Yimin,Bi Yingzhou. Beijing:China Machine Press,2013(in Chinese)

(唐磊,刘欢.社会计算:社区发现和社会媒体挖掘[M].文益民,闭

应洲,译.北京:机械工业出版社,2013)

[34] Robles C,Benner J.A tale of three cities:looking at the trending feature on

foursquare[C] // Proc of 4th ASE/IEEE International Conference on Social

Computing,Piscataway,NJ:IEEE,2012:566-571

[35] Golder S A,Macy M W.Diurnal and seasonal mood vary with work,sleep,

and day length across diverse cultures[J].Science,2011,333(6051):

1878-1881

[36] Wang Feiyue,Zeng D,et al.A study of the human flesh search engine:

crowd-powered expansion of online knowledge[J].IEEE Computer Society,2010,43(8):45-53

[37] Zhang Qingpen,Wang Feiyue,et al.Understanding crowd-powered search

groups:a social network perspective[J].PLoS ONE,2012,7(6):1-16 [38] IBM.IBM,Caltrans,and UC Berkeley aim to help computers avoid

congested roadways before their trip begins[EB/OL].(2011-04-13)

[2013-05-26]. http://www-03.ibm.com/press/us/en/pressrelease/34261

.wss

[39] Ling K,Beenen G,et al.Using social psychology to motivate

contributions to online communities[C] //Proc of CSCW2004,New York,

NY:ACM,2004:212-221

[40] Adam N R,Shafiq B,Staffin R.Spatial computing and social media in the

context of disaster management[J].IEEE Intelligent Systems, 2012,27

(6):90-97

[41] Meng Xiaofeng,Ci Xiang.Big data management:concepts,techniques and

challenges[J].Journal of Computer Research and Development,2013,50

(1):146-169(in Chinese)

(孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发

展,2013,50(1):146-169)

[42] Hey T,Tansley S,Tolle K.The fourth paradigm:data-intensive scientific

discovery [M/OL].Redmond,Washington:Microsoft Research,

2009.[2013-06-04].http://research.microsoft.com/en-us/collaboration/

fourthparadigm/

[43] Schonberger V M,Cukier K.Big data:a revolution that will transform how

we live,work,and think[M].Translated by Sheng Yangyan,Zhou

Tao.Hangzhou:Zhejiang People’s Publishing House Press,2012(in Chinese)(维克托迈尔舍恩伯格,肯尼思库克耶.大数据时代:生活、工作

与思维的变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012)[44] Watts D J.A twenty-first century science[J].Nature,2007,445(7127):

489

[45] Backstrom L,Boldi P,et al.Four degrees of separation[C]//Proc of

WebSci12,New York,NY:ACM,2012:33-42

[46] Watts D J.The“new”science of networks [J].Annual Review of Sociology,

2004,30(8):264-264

[47] BianYanjie.The ten lectures of social networks theory

[EB/OL].(2007-11-09)[2013-06-04].http://www.sociologyol.org/-

shehuixuedongtai/xinwengonggao/xinwengonggaoliebiao/2007-11-09/3907

.html

[48] Xie Yu.Otis Dudley Duncan’s Legacy:The demographic approach to

quantitative reasoning in social science [J].Research in Social Stratification and Mobility,2007,25(2):141-156

[49] Xie Yu.Sociological Methodology and Quantitative Research[M].Beijing:

Social Sciences Academic Press,2012:1-31(in Chinese)

(谢宇.社会学方法定量研究[M].北京:社会科学文献出版社,2012:1-31)

[50] Morstatter F,Liu Huan,Zeng D.Opening doors to sharing social media

data[J].IEEE Intelligent Systems,2012,27(1):47-51

[51] de Montjoy Y A,Hidalgo C A,et al.Unique in the crowd:the privacy

bounds of human mobility[J].Scientific Reports,2013,3(1376):1-5 Meng Xiaofeng,born in 1964.Professor and PhD supervisor at

Renmin University of China.Executive member of China

Computer Federation.His main research interests include cloud

data management,Web data management,flash-based databases,

privacy protection etc.Email:xfmeng@ruc.edu.cn

Li Yong,born in 1979.PhD candidate at Renmin University of

China.Student member of China Computer Federation.He is a

lecturer in Northwest Normal University.His main research

interests include social computing,big data etc.

Jonathan J.H.Zhu is a professor in Department of Media and

Communication at the City University of Hong Kong.His current

research focuses on the structure,content,use,and impact of

social media and e-social science. Email:j.zhu@cityu.edu.hk

“互联网+”与大数据时代机遇与挑战试题与答案20178月

《“互联网+”与大数据时代的机遇与挑战》在线考试 时间限制:90分钟 一、单项选择题(共20小题,每小题2分) 1.()以满足消费者在互联网中的消费需求为主要目标,其商业模式以眼球经济为主。 A. 产业互联网 B. 消费互联网 C. 移动互联网 D. 桌面互联网 2.以下哪项新兴经济形态对双方来说都是共赢()。 A. 生态经济 B. 平台经济 C. 共享经济 D. 网红经济 3.根据本讲,以下不属于“十三五之歌”的特点的是()。 A. 贴近西方受众 B. 符号接近性 C. 着重对外交问题阐述立场和主张 D. 解释性叙事 4.本讲提到,政府提出的“放管服”中的“放”是指要()。 A. 促进公平竞争 B. 降低准入门槛 C. 强化监管

D. 提高服务效率 5.根据本讲,不属于开放数据的特征的是() A. 机器不可读 B. 开放的 C. 结构化的 D. 有高利用价值的 6.本讲提到,新技术或者新业态在实施的过程中,其实是()的重新布局。 A. 制度 B. 利益 C. 产业 D. 规则 7.()是以信息物理系统为核心,以智能工厂为载体,以数据互连互通为主线,以产品生产管理与服务等产品生命周以定制化、分散化生产方式为主要特征。 A. 智能生产 B. 智能制造 C. 智能加工 D. 智能售后 8.流通型电子商务产业生态的核心是() A. 互联网金融 B. 电子商务平台 C. 网上支付和网上物流环节的完善 D. 线上和线下电子商务的融合发展 9.互联网信息化的发展的动力是()

A. 技术创新 B. 原创性创新 C. 机制创新 D. 模式创新 10.信息的目的性与特定社会活动相关性又称为()。 A. 信息异构 B. 信息冗余 C. 职能型 D. 职属性 11.根据本讲,2012到2016年间全世界网民数量增加的后25亿人主要以()为主。 A. 意见领袖 B. 有影响力的人 C. 中产阶级 D. 草根和青年网民 12.本讲提到,()从中科院高能物理所发出我国第一封电子邮件,揭开了中国人使用Internet的序幕。 A. 1978年 B. 1987年 C. 1990年 D. 1991年 13.根据本讲,从政策角度,互联网发展带来的新挑战不包括()。 A. 对监管政策的挑战 B. 对法律制度的挑战

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

云计算与大数据是什么关系

云计算与大数据是什么关系? 现在我们提及大数据往往是和云计算联系在一起的,虽然总这样说,但有谁知道云计算和大数据之间的关系,我相信大部分人知道的知识一些皮毛的知识,那下面我们就来具体看一下云计算和大数据到底什么关系。 云计算的关键词在于‘整合’,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。 大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。 大数据处理 他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。 两者关系: 首先,云计算是提取大数据的前提。 信息社会,数据量在不断增长,技术在不断进步,大部分企业都能通过大数

据获得额外利益。在海量数据的前提下,如果提取、处理和利用数据的成本超过了数据价值本身,那么有价值相当于没价值。来自公有云、私有云以及混合云之上的强大的云计算能力,对于降低数据提取过程中的成本不可或缺。 其次,云计算是过滤无用信息的‘神器’. 首次收集的数据中,一般而言,90%属于无用数据,因此需要过滤出能为企业提供经济利益的可用数据。在大量无用数据中,重点需过滤出两大类,一是大量存储着的临时信息,几乎不存在投入必要;二是从公司防火墙外部接入到内部的网络数据,价值极低。云计算可以提供按需扩展的计算和存储资源,可用来过滤掉无用数据,其中公有云是处理防火墙外部网络数据的最佳选择。 再次,云计算可高效分析数据。 数据分析阶段,可引入公有云和混合云技术,此外,类似Hadoop的分布式处理软件平台可用于数据集中处理阶段。当完成数据分析后,提供分析的原始数据不需要一直保留,可以使用私有云把分析处理结果,即可用信息导入公司内部。最后,云计算助力企业管理虚拟化。 可用信息最终用来指导决策,通过将软件即服务应用于云平台中,可将可用

大数据时代社会治理方式创新

大数据时代社会治理方式创新

大数据时代社会治理方式创新 2014年12月08日09:08 来源:学习时报 原标题:大数据时代社会治理方式创新 编者按:互联网、物联网、大数据、云计算等现代技术正在深度改变人们的生活、工作和思维方式。大数据时代给社会治理提出了新机遇和新挑战,因此,应适应大数据时代社会需要,变革社会治理方式。推进大数据时代社会治理方式创新,无论从理论上还是实践上看,都是一个全新的课题。作为我国改革开放的前沿地带,深圳市福田区在运用大数据手段推进社会治理方式创新方面再一次走到了全国的前面,率先进行了探索,对于研究大数据时代社会治理方式创新,具有重要的理论和实践意义。 深圳市福田区社会治理方式创新的实践探索 大数据时代,只有让政府以及各社会主体在合理共享各种最新数据的基础上,发挥各自的优势,深度挖掘数据的价值,在提供公共服务的方式、内容和机制上不断创新,以适应快速变化的社会需求和环境,才能不断提高我国的国家治理能力和实现社会治理方式的创新。深圳市福田区充分认识基础数据的重要性,在如何保证动态、精准、充分占有基础数据方面进行了卓有成效的创新和探索。 突出大数据理念 针对大数据时代社会治理的特点,深圳市福田区在推进社会治理创新方面,树立大数据理念,推动智慧福田建设。 大数据应用的核心是数据处理。大数据应用要充分挖掘数据价值,进行深度应用。为此福田区提出实现“让数据多跑腿,让群众少跑路”的目标,以“采、用、享、碰、推、嵌”六个字来概括数据应用理念。 “采、用、享”是传统的数据应用,是信息化建设的第一次革命;“碰、推、嵌”是大数据时代的智能应用,是信息化建设的第二次革命,以“碰、推、嵌”的可视化倒逼“采、用、享”的进一步质量提升,指导前期系统的改造。其中“碰”即数据碰撞。如将街道计生执法、人民调解、安监执法、派出所接报的发案的出租屋,与未自主申报出租屋比对碰撞,推送给街道综管执法人员,

大数据时代的机遇与挑战论文3000字[精品文档]

大数据时代的机遇与挑战 什么是大数据时代? “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据时代是怎样产生的? 物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累,数据是人类社会最重要的财富大数据时代的到来 大数据时代的特点? 1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 2.类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 3.价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 4.速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。 大数据时代的机遇 大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。建立大数据中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。对社会大数据进行历时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。

大数据题目及参考答案

公需科目大数据培训考试 考试时间:120分钟 选择题中红色代表正确答案,判断题X为错,R为对。 1.根据涂子沛先生所讲,摩尔定律是在哪一年提出的?(单选题1分) A.1988年 B.2004年 C.1965年 D.1989年 2.2015年,贵阳市的呼叫服务产业达到()坐席。(单选题1分) A.3万 B.5万 C.10万 D.20万 3.以下说法错误的是哪项?(单选题1分) A.大数据的思维方式遵循因果逻辑推理 B.摩尔定律是戈登?摩尔提出的 C.图灵测试是阿兰·图 D.ENIAC于1946年诞生 4.茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题1分) A.北大 B.清华 C.浙大 D.复旦 5.促进大数据发展部级联席会议在哪一年的4月13日召开了第一次会议?(单选题1分) A.2014年 B.2015年 C.2013年 D.2016年 6.根据涂子沛先生所讲,哪一年被称为大数据元年?(单选题1分) A.2012年 B.2010年 C.2008年 D.2006年 7.数据、信息与知识三者之间的变化趋势是(单选题1分) A.价值先增后减 B.价值递减 C.价值递增 D.价值不变 8.具体来说,摩尔定律就是每()个月,产品的性能将提高一倍。(单选题1分) A.18 B.16 C.12 D.6 9.“()大数据交易所”2015年4月14日正式运营,目前,交易所已有包括京东、华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。(单选题1分)

A.毕节 B.安顺 C.贵阳 D.遵义 10.()说明如果联网越多,从介入方式、技术上越来越突破,则网络规模越大、成本越低,网络的成本可能会趋向于零。(单选题1分) A.吉尔德定律 B.摩尔定律 C.梅特卡尔夫定律 D.新摩尔定律 11.以下说法错误的是哪项?(单选题1分) A.大数据会带来机器智能 B.大数据不仅仅是讲数据的体量大 C.大数据的英文名称是large data D.大数据是一种思维方式 12.美国首个联邦首席信息官是下列哪位总统任命的?(单选题1分) A.克林顿 B.奥巴马 C.小布什 D.老布什 13.截至2015年年底,全国电话用户总数达到()。(单选题1分) A.13.37亿户 B.12.37亿户 C.14.37亿户 D.15.37亿户 14.2012年全国各城市支付宝人均支出排名中,位居第七位的是()(单选题1分) A.嘉兴市 B.台中市 C.高雄市 D.嘉义市 15.吴军博士认为过去五十年是()的时代。(单选题1分) A.科尔定律 B.艾尔定律 C.摩尔定律 D.拉尔定律 16.ENIAC诞生于哪一年?(单选题1分) A.1946年 B.1938年 C.1940年 D.1942年 17.梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。(单选题1分) A.正比 B.对数 C.指数 D.反比 18.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题1分) A.38 B.21 C.25 D.30 19.2012年全国各城市支付宝人均支出排名中,位居第三位的是()(单选题1分) A.嘉义市 B.杭州市 C.嘉兴市 D.高雄市

大数据与云计算的区别与关系

大数据与云计算的区别与关系 胡经国 一、大数据与云计算的区别 大数据与云计算是两个有着本质区别的科学概念和范畴。它们主要在其定义和特点(特性或特征)以及体系架构、理论技术、服务模式和应用领域等方面都具有本质的区别。对此,本文作者已经或将要作专文论述,在此仅例举一二。 1、定义区别 根据著名的麦肯锡全球研究所给出的定义,大数据是指一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低4大特征。 而云计算则是指一种基于互联网的计算模式;通过这种模式,共享的软硬件资源和信息,可以按需求提供给计算机和其他设备。 2、定义范围区别 从二者的定义范围来看,大数据要比云计算更加广泛。大数据这一概念从2011年诞生以来,已历经8个年头。中国从积极推动两化融合到深度融合,也有14年之久。再者,从各地纷纷建设大数据产业园可以看出,中国极其看重大数据的发展契机。 3、作用区别 云计算改变了IT,而大数据则改变了业务。当然,大数据必须有“云”作为基础架构,才能得以顺畅运营。 4、目标受众区别 云计算是CIO(Chief Information Officer,首席信息官——一种新型的信息管理者)等所关注的技术层;而大数据则是CEO(Chief Executive Officer,首席执行官)所关注的业务层产品。 二、大数据与云计算的关系 1、大数据与云计算的关系概述 通常,人们把大数据与云计算的关系比着一个硬币的两面。云计算是大数据的IT基础,而大数据则是云计算的一个杀手级应用。云计算是大数据成长的驱动力;而另一方面,由于数据越来越多、越来越复杂、越来越实时,因而就更加需要云计算去加以处理。所以,二者之间的关系是相辅相成的。

大数据与云计算论文

大数据与云计算 摘要:大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及, 并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本 专题报告包含以下四个方面内容:1. 大数据的价值;2. 大数据带来的挑战;3. 大数据研究成果; 4. 云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,大数据主要着眼于“数据”,提供数据采集、挖掘、分析的技术和方法; 云计算技术主要关注“计算”,提供IT 解决方案。大数据、云计算技术可以促进持续审计方式的发展、总体审计模式的应用、审计成果的综合应用、相关关系证据的应用、高效数据审计的发展和大数据审计师的发展。强化大数据、云计算技术审计应用的措施包括制定长远发展战略、加快审计法规建设、建立行业平台、加强研发和提高利用能力。 关键词:大数据云计算数据挖掘对审计影响政策建议 引言 目前,大数据伴随着云计算技术的发展,正在对全球经济社会生活产生巨大的影响。大数据、云计算技术给现代审计提供了新的技术和方法,要求审计组织和审计人员把握大数据、云计算技术的内容与特征,促进现代审计技术和方法的进一步发展。 一、大数据、云计算的涵义与特征 随着云计算技术的出现,大数据吸引了全世界越来越多的关注。哈佛大学社会学教授加里·金( 2012) 说: “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” ( 一) 大数据的涵义与特征 “数据”( data) 这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。2009 年,“大数据”概念才逐渐开始在社会上传播。而“大数据”概念真正变得火爆,却是因为美国奥巴马政府在2012 年高调宣布了其“大数据研究和开发计划”。这标志着“大数据”时代真正开始进入社会经济生活中来了。“大数据”( big data) ,或称巨量资料,指的是所涉及的数据量规模大到无法利用现行主流软件工具,在一定的时间内实现收集、分析、处理或转化成为帮助决策者决策的可用信息。互联网数据中心( IDC)认为“大数据”是为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。大数据具有4 个特点: 第一,数据体量巨大( Volume) ,从TB 级别跃升到PB 级别。第二,处理速度快( Velocity) ,这与传统的数据挖掘技术有着本质的不同。第三,数据种类多( Variety) ,有图片、地理位置信息、视频、网络日志等多种形式。第四,价值密度低,商业价值高( Value) 。存在单一数据的价值并不大,但将相关数据聚集在一起,就会有很高的商业价值( 金良,2012) 。大数据时代,不仅改变了传统的数据采集、处理和应用技术与方法,还促使人们思维方式的改变。大数据的精髓在于促使人们在采集、处理和使用数据时思维的转变,这些转变将改变人们理解和研究社会经济现象的技术和方法。 (1)是在大数据时代,不依赖抽样分析,而可以采集和处理事物整体的全部数据。19 世纪以来,当面临大的样本量时,人们都主要依靠抽样来分析总体。但是,抽样技术是在数据缺乏和取得数据受限制的条件下不得不采用的一种方法,这其实是一种人为的限制。过去,因为记录、储存和分析数据的工具不够科学,只能收集少量数据进行分析。如今,科学技术条件已经有了很大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大量增加,而且未来会越来越多。随着大数据分析取代抽样分析,社会科学不再单纯依赖于抽样调查和分析实证数据,现在可以收集过去无法收集到的数据,更重要的是,现在可以不再依赖抽样分析。 (2)是在大数据时代,不再热衷于追求数据的精确度,而是追求利用数据的效率。当测量事物的能力受限制时,关注的是获取最精确的结果。但是,在大数据时代,追求精确度已经既无必要又不

大数据与云计算研究报告

(说明:此文为WORD文档,下载后可直接使用)

摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念的“云计算(Cloudcomputing)”正高速发展,“数据即资源”的“大数据(bigdata)”时代已经来临[1]。大数据利用对数据处理的实时性、有效性提出了更高要求,需要根据大数据特点对传统的常规数据处理技术进行技术变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。如何更好地管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生。本文所提到的大数据包含着云计算,因为云计算是支撑大数据的平台。 关键词:大数据云计算数据分析数据挖掘

引言 在学术界,大数据这一概念的提出相对较早。2008年9月,《自然》杂志就推出了名为“大数据”(bigdata)的专刊。2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的下一个前沿》(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)的研究报告,指出大数据将成为企业的核心资产,对海量数据的有效利用将成为企业在竞争中取胜的最有力武器。2012年,联合国发布大数据政务白皮书,指出大数据可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。2012年3月29日,奥巴马政府发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划,标志着美国把大数据提高到国家战略层面,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。 大数据应用正在风靡全球,大数据精准营销成为企业掌舵者的口头禅,那么大数据真的是无懈可击吗?答案显然是否定的。随着互联网和移动设备的普及,大数据已经在我们的生活中无处不在,而有关大数据与隐私的问题也日益受到关注。毫无疑问,未来可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现有关于一个人的未来信息。另外市场是变化无常并且不可预期的,决策者的创造性思维并不能通过数据得以体现,相反,大数据在压制创新。大数据搜集到的数据的真实性也有待检验。一个人获得的数据和事实越多,预测就越有意义,人的判断也就显得愈发

社会计算_大数据时代的机遇与挑战.

2488()计算机研究与发展2013,5012第2个转变是不再追求精确度.与银行、电信等社会计算是对社会动态行业的精确计算需求不同,的反映,当拥有海量即时数据时,绝对的精准不再是适当忽略微观层面上的精确度,会追求的主要目标,让社会科学在宏观层面拥有更好的洞察力.第3个转变是不再热衷于寻找事物间的因果关系,而应该寻找相互之间的相关关系.社会科学中的只能研究原因的结果(因果关系是概率性的,effects),),而不是结果的原因(causescausesofeffectsof相关关系也许不能准确地说明一个社会现象发生的原因,但是它会揭示其发展过程.5.3工业界亟待解决的问题社会媒体在互联网上迅猛发展,计算广告、人脸识别等技术在工业领域的广泛应用,虚拟社会如何已成为当前社会计算应用的良性运行与协调发展,主要挑战.例如,电子商务企业在线交易中,虚假数据带来虚拟社会严重的信任危机,但当前反作弊业务流程主要关注算法的精确性和结果的可解释性,而作弊行为有突发性的特点,单规则认定作弊行为具有不确定性特点,基于这种方法解决虚假交易只,能“ 堵” 无法“ 疏” 需要学术界探索解决这一问

题.工例如在线广告中业界还提出很多亟需解决的问题,展示广告与搜索行为之间的关系问题、大规模用户群的行为预测、同一个用户在不同网络终端个体识欺诈检测等问题.别、5社会计算研究现状社会计算作为一种新的研究范式,已引起了国工业界的普遍关注.内外学术界、2012年11月15日,第4届全国社会计算学术会议(ChinaNational,N在中ConferenceonSocialComutinCSC2012)pg国人民大学举行,来自国内外计算机、管理学、经济学、新闻学、社会学、物理学等学科以及工业界44名专家学者发表演讲,全国37所大学和研究机构超过在这次会议上,形成了鲜明的两300人次参会研讨.以技术为主导的学科和工业界普遍对大数种观点,据时代的社会计算持乐观的态度,而社会科学领域学者持过度谨慎的看法.5.1技术乐观派计算机、物理学、经济学等学科学者以及工业界普遍认为,大数据时代的社会计算为科学研究提供蕴藏了大量有重大价值的研究课题,为了不同视角,社会预测创造了条件,为大数据在国民经济发展和本世纪的第2社会安全中的应用提供了理论思路.个1不断有新的突0年是复杂性科学深入各个领域、破且面临更大挑战的时代,许多重要复杂系统迫切需要运用社会计算研究方法,通过实证统计和理论模型分析相结合的手段进行全新的认识和探索.5.2理论谨慎派社会科学界对大数据时代的社会计算所持的态度比较谨慎.他们认为当前大数据的概念大而空洞,就数据论数据,忽视人性,带来了很大挑战.对大数据分析大多处于商业应用层面,没有上升到社会科学层面.如何运用社会科学理论来指导社会计算,特别需要提出新的理论来指导大数据对社会动态的分这是学术界亟需突破的问题.析,6社会计算面临的挑战6.1学科壁垒的挑战“ 、“ 小世界” 结构洞” 等一系列影响深远的研究成果被发现之后,社会网络分析工作引起许多研究不仅社会学家跟踪研究,大量物理学、人员的关注,计算机等学科研究人员也开始关注社会网络分析.近年来,用数学模型和各种算法对在线社会网络进发表了海量的论文,但这些研究工作大多是行分析,不断重复许多早期社会网络研究成果,用非常简单虽然取得

浅谈大数据时代的机遇与挑战

湖南农业大学课程论文学院:信息科学技术学院班级:计算机1班姓名:XXX 学号:2015XXXX 课程论文题目:浅谈大数据时代的机遇与挑战 课程名称: 评阅成绩: 评阅意见: 成绩评定教师签名: 日期:年月日

课程论文题目 ——浅谈大数据时代的机遇与挑战 学生:XXX (信息科学技术学院计算机1班) 摘要:随着时代的发展,大数据这个词慢慢进入了人们的视野的当中,而大数据也与我们的生活关联越来越紧密,对我们的影响也越来越大。怎么样才能把握住机遇,在大数据时代中脱颖而出,怎么样才能在大数据时代到来的挑战中稳步前行。 关键词:大数据;机遇与挑战;大数据时代分析 Abstract:with the development of The Times, the word big data slo wly into the people's horizons, and big data is linked to our life more and more closely, to our influence is growing. How to seize the opportunity, in the era of big data, how can ability in the er a of big data move steadily in the coming challenges. Key Words: Big data; Opportunities and challenges; The era of big da ta analysis

一、绪论 (一)什么是大数据? “大数据”作为时下最火热的IT行业的词汇在互联网时代显得越来越重要。大数据究竟有多大?大数据能做些什么?在新互联网时代,这些词汇让我们应接不暇。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据还有四个特性分别是数据量大,种类多,速度快,价值大。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(二)大数据能做些什么? 大数据的应用示例包括了大科学、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。仅仅十余年,现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。二、本论 (一)大数据的重要性 1.大数据的处理分析正成为新一代信息技术融合应用的结点 有专家指出,大数据及其分析,会在未来10年改变几乎每一个行业的业务功能,从科学研究到保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业,根据数据预测,如果具备相关的IT设施,数据投资和分析能力等条

大数据时代题目及答案(三套试题仅供参考)

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别

课后作业答案云计算与大数据

第一章 1.硬件驱动力网络驱动力 2.西摩·克雷(Seymour Cray) 3.约翰·麦卡锡 4.蒂姆·博纳斯·李 5.吉姆·格雷 6.Java 7.基础设施即服务平台即服务软件即服务 8.(1) 超大规模 “云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。 (2) 虚拟化 云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。 (3) 高可靠性 “云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4) 通用性 云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。 (5) 高可扩展性 “云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 (6) 按需服务 “云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。 (7) 极其廉价 由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。 云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。 (8) 潜在的危险性 云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都

浅谈基于大数据时代的机遇与挑战

浅谈基于大数据时代的机遇与挑战 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 随着信息时代的到来,大数据(Big Data)一词逐渐被人们认知和熟悉,其常被用于定义和描述“信息爆炸时代产生的海量数”。随着“大数据”时代的来临,在商业、经济及其他领域中,人们做出决策不仅仅依靠经验和直觉,常以数据分析作为决策依据,这种方式大大提高了决策的科学性,最大限度避免决策失误。用好大数据,必将对商业发展、科学研究和政府决策产生积极的影响。 1 大数据的基本概况 大数据(Big Data)是指那些超过传统数据库系统处理能力的数据,其具有以下四个基本特性,即海量性、多样性、易变性、高速性。同时数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等也是其主要特征。 2 大数据的时代影响 大数据,对经济、政治、文化等方面都具有较为深远的影响,其可帮助人们进行量化管理,更具科学性和针对性,得数据者得天下。大数据对于时代的影

响主要包括以下几个方面: (1)“大数据决策”更加科学有效。如果人们以大数据分析作为基础进行决策,可全面获取相关决策信息,让数据主导决策,这种方法必将促进决策方式的创新和改变,彻底改变传统的决策方式,提高决策的科学性,并推动信息管理准则的重新定位。2009 年爆发的甲型H1N1 流感就是利用大数据的一个成功范例,谷歌公司通过分析网上搜索的大量记录,判断流感的传播源地,公共卫生机构官员通过这些有价值的数据信息采取了有针对性的行动决策。 (2)“大数据应用”促进行业融合。虽然大数据源于通信产业,但其影响绝不局限于通信产业,势必也将对其他产生较为深远的影响。目前,大数据正逐渐广泛应用于各个行业和领域,越来越多的企业开始以数据分析为辅助手段加强公司的日常管理和运营管理,如麦当劳、肯德基、苹果公司等旗舰专卖店的位置都是基于大数据分析完成选址的,另外数据分析技术在零售业也应用越来越广泛。 (3)“大数据开发”推动技术变革。大数据的应用需求,是大数据新技术开发的源泉。相信随着时代的不断发展,计算机系统的数据分析和数据挖掘功能将逐渐取代以往单纯依靠人们自身判断力的领域应用。借

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

云计算和大数据技术课程

云计算与大数据课程项目设计任务书 一、题目简介 近几年,随着新技术的出现和发展,尤其是云计算技术的出现,以及大数据的运用,对网络技术带来了革命的转变,学校如何顺应时代发展并将新技术应用于校园信息化建设中,改变传统的教学模式和学习模式至关重要。作为学校机房建设长期存在几个难题:建设成本高、管理维护困难、更新换代快。本设计将以学校机房建设为目标,将云计算技术合理运用到机房建设中,合理、高效地完成实践教学,解决学校机房在运行维护中出现的各种问题。 通过该题目的分析和设计,使学生合理将云技术和大数据运用进行,全面培养软件开发过程中的分析设计、文档规范书写等能力,得到软件工程的综合训练,提高解决实际问题的能力。 二、设计任务 1、查阅文献资料,一般在5 篇以上; 2、针对以云计算和大数据为基础的机房建设设计,锻炼学生的分析、设计能力,培养学生对软件文档规范的书写能力; 3、以机房建设业务为背景,通过调研、分析现有的模式,建立系统模型; 4、完成以云计算和大数据为基础机房建设的详细设计方案以及架构; 5、撰写设计说明书; 三、主要内容、功能及技术指标基于云计算大数据的机房建设的总体目标是:利用云计算相关技术缓解硬件更新、软件的安装、升级和机房安全方面的压力,延长机房维护周期,加大机房安全、减少机房建设投入。 整个设计方案应详细完整的实施过程,包括使用的技术手段,如何进行网络布局,机群的分布,网络的模式和和架构等; 四、设计完提交的成果 1、设计说明书一份,(字数控制在1500-2500 范围,最后打印和提交电子文档)内容包括:

1)封面 2)序言 3)可行性分析,包括学校机房存在的问题,云计算和大数据有何优势以及技术特点等 4)项目开发计划 5)详细设计方案以及架构, 8)参考文献、设计总结等。

相关文档
最新文档