大数据(BigData)科学问题研究

合集下载

大数据是什么

大数据是什么

大数据是什么大数据(Big Data)是指规模巨大、复杂度高且难以用传统数据处理工具进行处理和分析的数据集合。

它通常具有以下特征:数据量大、数据类型多样、数据生成速度快以及数据价值密度低。

大数据的处理和分析需要借助先进的技术和工具,以从中发现隐藏的模式、趋势和关联性,从而为决策和创新提供支持。

大数据的特征:1. 数据量大:大数据的数据量通常以TB(Terabyte,千亿字节)或PB (Petabyte,百万亿字节)为单位进行计量。

这些数据来自于各种来源,如社交媒体、传感器、日志文件等。

2. 数据类型多样:大数据可以包含结构化数据(如关系数据库中的表格数据)、半结构化数据(如XML文件、JSON文件)和非结构化数据(如文本、图像、音频、视频等)。

3. 数据生成速度快:大数据的生成速度非常快,例如社交媒体上每秒钟产生的推文数量、传感器收集的实时数据等。

4. 数据价值密度低:大数据中的很大一部分是垃圾数据或冗余数据,对于决策和创新来说并不具有实际价值。

大数据的应用:1. 商业智能和决策支持:通过对大数据的分析,企业可以从中发现市场趋势、消费者偏好、产品改进机会等,从而提高决策的准确性和效率。

2. 金融行业:大数据分析可以帮助银行和保险公司识别欺诈行为、风险管理、个性化推荐等。

3. 健康医疗:通过对大数据的分析,可以改善医疗保健服务、提高疾病预测和诊断的准确性,帮助制定个性化的治疗方案。

4. 城市管理:大数据分析可以帮助城市管理者实时监测和优化城市交通、能源消耗、环境污染等,提高城市的可持续发展。

5. 社交媒体和广告:通过对大数据的分析,可以了解用户的兴趣和行为,从而进行精准的广告投放和个性化的推荐。

6. 科学研究:大数据分析在天文学、生物学、物理学等领域有着广泛的应用,可以帮助科学家发现新的规律和知识。

大数据的处理和分析:1. 数据采集和存储:大数据的采集可以通过传感器、网络爬虫、日志文件等方式进行,采集到的数据需要存储在分布式文件系统或数据库中,如Hadoop、MongoDB等。

大数据的利与弊

大数据的利与弊

大数据的利与弊大数据(Big Data)是指规模巨大、复杂度高且多样化的数据集合。

随着科技的发展,大数据的应用越来越广泛,对社会经济、科学研究等领域产生了深远的影响。

然而,大数据也存在一些利与弊,下面将详细介绍。

一、大数据的利1. 提供更准确的决策依据:大数据分析可以从庞大的数据中提取有价值的信息,匡助企业、政府等做出更准确的决策。

例如,通过分析消费者的购买行为和偏好,企业可以调整产品策略,提高销售额。

2. 促进经济发展:大数据技术的应用可以带动相关产业的发展,创造就业机会,提升经济效益。

例如,电商平台通过大数据分析用户行为,为商家提供精准的广告投放服务,推动了电商行业的快速发展。

3. 改善公共服务:大数据分析可以匡助政府更好地了解民众需求,提供更精准的公共服务。

例如,通过分析交通流量数据,政府可以优化交通规划,减少拥堵问题。

4. 促进科学研究:大数据分析可以匡助科学家发现新的规律和趋势,推动科学研究的发展。

例如,在医学领域,大数据分析可以匡助研究人员发现新的疾病风险因素,提高疾病的预防和治疗水平。

二、大数据的弊1. 隐私问题:大数据的应用需要采集大量的个人信息,可能会侵犯用户的隐私权。

例如,一些社交媒体平台可能会采集用户的个人信息,用于精准广告投放,但用户对此并不知情。

2. 数据安全风险:大数据的存储和传输需要强大的技术支持,但也存在数据泄露和黑客攻击的风险。

一旦大数据被非法获取,可能会导致个人隐私泄露、经济损失等问题。

3. 数据质量问题:大数据集合中可能存在大量的噪声数据和错误数据,这些数据可能会对分析结果产生误导。

因此,在进行大数据分析时,需要对数据进行清洗和整理,提高数据质量。

4. 不平等问题:大数据的应用可能会加剧社会的不平等现象。

例如,一些企业通过大数据分析用户行为,可以进行精准的定价和营销,但这也可能导致不同群体之间的价格差异。

三、结论大数据的利与弊是相辅相成的,我们不能只看到其带来的好处,也不能忽视其可能带来的问题。

大数据技术和应用中的挑战性科学问题

大数据技术和应用中的挑战性科学问题

大数据技术和应用中的挑战性科学问题第89期双清论坛论证报告大数据是人类进入信息化时代的产物和必然结果。

“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望”,而这种渴望又源于人类努力改善自身生存和生活状况的无尽追求。

在人类社会发展进程中,人们观测自然现象、揭示和把握自然规律并进而用于改善自身生存和生活状况的活动从来都没有停止过。

人类揭示和运用自然规律是从观测和记录自然现象开始的,而这种观测和记录的结果要么就是数据,要么可以通过某种方法转化为数据。

人类把握和运用自然规律的能力越强,社会经济和科学技术就越发展;社会经济和科学技术越发展,人类揭示和运用自然规律的愿望和需求就越强烈,结果是获取和存储的观测数据就会越来越多。

伴随着近代传感器、无线通信、计算机与互联网等技术的迅猛发展及在各个领域的广泛应用,人类获取数据的手段和途径越来越多,成本越来越低,速度越来越快,所获数据的种类、层次和尺度也越来越多样化,这就在广度、速度和深度三个方面催生了大数据时代的到来。

一、开展大数据技术和应用研究的意义粗略地讲,大数据是指在可容忍的时间内无法用现有的信息技术和软硬件工具对其进行传输、存储、计算与应用等的数据集合。

与传统意义上的数据概念相比,大数据具有如下几个显著特征:(1)数据规模(Volume)不断扩大,数据量已从GB(109)、TB(1012)再到PB(1015)字节,甚至已开始以EB(1018)和ZB(1021)字节来计量。

“到2013年,世界上存储的数据预计能达到1.2ZB字节。

如果把这些数据全部记录在书中,这些书可以覆盖整个美国52次;如果将之存储在只读光盘上,这些光盘可以堆成5堆,每一堆都可以伸到月球上。

”(2)数据类型(Variety)繁多,包括结构化、半结构化和非结构化数据,甚至包括非完整和错误数据。

现代互联网上半结构化和非结构化数据所占比例已达95%以上。

(3)产生和增长速度(Velocity)快。

大数据英语翻译

大数据英语翻译

大数据英语翻译1. 大数据的英语翻译是"big data"。

"big data" 是指处理和分析庞大、复杂数据集的技术和方法。

2. "big data" 是由两个单词组成的短语。

"big" 意味着数据集非常庞大,通常无法通过传统的数据处理方法来处理和分析。

而"data" 指的是收集到的各种类型的信息。

3. 大数据是在现代技术快速发展的背景下出现的。

随着互联网、传感器技术、社交媒体等信息源的爆炸性增长,我们能够收集到大量的数据,这些数据对于解决问题和做出决策具有重要意义。

4. 大数据的特点是三个"V":体量(Volume)、速度(Velocity)和多样性(Variety)。

体量指的是数据集非常庞大,数量级通常是以千、百万、甚至十亿计。

速度指的是数据的产生和流动的速度非常快,需要实时或近实时地进行处理和分析。

多样性指的是数据的类型和格式多种多样,包括结构化数据(如数据库中的表格)、半结构化数据(如XML或JSON文件)和非结构化数据(如文本、图像、视频等)。

5. 大数据的应用范围非常广泛。

在商业领域,大数据可以用于市场调研、客户分析、销售预测等。

在医疗领域,大数据可以用于研究疾病模式、个性化医疗等。

在城市规划领域,大数据可以用于交通管理、环境保护等。

在科学研究领域,大数据可以用于天文学、生物学等。

6. 大数据的处理和分析需要借助于先进的技术和工具。

其中,数据采集、数据存储、数据处理和数据可视化是关键的环节。

数据采集可以通过传感器、网络爬虫、调查问卷等方式获取数据。

数据存储可以使用分布式文件系统(如Hadoop)、关系型数据库、NoSQL数据库等技术。

数据处理可以使用分布式计算、机器学习、统计分析等方法。

数据可视化可以使用图表、地图、仪表盘等方式将数据展示出来。

7. 大数据的发展也带来了一些挑战和问题。

计算科学的名词解释

计算科学的名词解释

计算科学的名词解释计算科学是一门研究数据和信息的表示、存储、处理和传递的学科。

它涵盖了计算机科学、信息技术、数学和统计学等多个领域,是现代社会不可或缺的重要学科。

在本文中,我们将解释一些与计算科学相关的重要名词,帮助读者更好地理解这门学科。

1. 人工智能(Artificial Intelligence)人工智能是计算科学的一个重要分支,研究如何使计算机能够模拟人类的智能行为。

它包括机器学习、自然语言处理、计算机视觉等多个领域。

人工智能的目标是使计算机能够像人类一样进行推理、学习和理解。

2. 数据分析(Data Analysis)数据分析是通过数学和统计方法对数据进行处理和解释的过程。

它可以帮助我们发现数据中隐藏的模式和趋势,从而做出有效的决策。

数据分析在商业、科研和社会领域有广泛的应用,如市场调研、医学研究和社交网络分析等。

3. 机器学习(Machine Learning)机器学习是人工智能中的一个重要技术,研究计算机如何通过大量的数据进行学习,并根据学习结果做出预测或决策。

机器学习算法可以自动发现数据中的模式和规律,从而实现自主学习和智能行为。

4. 算法(Algorithm)算法是解决问题或执行任务的一系列步骤或规则。

它是计算科学中的基础概念,用于描述计算过程和数据处理。

算法的设计和分析是计算科学中的核心内容,不同的算法可以对同样的问题提供不同的解决方案和效率。

5. 云计算(Cloud Computing)云计算是一种通过互联网提供计算资源和服务的模式。

它将计算、存储和网络等资源虚拟化,用户可以按需使用,避免了传统计算模式中资源的浪费和管理的复杂性。

云计算已经成为许多企业和个人的首选,能够提供灵活和可扩展的计算能力。

6. 大数据(Big Data)大数据是指规模巨大、类型多样且变化迅速的数据集合。

由于数据量过大,传统的数据处理方法已经无法胜任,因此需要新的技术和工具来有效地存储、管理和分析大数据。

新课标名师导学高考第一轮总复习政治考点集训(三十五)探究世界的本质

新课标名师导学高考第一轮总复习政治考点集训(三十五)探究世界的本质

考点集训(三十五)对应学生用书p3031.据国外《数字期刊》网站报道,伦敦大学的科学家们在加拿大发现了迄今为止最古老的微生物化石。

这些岩石为地球上的第一批生命形式提供了栖息地,时间可以追溯到大约亿年到43亿年前。

这一发现不仅在化石年代测定方面非常重要,而且给地球上的生命起源的理论提供了证据。

这一科学发现佐证了(D)①物质决定于意识②世界的本原是物质③思维与存在具有同一性④思维是对存在的正确反映A.①②B.②④C.①③D.②③【解析】伦敦大学的科学家们在加拿大发现了迄今为止最古老的微生物化石,进一步佐证了世界的本原是物质,思维与存在具有同一性,世界上只有尚未认识之物,没有不可认识之物,②③符合题意;物质决定意识,而不是物质决定于意识,①说法错误;思维是对存在的反映,正确思维是对存在的正确反映,错误思维是对存在的错误反映,④说法错误。

故正确选项为D。

2.“物质是标志客观实在的哲学范畴,这种客观实在是人通过感觉感知的,它不依赖于我们的感觉而存在,为我们的感觉所复写、摄影、反映。

”对此理解正确的是(B)①物质是物质各种具体形态的相加之和②“客观实在”是人从万事万物中抽象出来的共同属性③物质是客观物质形态的主观映象④物质具有可知性,意识能正确地反映物质A.①③B.②④C.①②D.③④【解析】这句话告诉我们,物质的唯一特性是客观实在性,是从万事万物中抽象出来的共同属性,不以人的意志为转移。

同时物质具有可知性,意识能正确地反映物质,②④说法正确;物质是从物质具体形态中抽象出来的共性,并不是物质各种具体形态的相加之和,①说法错误;意识是对客观物质形态的主观映象,③说法错误。

故正确选项为B。

3.《极简人类史》中写道:“我们的星球已经存在了45亿年之久,生命的出现也有约35亿年。

相比之下,人类的出现则是比较晚才发生的事情,不过是地球生命史的眨眼瞬间。

尽管如此,在地球上曾经出现过的生物中,人类仍然是最有趣、最奇特的物种之一。

管理学研究中的大数据:科学问题与未来发展

管理学研究中的大数据:科学问题与未来发展

管理学研究中的大数据:科学问题与未来发展在管理学的浩瀚星空中,大数据就像是一艘扬帆远航的巨轮,承载着人们对管理决策和创新思维的梦想和希望。

然而,要想让这艘巨轮顺利航行,我们需要在实践中不断探索和优化。

本文将探讨管理学研究中的大数据:科学问题与未来发展。

首先,我们要明确管理学研究中的大数据的目标。

这就像是为这艘巨轮设定航线,它需要我们全面提高管理决策的准确性和效率,使企业在发展过程中能够更好地应对市场变化和竞争压力。

大数据是这艘巨轮的引擎,它需要我们精心挑选和搭配,确保学生在管理学研究中的大数据中能够掌握必要的知识和技能。

其次,我们要关注管理学研究中的大数据的内容。

这些内容,就像是巨轮上的货物,需要我们精心挑选和搭配。

它包括大数据的基本理论、实践技能、教学方法等,每一个方面都至关重要。

再次,我们要探讨管理学研究中的大数据的方法。

这些方法,就像是巨轮的导航系统,需要我们科学、严谨地选择和运用。

我们可以通过课程改革、实践教学、学生自主学习等手段,提高管理学研究中的大数据的效果。

然而,管理学研究中的大数据的实现并非易事。

在这个过程中,我们面临着诸多挑战和问题。

如何确保管理学研究中的大数据的质量和效果?如何平衡管理学研究中的大数据与其他学科的关系?如何解决管理学研究中的大数据资源不足的问题?这些问题的解决,需要我们在理论和实践中不断摸索和尝试。

在实践中,我们已经看到了管理学研究中的大数据带来的巨大变革。

它不仅提高了管理决策的准确性和效率,还推动了管理学的创新和发展。

然而,这只是一个开始。

未来,随着教育改革的不断深入和素质教育的不断发展,管理学研究中的大数据将展现出更加惊人的力量和潜力。

总的来说,管理学研究中的大数据:科学问题与未来发展,需要我们在理论上不断突破,在实践中不断验证。

我们需要加大对大数据研究的投入,提高大数据研究的创新性,增强大数据研究效果的科学性。

同时,我们还需要加强对管理学研究中的大数据的宣传和推广,让更多的人了解和关注管理学研究中的大数据的重要性。

大数据是什么

大数据是什么

大数据是什么大数据(Big Data)是指规模庞大、复杂度高且难以用传统数据处理工具进行捕捉、管理和处理的数据集合。

这些数据集合通常包含结构化数据(如关系数据库中的数据)和非结构化数据(如文本、音频、视频等),并且具有高速度、高密度和高多样性的特点。

大数据的特点1. 体量巨大:大数据的数据量通常以TB(1TB=1024GB)或PB(1PB=1024TB)为单位,甚至更高。

2. 多样性:大数据可以包含来自各种来源和格式的数据,如传感器数据、社交媒体数据、图像和视频数据等。

3. 时效性:大数据的生成速度非常快,需要实时或近实时处理,以便及时获取有用的信息。

4. 真实性:大数据通常是从真实世界中收集的,具有较高的真实性和代表性。

5. 不确定性:大数据中的数据质量和准确性往往难以保证,需要进行数据清洗和预处理。

大数据的应用1. 商业决策:大数据分析可以帮助企业了解市场趋势、消费者行为和竞争对手情况,从而做出更明智的商业决策。

2. 金融风控:通过对大数据的分析,可以识别潜在的风险和欺诈行为,提高金融机构的风险管理能力。

3. 医疗健康:利用大数据分析技术,可以挖掘医疗数据中的潜在关联和模式,提高疾病诊断和治疗效果。

4. 智慧城市:通过对城市中各种传感器和设备产生的大数据进行分析,可以优化城市交通、能源利用和公共服务等方面的运行效率。

5. 社交媒体分析:大数据分析可以帮助企业了解用户在社交媒体上的行为和偏好,从而改进产品和服务。

6. 物流管理:通过对物流数据的分析,可以优化运输路线、减少物流成本,提高物流效率。

7. 科学研究:大数据分析在天文学、生物学、气象学等领域有着广泛的应用,帮助科学家发现新的规律和知识。

大数据的处理技术1. 数据采集:通过传感器、日志文件、网络爬虫等方式收集大数据。

2. 数据存储:使用分布式文件系统(如Hadoop HDFS)或NoSQL数据库(如MongoDB)等技术进行大数据的存储。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

973计划信息领域战略调研材料之三大数据(Big Data)科学问题研究李国杰1、前言1.1 什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)用传统算法和数据库系统可以处理的海量数据不算“大数据”。

大数据= “海量数据”+“复杂类型的数据”大数据的特性包括4个“V”: Volume,Variety,Velocity,Value●数据量大:目前一般认为PB级以上数据看成是大数据;●种类多:包括文档、视频、图片、音频、数据库数据等;●速度快:数据生产速度很快,要求数据处理和I/O速度很快;●价值大:对国民经济和社会发展有重大影响。

1.2目前大数据的规模工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。

2011年全球被创建和被复制的数据总量为1.8ZB (1021),其中 75%来自于个人。

IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。

根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计将暴增44倍,达到35ZB(1ZB=1021Byte)。

医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天也都在创造着大量的数据。

数据采集成本的下降推动了数据量的剧增,新的数据源和数据采集技术的出现大大增加了数据的类型,数据类型的增加导致数据空间维度增加,极大地增加了大数据的复杂度。

1.3大数据公司的现状:●Google 公司通过大规模集群和MapReduce 软件,每个月处理的数据量超过400PB。

●百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。

●Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据●淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。

●Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。

1.4 网络大数据的特点(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。

网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。

(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。

(3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。

(4)社会性:网络上用户根据自己的需要和喜好发布、回复或转发信息,因而网络数据成了对社会状态的直接反映。

(5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。

(6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。

2、国家重大战略需求数据已成为与自然资源、人力资源一样重要的战略资源,隐含巨大的价值,已引起科技界和和企业界的高度重视。

如果我们能够有效地组织和使用大数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,孕育着前所未有的机遇。

O'Reilly公司断言:“数据是下一个‘Intel Inside’,未来属于将数据转换成产品的公司和人们。

”过去几十年,我们一直大力发展信息科学技术和产业,但主要的工作是电子化和数字化。

现在,数据为王的大数据时代已经到来,战略需求正在发生重大转变:关注的重点落在数据(信息)上,计算机行业要转变为真正的信息行业,从追求计算速度转变为大数据处理能力,软件也从编程为主转变为以数据为中心。

实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。

现在,数据密集型研究已成为科研的第四范式。

不论是基因组学、蛋白组学研究,天体物理研究还是脑科学研究都是以数据为中心的研究。

用电子显微镜重建大脑中所有的突触网络,1mm3大脑的图像数据就超过1PB。

取之不尽的实验数据是科学新发现的源泉。

大数据分析技术不仅是促进基础科学发展的强大杠杆,也是许多行业技术进步和企业发展的推动力。

大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。

采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。

数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。

大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT 架构进行革命性的重构。

存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键,数据的移动已成为信息系统最大的开销。

信息系统需要从数据围着处理器转改变为处理能力围着数据转,将计算用于数据,而不是将数据用于计算。

大数据也导致高可扩展性成为信息系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高10亿级以上。

近十年来增长最快的是网络上传播的各种非结构化或半结构化的数据。

网络数据的背后是相互联系的各种人群。

网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定。

未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力。

国家的数字主权体现在对数据的占有和控制。

数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。

从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律,是建立安全和谐的网络环境的重大战略需求,是促使国家长治久安的大事。

3、国内外研究动向与基础3.1 科研“第四范式”60年前, 数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google 及类似公司处理海量语料库如同一个人类社会实验室。

数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。

2007年,已故的图灵奖得主吉姆•格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”(the fourth paradigm)的愿景。

2008年9月《Nature》杂志出版了一期专刊—“Big Data”,2011年2月,《Science》期刊联合其姊妹刊推出了一期关于数据处理的专刊—“Dealing with data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。

将大数据科学从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。

Google公司的研究部主任Peter Norvig的一句名言可以概括两者的区别: "All models are wrong, and increasingly you can succeed without them"。

Petabyte级的数据使我们可以做到没有模型和假设就可以分析数据。

将数据丢进巨大的计算机机群中,只要有相互关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

实际上,Google的广告优化配置、战胜人类的IBM沃森问答系统都是这么实现的,这就是“第四范式”的魅力!美国Wired杂志主编Chris Anderson 2008年曾发出“理论的终结(The End of Theory)”的惊人断言:“The Data Deluge Makes the Scientific Method Obsolete”。

他指出获得海量数据和处理这些数据的统计工具的可能性提供了理解世界的一条完整的新途径。

Petabytes 让我们说:相互关系已经足够(Correlation is enough)。

我们可以停止寻找模型,相互关系取代了因果关系,没有具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步。

Chris Anderson 的极端看法并没有得到科学界的普遍认同,数据量的增加能否引起科研方法本质性的改变仍然是一个值得探讨的问题。

对研究领域的深刻理解(如空气动力学方程用于风洞实验)和数据量的积累应该是一个迭代累进的过程。

没有科学假设和模型就能发现新知识究竟有多大的普适性也需要实践来检验,我们需要思考:这类问题有多大的普遍性?这种优势是数据量特别大带来的还是问题本身有这种特性?只知道相互关系不知道因果关系会不会“知其然不知其所以然”。

所谓从数据中获取知识要不要人的参与,人在机器自动学习和运行中应该扮演什么角色?有些领域可能先用第四范式,等领域知识逐步丰富了在过渡到第三范式。

3.2 21世纪的网络理论相当于20世纪的量子力学还原论解构复杂系统,带给我们单个节点和链接的理论。

网络理论则反其道而行之,重新组装这些节点和链接,帮助我们重新看到整体。

很可能数据的共性存在于数据背后的“网络”之中。

网络有不少参数和性质,如聚集系数、核数等,这些性质和参数也许能刻画大数据背后的网络的共性。

发现Scale-Free网络的Albert-László Barabási教授在2012年1月的NATURE PHYSICS 上发表一篇重要文章The network takeover,文章认为:20世纪是量子力学的世纪,从电子学到天文物理学,从核能到量子计算,都离不开量子力学。

而到了21世纪,网络理论正在成为量子力学的可尊敬的后继,正在构建一个新的理论和算法的框架。

3.3 美国政府启动“Big Data” 计划2012年3月29日,美国政府启动“Big Data Research and Development Initiative”计划,6个部门拨款2亿美元,争取增加100倍的分析能力从各种语言的文本中抽取信息。

这是一个标致性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。

在这个计划中,不同部门的侧重点并不一样。

3.3.1国防部高级研究计划局(DARPA)项目举例:●多尺度异常检测项目解决大规模数据集的异常检测和特征化。

●网络内部威胁计划通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。

●Machine Reading 项目旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。

相关文档
最新文档