大数据

合集下载

什么是大数据？

什么是大数据？什么是大数据？大数据（Big Data）是指规模巨大、种类繁多的数据集合，无法用常规的数据处理工具进行管理和处理。

这些数据通常以超过传统数据处理能力的速度，并展现出高度的多样性、复杂性和实时性。

大数据的处理需要借助于先进的数据分析和处理技术，以从中挖掘出有价值的信息和洞察力。

⒈大数据的特点⑴规模巨大：大数据所涉及的数据集合非常庞大，通常以TB、PB甚至EB为单位计算。

⑵多样性：大数据包含不同类型和来源的数据，例如结构化数据、半结构化数据和非结构化数据。

⑶实时性：大数据的速度很快，需要实时处理和分析，以快速反应市场变化和数据趋势。

⒉大数据的应用领域⑴企业管理和决策：大数据分析可以帮助企业了解市场需求、消费者行为和竞争对手情况，优化产品设计和营销策略。

⑵社会公共管理：大数据可以用于城市交通管理、环境监测、智慧城市等领域，提高公共服务效率。

⑶医疗卫生：通过对大数据的分析，可以发现疾病的模式和趋势，帮助医生做出准确的诊断和预测治疗效果。

⑷金融行业：大数据分析可以用于风险评估、欺诈检测、个性化产品推荐等，提高金融机构的运营效率和风险管理能力。

⒊大数据的处理技术⑴数据采集与存储：包括数据抓取、数据清洗和数据存储等技术，确保数据的准确性和完整性。

⑵数据分析与挖掘：通过技术工具和算法，对大数据进行分析和挖掘，以发现数据中隐藏的模式和关联关系。

⑶可视化和报告：将分析结果以可视化的方式呈现，提供直观的数据展示和报告。

⑷机器学习和：通过机器学习和技术，对大数据进行预测和决策支持。

附件：本文档未涉及附件。

法律名词及注释：⒈数据隐私：保护个人数据不被未经授权的访问和使用。

⒉数据保护法：规定了个人数据的处理和保护规则。

⒊数据安全：保障数据不受损坏、丢失、泄露等威胁。

什么是大数据？

什么是大数据？大数据是指以规模化、高速度和多样化的数据为基础，通过创新的分析方法和工具，用于提取价值、洞察信息并支持决策的一种数据处理技术。

大数据具有以下特点：数据量大、数据速度快、数据种类多、数据价值高。

一、大数据的定义与背景1.1 定义大数据是指采集、存储和分析庞大数据量的一种技术和方法。

1.2 背景随着互联网的发展，数据的产生呈现爆发式增长，传统的数据处理方法已无法满足对大规模数据的处理需求。

二、大数据的特征2.1 数据量大大数据的特征之一是数据量巨大，包括结构化数据和非结构化数据。

2.2 数据速度快大数据的特点之一是数据和流动速度非常快，需要实时或近实时处理。

2.3 数据种类多大数据的种类多样，包括文本、图片、视频等多种数据形式。

2.4 数据价值高大数据中蕴含着宝贵的信息和洞见，通过分析可以挖掘出对企业决策有益的信息。

三、大数据应用场景3.1 企业决策大数据可以协助企业进行市场调研、产品优化、运营管理等决策过程，提高决策的准确性和效率。

3.2 城市规划通过收集城市中各个领域的数据，如交通、气象、人口等，可以进行智慧城市的规划和管理。

3.3 金融风控大数据技术可以对金融数据进行风险分析，帮助金融机构进行风险管理和预防欺诈行为。

3.4 医疗健康通过分析大数据可以实现个性化医疗、疾病预测和精准治疗，提高医疗服务的质量和效率。

3.5大数据是的基础，通过分析大数据可以让机器学习、自然语言处理等技术更加准确和智能。

四、大数据的挑战与发展方向4.1 数据安全与隐私保护随着数据量的增加，数据的安全性和隐私保护愈发重要，需要加强安全技术的研究和应用。

4.2 技术挑战大数据的处理需要高效的分布式计算、数据挖掘和机器学习等技术的支持，需要不断发展和创新。

4.3 数据规范与标准大数据的应用需要建立统一的数据规范和标准，方便数据共享和交流。

附件：本文档涉及的附件包括：大数据应用案例分析、大数据处理工具介绍等相关资料。

大数据是什么

大数据是什么大数据（Big Data）是指规模庞大、复杂度高且难以用传统数据处理工具进行捕捉、管理和处理的数据集合。

这些数据集合通常包含结构化数据（如关系数据库中的数据）和非结构化数据（如文本、音频、视频等），并且具有高速度、高密度和高多样性的特点。

大数据的特点1. 体量巨大：大数据的数据量通常以TB（1TB=1024GB）或PB（1PB=1024TB）为单位，甚至更高。

2. 多样性：大数据可以包含来自各种来源和格式的数据，如传感器数据、社交媒体数据、图像和视频数据等。

3. 时效性：大数据的生成速度非常快，需要实时或近实时处理，以便及时获取有用的信息。

4. 真实性：大数据通常是从真实世界中收集的，具有较高的真实性和代表性。

5. 不确定性：大数据中的数据质量和准确性往往难以保证，需要进行数据清洗和预处理。

大数据的应用1. 商业决策：大数据分析可以帮助企业了解市场趋势、消费者行为和竞争对手情况，从而做出更明智的商业决策。

2. 金融风控：通过对大数据的分析，可以识别潜在的风险和欺诈行为，提高金融机构的风险管理能力。

3. 医疗健康：利用大数据分析技术，可以挖掘医疗数据中的潜在关联和模式，提高疾病诊断和治疗效果。

4. 智慧城市：通过对城市中各种传感器和设备产生的大数据进行分析，可以优化城市交通、能源利用和公共服务等方面的运行效率。

5. 社交媒体分析：大数据分析可以帮助企业了解用户在社交媒体上的行为和偏好，从而改进产品和服务。

6. 物流管理：通过对物流数据的分析，可以优化运输路线、减少物流成本，提高物流效率。

7. 科学研究：大数据分析在天文学、生物学、气象学等领域有着广泛的应用，帮助科学家发现新的规律和知识。

大数据的处理技术1. 数据采集：通过传感器、日志文件、网络爬虫等方式收集大数据。

2. 数据存储：使用分布式文件系统（如Hadoop HDFS）或NoSQL数据库（如MongoDB）等技术进行大数据的存储。

大数据知识点全面总结

大数据知识点全面总结目录一、什么是大数据1.1 大数据的定义1.2 大数据的特点1.3 大数据的价值二、大数据的应用场景2.1 金融领域2.2 零售领域2.3 医疗健康领域2.4 交通领域2.5 农业领域三、大数据的技术工具3.1 Hadoop3.2 Spark3.3 Flink3.4 Kafka3.5 Elasticsearch四、大数据的挑战与解决方案4.1 数据存储与管理4.2 数据处理与分析4.3 数据安全与隐私4.4 数据可视化与决策支持五、大数据未来发展趋势5.1 人工智能与大数据的融合5.2 云计算与大数据的融合5.3 边缘计算与大数据的融合5.4 行业应用与大数据的融合六、结语一、什么是大数据1.1 大数据的定义大数据是指规模巨大、种类繁多、处理速度快的数据集合。

它包括结构化数据、半结构化数据和非结构化数据。

结构化数据是以表格形式存储的数据，如关系数据库中的数据；半结构化数据是具有一定组织结构但不符合传统关系数据库模式的数据，如XML、JSON格式的数据；非结构化数据是没有固定结构的数据，如文本、图像、音频、视频等。

1.2 大数据的特点大数据具有5V特征：Volume（数据量大）、Velocity（处理速度快）、Variety（种类繁多）、Veracity（真实性）、Value（价值高）。

Volume：大数据的数据量通常以TB、PB、甚至EB计算，远超传统数据库能力。

Velocity：大数据的处理速度要求非常高，需要能够实时或近实时地处理数据。

Variety：大数据的数据种类繁多，包括结构化数据、半结构化数据和非结构化数据。

Veracity：大数据的真实性要求高，需要通过数据清洗、质量控制等手段保证数据的准确性和一致性。

Value：大数据的价值非常大，可以挖掘出隐藏在其中的商业洞见和价值。

1.3 大数据的价值大数据具有重要的商业价值。

通过对大数据的分析和挖掘，可以为企业带来以下益处：- 更好的决策支持- 更精准的市场营销- 更高效的运营管理- 更好的客户服务- 更快的产品创新二、大数据的应用场景2.1 金融领域在金融领域，大数据被广泛用于风险管理、信用评估、欺诈检测、投资决策等。

大数据是什么

大数据是什么大数据是什么引言大数据是指规模庞大、结构多样、更新速度快的数据集合，它的处理和分析超出了传统数据库和数据处理软件的能力。

随着信息技术的发展，大数据逐渐成为企业和组织获取洞察力和实现业务增长的重要工具。

本文将详细介绍大数据的定义、特征、应用领域以及相关技术和挑战。

1.大数据的定义1.1 定义大数据是指规模超过传统数据库和数据处理软件处理能力的数据集合。

它具有三个主要特征：数据量大、数据类型多样、数据速度快。

大数据通常是由企业和组织内部数据、互联网数据和社交媒体数据等多个来源产生的。

1.2 特征1.2.1 数据量大大数据的主要特点之一是数据量巨大。

传统数据库和数据处理软件往往无法存储和处理大规模的数据集合。

大数据的出现使得企业和组织可以处理更多的数据，从而发现隐藏在海量数据中的有价值信息。

1.2.2 数据类型多样大数据集合中的数据类型多样，包括结构化数据和非结构化数据。

结构化数据是具有明确数据模式和格式的数据，如数据库中的表格数据。

非结构化数据是指无固定格式的数据，如文本、图像、视频等。

大数据的分析需要处理各种类型的数据，使得传统的数据处理技术变得不够高效。

1.2.3 数据速度快随着互联网和移动设备的普及，数据的速度越来越快。

例如，社交媒体每天产生大量的用户评论和分享内容。

大数据的处理需要及时获取和处理实时数据，以便及时更新和响应业务需求。

2.大数据的应用领域大数据的应用涵盖了各个领域和行业。

以下是几个典型的大数据应用领域：2.1 市场研究和营销利用大数据分析用户行为和消费喜好，帮助企业制定精确的市场营销策略。

通过对海量的社交媒体数据和消费者数据的分析，企业可以更好地了解市场趋势和消费者需求，提高销售和营销效益。

2.2 医疗保健大数据在医疗保健领域的应用广泛。

通过对大量的病例数据和生物信息数据的分析，可以发现疾病的早期迹象、预测病情发展趋势，为医生提供更准确的诊断和治疗方案。

2.3 金融服务金融机构利用大数据分析客户行为、市场趋势和风险，提高风险管理、投资决策和反欺诈能力。

大数据是什么

大数据是什么引言概述：随着科技的飞速发展，大数据成为了一个热门话题。

人们对于大数据的理解和应用越来越广泛。

本文将从五个大点出发，详细阐述大数据的定义、特点、应用领域、挑战和未来发展趋势。

正文内容：1. 大数据的定义：1.1 数据规模：大数据是指数据量巨大，无法使用常规的数据处理工具进行处理和分析的数据集合。

1.2 数据速度：大数据的产生速度非常快，需要实时处理和分析。

1.3 数据多样性：大数据包含结构化数据和非结构化数据，如文本、图象、音频等。

2. 大数据的特点：2.1 数据价值：大数据中蕴含着丰富的信息和价值，可以匡助企业做出更准确的决策。

2.2 数据来源：大数据来自各种渠道，如社交媒体、传感器、日志文件等。

2.3 数据质量：大数据的质量不一致，需要进行数据清洗和处理。

2.4 数据分析：大数据需要使用专业的数据分析工具和算法进行挖掘和分析。

2.5 隐私和安全：大数据的使用涉及到个人隐私和数据安全的问题，需要严格保护。

3. 大数据的应用领域：3.1 商业决策：大数据可以匡助企业分析市场趋势、消费者行为等，提供决策支持。

3.2 金融行业：大数据可以匡助银行和保险公司进行风险评估、反欺诈等工作。

3.3 医疗健康：大数据可以匡助医院分析患者数据，提供个性化的医疗服务。

3.4 城市管理：大数据可以匡助城市进行交通管理、环境监测等工作。

3.5 科学研究：大数据可以匡助科学家进行天文、地质、生物等领域的研究。

4. 大数据的挑战：4.1 数据存储和处理：大数据的存储和处理需要庞大的计算资源和存储空间。

4.2 数据质量和一致性：大数据的质量和一致性对于分析结果的准确性至关重要。

4.3 隐私和安全：大数据的使用涉及到个人隐私和数据安全的问题，需要加强保护。

4.4 技术人材：大数据的分析和应用需要专业的技术人材，人材供给不足。

5. 大数据的未来发展趋势：5.1 人工智能与大数据的结合：人工智能技术的发展将进一步推动大数据的应用和发展。

大数据是什么

大数据是什么大数据是指规模巨大、复杂多样、难以用传统数据处理工具进行管理和处理的数据集合。

它通常具有三个特征，即数据量大、速度快和种类多。

随着互联网的迅猛发展和信息化程度的提高，大数据已经成为当今社会的一个重要概念。

大数据的特征：1. 数据量大：大数据的特点之一是数据量庞大，通常以TB（千兆字节）甚至PB（百万兆字节）为单位进行计量。

这些数据来自各种来源，包括社交媒体、传感器、日志文件、电子邮件等。

2. 速度快：大数据的生成速度非常快，需要实时或者近实时的处理和分析。

例如，社交媒体平台每天产生大量的用户评论和互动数据，需要快速分析和响应。

3. 种类多：大数据不仅包括结构化数据（如数据库中的表格数据），还包括非结构化数据（如文本、音频、视频等）。

这些数据类型多样且格式各异，需要特殊的技术和工具进行处理和分析。

大数据的应用领域：1. 商业智能：大数据分析可以匡助企业了解市场趋势、消费者行为和竞争对手的动态。

通过对大数据的挖掘和分析，企业可以制定更精确的营销策略、改进产品设计和提高客户满意度。

2. 健康医疗：大数据在医疗领域的应用非常广泛。

通过分析大量的医疗数据，可以匡助医生提高诊断准确性、预测疾病发展趋势和制定个性化治疗方案。

3. 城市管理：大数据可以匡助城市管理者更好地了解城市居民的需求和行为，从而优化城市规划、交通管理和公共服务。

例如，通过分析交通流量数据，可以优化交通信号灯的控制，减少交通拥堵。

4. 金融服务：大数据在金融领域的应用也非常广泛。

通过分析大量的金融交易数据和市场数据，可以匡助金融机构更好地进行风险评估、市场预测和投资决策。

大数据的处理和分析技术：1. 分布式存储和计算：由于大数据的规模庞大，传统的单机存储和计算无法满足需求。

分布式存储和计算技术可以将数据分散存储在多台计算机上，并通过并行计算的方式进行处理和分析。

2. 数据挖掘和机器学习：数据挖掘和机器学习是大数据分析的核心技术。

大数据是什么

大数据是什么大数据（Big Data）是指规模庞大、复杂度高且难以通过传统数据处理工具进行捕捉、管理和处理的数据集合。

大数据的特点主要包括四个方面：数据量大、数据类型多样、数据生成速度快以及数据价值密度低。

数据量大：大数据的数据量通常以TB（Terabytes）或者PB（Petabytes）为单位进行衡量。

这些数据可以来自各种来源，包括传感器、社交媒体、电子商务、医疗保健等领域。

数据类型多样：大数据不仅包含结构化数据（如数据库中的表格数据），还包括非结构化数据（如文本、图像、音频、视频等）。

这些数据类型多样，需要使用不同的方法和工具进行处理和分析。

数据生成速度快：大数据的生成速度非常快，需要即时处理和分析。

例如，社交媒体上每秒钟产生的数据量非常庞大，需要实时监测和分析用户的行为和情绪。

数据价值密度低：大数据中往往包含了大量的噪音和冗余信息，数据的价值并不都是显而易见的。

因此，需要通过数据挖掘和分析技术，从大数据中提取出有价值的信息和洞察。

大数据的应用领域广泛，包括但不限于以下几个方面：1. 商业智能和市场分析：通过分析大数据，企业可以了解消费者的行为和偏好，优化产品设计和市场营销策略，提高销售和客户满意度。

2. 金融风险管理：银行和金融机构可以通过分析大数据，识别潜在的风险和欺诈行为，提高风险管理和预测能力。

3. 医疗保健：大数据可以帮助医疗机构分析患者的病历、病情和治疗效果，提供个性化的医疗服务和药物推荐。

4. 城市规划和交通管理：通过分析大数据，城市可以优化交通流量，提高公共交通的效率，减少交通事故和拥堵。

5. 农业和环境保护：通过分析气象数据、土壤数据和植物生长数据，农业和环保部门可以制定更科学的农作物种植计划和环境保护措施。

为了处理和分析大数据，需要使用一些特殊的技术和工具，包括：1. 分布式存储和计算：大数据通常存储在多个服务器上，需要使用分布式存储系统（如Hadoop）进行管理和处理。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.1大数据技术国内外研究进展近年来，大数据迅速发展成为工业界、学术界甚至世界各国政府高度关注的热点。

《自然(Nature)》和《科学(Science)》等杂志相继出版专刊来探讨大数据带来的挑战和机遇。

著名管理咨询公司麦肯锡声称，“数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。

人们对于大数据的挖掘和运用，预示着新一波生产力增长和消费者盈余浪潮的到来”。

在这样的背景下，美国政府2012年宣布投资2亿美元启动“大数据研究和发展计划”，这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。

美国政府认为大数据是“未来的新石油”，一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分，对数据的占有和控制将成为国家间和企业间新的争夺焦点。

大数据已成为社会各界关注的新焦点，“大数据时代”已然来临。

与传统规模的数据工程相比，大数据的感知、获取、存储、表示、处理和服务都面临着巨大的挑战。

这归因于大数据具有几个突出的特征：1)数据集合的规模不断扩大，已经从GB、TB再到PB，甚至已经开始以EB和ZB来计数。

IDC的研究报告称，未来十年全球大数据将增加50倍，管理数据仓库的服务器数量将增加10倍以便适应这一增长。

2)大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据。

现代互联网应用呈现出非结构化数据大幅增长的特点，至2012年末，非结构化数据占有比例达到整个数据量的75%以上。

3)产生速度快，处理能力要求高。

根据IDC的“数字宇宙(Digital Universe)”报告，预计到2020年，全球数据使用量将达到35.2ZB，在如此海量的数据面前，处理数据的效率就是企业的生命。

大数据往往以数据流的形式动态、快速地产生和演变，具有很强的时效性，只有把握好对数据流的掌控才能有效利用这些数据。

4)数据真伪难辨，可靠性要求更严格。

大数据的集合和高密度的测量将令“错误发现”的风险增长。

斯坦福大学的统计学教授Trevor Hastie称，如果想要在庞大的数据“干草垛”中找到一根有意义的“针”，那么所将面临的问题就是“许多稻草看起来就像是针一样”。

5)数据价值大，但密度低、挖掘难度大。

价值密度的高低与数据总量的大小成反比。

如何通过强大的机器算法更迅速地完成数据的价值“提取”成为目前大数据背景下亟待解决的难题。

大数据在带来挑战的同时，还蕴含着划时代的重大意义。

特别是大数据时代对海量数据的积累、加工和利用能力将成为国力的新标志，大数据的深度分析和利用将对推动经济持续增长、提升国家的竞争力起到重要的作用。

一个国家的数据主权将是继海、陆、空、天四个空间之后另一个大国博弈的空间。

“十八大”报告中明确提出网络空间与深海、深空是我们国家核心利益的关键领域。

在大数据领域的落后，意味着产业战略制高点失守，更意味着国家安全将在数据空间出现漏洞。

美国启动“大数据研究和发展计划”不仅是一个推动美国在高技术领域继续领先的战略计划，更是一个保护美国国家安全、推动社会经济发展的计划。

以美国为代表的西方国家正在通过增强大数据领域竞争能力进一步提高自己的综合国力。

可以预见未来国家之间的经济与政治竞争将是大数据引领的竞争。

当前对大数据的研究大致也可以分为专注于研究大数据的复杂性和计算模型的基础理论，以及着眼于大数据的感知与表示、内容建模与语义理解，和大数据计算架构体系的关键技术这样两个层面。

下面简要介绍相应的研究现状。

2.1 大数据的复杂性和计算模型针对大数据的复杂性，前期的研究主要是对网络上多种来源的数据进行性质分析和规律探索，很多学者尝试运用图论和统计分析等方法对数据进行定量分析。

特别值得注意的是，人们已经发现了复杂的网络大数据之中存在一些统计规律性。

譬如，Barabási等人通过对大量电子邮件数据的分析，证明人类行为中的通信、娱乐和工作模式并不遵循泊松过程，而是基于决策排队过程的结果，即由于存在优先次序导致任务执行时间具有重尾效应[1]。

Kleinberg等人通过分散方法等随机图算法发现大规模社会网络的小世界网络规律，利用理论模型解释了六度分割等现象[2]。

面对大数据的复杂性，还有一些学者尝试使用统计方法和复杂网络方法来研究如何对大数据进行按需约简。

相关数据约简的方法多数集中在对样本属性的约简上，其目的是在保持分类能力不变的情况下，删除其中不重要的和冗余的属性，同时提取出重要的属性信息。

例如，Cervantes等人使用最小封闭球聚类，提出基于支持向量机的数据约简方法[3]。

但这类基于统计的方法在处理大数据时其时效性难以保证。

针对大数据的计算理论和算法的研究目前主要集中在大数据机器学习的基础理论、参数估计方法、优化算法等方面，形成的一系列成果为大数据高效计算提供了理论支持。

普林斯顿大学的Blei等人针对大规模网络文本数据的主题建模，提出了在线学习算法，为大数据下非参数模型的高效估计奠定基础[4]。

斯坦福大学的Mahoney提出了随机算法实现快速矩阵近似分解，并给出了近似值和真实值差距的理论边界[5]。

法鲁托斯等人提出了大规模张量分析方法，可以比原算法速度提高两个数量级[6]。

美国加州大学伯克利分校Jordan等人开展了大数据分析的理论基础研究，目前已有的成果包括分布式优化算法[7]和大数据非参数估计方法[8]等。

2.2 大数据的感知与表示爬虫是当前大数据感知和获取的基本技术，已得到迅速发展和广泛应用，但仍不能有效应对被称为Web 2.0的新一代互联网数据[9]。

为了有效利用网络大数据，需要将异构、低质量的网络数据转化为结构统一的高质量数据，因此业界提出了一系列数据抽取算法以应对大数据的异构性[10-11]，应用经过扩展的传统数据集成技术从多个异构数据源集成数据[12]，并开始将过去一些数据清洗和数据质量控制方面的研究应用于网络数据质量控制[13-14]。

但总的来说，将这些技术直接用于大数据处理，在数据处理的规模和得到的数据质量方面还不能令人满意。

另一方面，人们很早就认识到了动态性和时效性是大数据的重要特性[12]，数据流(data stream)[15-16]和时间序列(time series)[17]是表示和处理数据动态性和时效性的主要技术。

同样，从数据的可处理规模和功能上，传统数据流和时间序列技术还无法满足大数据处理的需求。

对大数据的表示主要有图模型与张量两大类方法。

譬如，Boldi等研究了图的压缩方法[18]，但是只关注了如何有效地存储网页的链接信息来对Web图进行压缩，以方便网页排序(Page-Rank)和权威向量的计算，并没有涉及图的结构问题。

除了图之外，张量是另一个广泛关注的大数据表示方案。

由于没有破坏数据的领域、局部和全局结构，与向量比较，数据的张量形式表达能最大限度地保持原始数据的固有信息。

Vasilescu等人用张量形式成功地表达了光照、视角、类别等几个模态的人脸数据库[19]。

自此，张量表示在图像、视频、文档等领域中得到了深入研究。

Hinton等革命性地提出了通过深度信念网(Deep Belief Networks，DBNs)的非监督贪心逐层训练的深度学习(Deep Learning)算法，使得研究在统一的平台上进行特征提取的方法变为可能[20]。

Acar等认为，高维大数据可以用张量来表达，而基于张量计算的方法可以从高维大数据中提取有用信息[21]。

Phan等提出用张量表示图像、纹理、音乐谱的方法[22]。

针对大数据下的张量数据，2013年Sidiropoulos提出了基于压缩感知的核张量计算方法。

2.3 大数据的内容建模与语义理解由于大数据的规模巨大、高维、异构、多源等特性，当前在大数据内容建模方面的工作主要集中在数据的实体、类别和属性的提取与分析等方面。

在大数据中实体的属性学习方面，Russakovsky等提出了利用ImageNet进行属性学习的方法[24]。

Parikh等进一步提出了相对属性的学习方法[25]。

2012年，斯坦福大学和谷歌的研究人员构建了一个多达10亿个连接的深度学习网络。

该网络通过对来自YouTube的1 000万幅视频帧的自主学习，学会了识别猫的面孔[26]。

他们还对2.2万个类别进行了图像分类，准确率达到了15.8%，比当前最先进的方法提高了70%。

而传统的方法需要通过对图像加标签、提取特征、训练分类器等步骤才能够实现对概念的识别。

针对大数据内容理解的另一个重要进展是基于数据驱动(Data-Driven)方法的提出。

2008年，Torralba等人利用网络中的图像构建了一个包含八千万幅图像的数据，并利用该数据库完成了基于搜索和词汇树相结合的图像中物体、人物、位置等信息的理解[27]；Wang等人构建了一个包含20亿幅图像的数据库，利用该数据库实现了一种基于近似图像搜索的图像标注方法[28]。

总体而言，目前针对大数据内容建模的研究主要针对大数据的某一特性展开，全面考虑大数据关键特征的研究工作还很少。

在语义理解方面，语义网作为语义的核心载体，已经得到了实际应用，利用语义网研究语义理解，也开始得到学术界的关注。

Christian等人提出了利用关联开放数据(Linked Open Data，LOD)的思想在Web上不同数据源之间创建语义关联[29]，促进异构数据源之间的互操作；武汉大学何克清等人提出元模型与本体相融合的建模体系[30]，通过本体到元模型、模型、元数据的语义标注，在元级上屏蔽模型的差异性，以及实现语义网上异构信息模型间的语义互操作，达到无歧义语义理解。

由于大众的广泛参与，群体智能(Collective Intelligence)被视为是一种从人类大规模交互中所涌现出来的社区知识库(如维基百科，Wikipedia)[31]，基于此提出的交互式通信模式更便于网络内容的理解与共享，从而解决一些图灵机智能难以解决的语义理解问题。

因此，可以通过众包的方式，借助群体智能，来分析和理解互联网上的各种信息。

2.4 大数据的存储与架构体系大数据的架构体系研究首先需要关注的问题就是大数据如何存储。

在数据存储的基础上，为了应对大数据的快速以及高效可靠处理，需要建立大数据计算的编程模式以及相关的优化方法。

大数据存储的形式包括分布式的文件系统、分布式的键值对存储以及分布式数据库存储。

当前的研究也集中在这三个方面，并依据应用的需求进行相关的优化。

在分布式文件系统研究方面，传统的分布式文件系统NFS应用最为广泛[32]。

为了应对搜索引擎数据，谷歌在2003年公布了其能够用于存储网页数据的分布式文件系统技术GFS[33]。

开源社区据此开发了适合部署在廉价机器上的Hadoop分布式文件系统HDFS[34]。

微软自行开发的Cosmos[35]支撑着其搜索、广告等业务。