北邮_大数据技术课程重点总结

合集下载

大数据技术课程总结

大数据技术课程总结随着信息时代的到来，大数据技术逐渐成为各个行业的热门话题。

大数据技术课程的学习，为我们提供了深入了解和应用大数据技术的机会。

在这门课程中，我学到了许多关于大数据技术的知识和技能，并对大数据的应用领域有了更深入的了解。

大数据技术课程教授了我大数据的基本概念和原理。

大数据是指规模庞大、种类繁多的数据集合，传统的数据处理工具和方法已经无法胜任。

课程中，我了解到了大数据的4V特征，即数据的量大、速度快、种类多、价值密度低。

通过学习大数据的基本概念，我对大数据的本质有了更深入的认识。

大数据技术课程介绍了大数据的采集和存储技术。

在大数据时代，数据的采集变得更加便捷和高效。

课程中，我学习了各种数据采集技术，包括传感器技术、网络爬虫技术和日志采集技术等。

同时，课程还介绍了大数据的存储技术，如分布式文件系统和NoSQL数据库等。

通过学习这些技术，我了解到了如何高效地采集和存储大数据。

大数据技术课程还讲解了大数据的处理和分析技术。

在大数据时代，如何高效地处理和分析海量数据成为了一项重要任务。

课程中，我学习了大数据的处理框架，如Hadoop和Spark等。

同时，课程还介绍了大数据的分析方法和工具，如数据挖掘和机器学习等。

通过学习这些技术，我能够有效地处理和分析大数据，从中挖掘出有价值的信息。

除了基本的大数据技术，大数据技术课程还介绍了大数据的应用领域。

大数据技术在各个行业都有广泛的应用，如金融、医疗、交通、电商等。

课程中，我学习了这些领域中大数据的应用案例，了解了大数据技术对于提升效率和决策支持的重要性。

通过学习这些应用案例，我对大数据技术的实际应用有了更深入的了解。

总的来说，大数据技术课程为我提供了全面的大数据知识和技能。

通过学习这门课程，我不仅了解了大数据的基本概念和原理，还掌握了大数据的采集、存储、处理和分析技术。

同时，我还了解了大数据在各个领域的应用。

这些知识和技能将对我的未来职业发展产生积极的影响。

大数据学知识点总结

大数据学知识点总结引言随着数字化时代的到来，大数据已经成为了信息时代最重要的组成部分之一。

在各行业的发展中，大数据的应用正在广泛的推进，而在大数据的应用中，大数据学作为一个核心学科正在逐渐得到重视。

大数据学通过对大数据的采集、存储、处理与分析，为各行业提供了丰富的数据支持，因此大数据学的学习和掌握对于未来的发展至关重要。

本文将对大数据学的知识点进行总结，包括大数据的概念、大数据技术、大数据的应用、大数据的发展趋势等内容。

一、大数据的概念1.大数据的定义大数据是指规模大、类型多、更新快的数据集合，大数据的处理和分析需要特殊的技术和工具，以便从这些数据中提取出有价值的信息。

2.大数据的四个特点（1）规模大：大数据的数据量通常非常庞大，以至于传统的数据处理方式无法很好地处理这些数据；（2）类型多：大数据的类型多种多样，包括结构化数据、半结构化数据和非结构化数据；（3）更新快：大数据的更新速度非常快，需要实时收集和处理数据；（4）价值密度低：大数据中包含了大量的无价值数据，需要通过分析和挖掘来找到有价值的信息。

3.大数据的价值大数据的价值主要体现在两个方面：一是通过大数据的分析可以帮助企业做出更加精准的决策，提高生产效率和企业竞争力；二是大数据的分析可以帮助企业发现商机和趋势，促进创新和发展。

二、大数据技术1.大数据的采集技术大数据的采集技术包括了数据的传感器采集、日志采集、文档采集、网络爬虫采集等方式，通过这些方式可以有效地将数据收集到系统中。

2.大数据的存储技术大数据的存储技术是大数据技术中的一个核心部分，存储技术包括了分布式文件系统、对象存储、数据库等多种方式，以便保证数据的高效存储和管理。

3.大数据的处理技术大数据的处理技术包括了数据清洗、数据预处理、数据分析等多种方式，以便将大数据进行整理、提取、分析等处理，为数据的后续应用提供支持。

4.大数据的分析技术大数据的分析技术是大数据技术中最重要的一块，包括了数据挖掘、机器学习、人工智能等多种分析方式，可以提供对大数据的深层次挖掘和分析。

大数据学习总结

大数据学习总结一、引言随着信息技术的迅猛发展和互联网的普及，大数据已经成为当今社会的重要组成部分。

作为一门新兴的学科，大数据学习涉及到数据的收集、存储、处理、分析和应用等方面。

本文将对我在大数据学习过程中所掌握的知识和技能进行总结和归纳。

二、数据收集与存储1. 数据收集方法数据收集是大数据学习的第一步，可以通过以下方法进行：- 传感器技术：利用传感器采集环境中的数据，如温度、湿度、压力等。

- 日志记录：通过记录用户的操作行为和系统的运行日志来收集数据。

- 社交媒体：通过分析社交媒体上的用户行为和言论来获取数据。

- 网络爬虫：利用网络爬虫技术从网页中抓取数据。

2. 数据存储技术在大数据学习中，常用的数据存储技术有：- 关系型数据库：使用SQL语言进行数据的存储和查询。

- NoSQL数据库：适用于非结构化数据的存储和查询。

- 分布式文件系统：将数据分布存储在多个节点上，提高数据的可靠性和性能。

三、数据处理与分析1. 数据清洗与预处理在进行数据分析之前，需要对原始数据进行清洗和预处理，以提高数据的质量和准确性。

常见的数据清洗和预处理方法有：- 缺失值处理：对缺失的数据进行填充或删除。

- 异常值处理：对异常值进行识别和处理。

- 数据转换：将数据转换为适合分析的形式，如数值化、标准化等。

2. 数据分析方法数据分析是大数据学习的核心内容，常用的数据分析方法有：- 描述性统计分析：对数据进行描述和总结，如均值、中位数、标准差等。

- 探索性数据分析：通过可视化和图表分析来发现数据中的规律和趋势。

- 预测性数据分析：基于历史数据进行模型建立和预测。

四、数据应用与价值1. 商业智能大数据的应用领域之一是商业智能，通过对大数据的分析和挖掘，可以为企业提供决策支持和市场预测等服务。

2. 金融风控大数据在金融领域的应用越来越广泛，可以通过对大量的交易数据进行分析，预测风险和欺诈行为。

3. 医疗健康大数据在医疗健康领域的应用可以提供个性化的医疗服务和健康管理，提高医疗效率和质量。

大数据学习总结

大数据学习总结一、引言大数据作为当今信息时代的重要组成部分，已经在各个领域产生了广泛的应用。

为了更好地掌握和应用大数据技术，我进行了一段时间的大数据学习。

在学习过程中，我系统地学习了大数据的基本概念、技术原理、工具和应用等方面的知识。

通过学习，我对大数据的概念和应用有了更深入的理解，并且掌握了一些常用的大数据技术和工具。

在本文中，我将对我所学的大数据知识进行总结和归纳，以便更好地应用于实际工作中。

二、大数据的基本概念大数据是指规模超过传统数据库能够处理的数据集合，它具有数据量大、数据类型多样、数据处理速度快和数据价值丰富等特点。

大数据的产生主要来源于互联网、物联网、社交媒体等各种数据源。

与传统的数据处理方式相比，大数据需要采用新的技术和方法来进行存储、处理和分析。

三、大数据的技术原理1. 分布式存储与计算：大数据处理需要将数据存储在多个节点上，并且通过分布式计算来实现数据的处理和分析。

常用的分布式存储和计算框架有Hadoop、Spark等。

2. 数据采集与清洗：大数据处理的第一步是采集数据，并对数据进行清洗和预处理。

数据采集可以通过爬虫、API接口等方式进行，数据清洗可以通过数据清洗工具和算法来实现。

3. 数据挖掘与机器学习：大数据处理的核心是从海量数据中挖掘出有价值的信息和知识。

数据挖掘和机器学习是实现这一目标的重要手段，通过建立模型和算法来实现对数据的分析和预测。

4. 数据可视化与展示：大数据处理的最终目标是将处理结果以可视化的方式展示出来，以便用户更好地理解和应用。

数据可视化可以通过图表、地图、仪表盘等方式实现。

四、大数据的工具和应用1. Hadoop：Hadoop是一个开源的分布式存储和计算框架，它包括HDFS分布式文件系统和MapReduce分布式计算模型。

Hadoop可以实现大数据的存储和处理，广泛应用于大数据领域。

2. Spark：Spark是一个快速的、通用的集群计算系统，它支持内存计算和迭代计算，并且提供了丰富的API和工具。

大数据知识点全面总结

大数据知识点全面总结目录一、什么是大数据1.1 大数据的定义1.2 大数据的特点1.3 大数据的价值二、大数据的应用场景2.1 金融领域2.2 零售领域2.3 医疗健康领域2.4 交通领域2.5 农业领域三、大数据的技术工具3.1 Hadoop3.2 Spark3.3 Flink3.4 Kafka3.5 Elasticsearch四、大数据的挑战与解决方案4.1 数据存储与管理4.2 数据处理与分析4.3 数据安全与隐私4.4 数据可视化与决策支持五、大数据未来发展趋势5.1 人工智能与大数据的融合5.2 云计算与大数据的融合5.3 边缘计算与大数据的融合5.4 行业应用与大数据的融合六、结语一、什么是大数据1.1 大数据的定义大数据是指规模巨大、种类繁多、处理速度快的数据集合。

它包括结构化数据、半结构化数据和非结构化数据。

结构化数据是以表格形式存储的数据，如关系数据库中的数据；半结构化数据是具有一定组织结构但不符合传统关系数据库模式的数据，如XML、JSON格式的数据；非结构化数据是没有固定结构的数据，如文本、图像、音频、视频等。

1.2 大数据的特点大数据具有5V特征：Volume（数据量大）、Velocity（处理速度快）、Variety（种类繁多）、Veracity（真实性）、Value（价值高）。

Volume：大数据的数据量通常以TB、PB、甚至EB计算，远超传统数据库能力。

Velocity：大数据的处理速度要求非常高，需要能够实时或近实时地处理数据。

Variety：大数据的数据种类繁多，包括结构化数据、半结构化数据和非结构化数据。

Veracity：大数据的真实性要求高，需要通过数据清洗、质量控制等手段保证数据的准确性和一致性。

Value：大数据的价值非常大，可以挖掘出隐藏在其中的商业洞见和价值。

1.3 大数据的价值大数据具有重要的商业价值。

通过对大数据的分析和挖掘，可以为企业带来以下益处：- 更好的决策支持- 更精准的市场营销- 更高效的运营管理- 更好的客户服务- 更快的产品创新二、大数据的应用场景2.1 金融领域在金融领域，大数据被广泛用于风险管理、信用评估、欺诈检测、投资决策等。

大数据学习总结

大数据学习总结一、引言随着互联网的快速发展和数字化时代的到来，大数据技术在各个行业中起着越来越重要的作用。

为了跟上时代的步伐，我决定进行大数据学习，以提升自己在数据分析和决策方面的能力。

本文将对我在大数据学习过程中所掌握的知识和技能进行总结和归纳。

二、大数据概述大数据是指规模巨大、类型多样、生成速度快的数据集合。

它具有三个特征：数据量大、数据种类多样、数据生成速度快。

大数据技术主要包括数据采集、存储、处理和分析等环节。

三、大数据学习过程1. 学习资源的选择在开始学习大数据之前，我首先进行了学习资源的选择。

我选择了一些知名的在线教育平台，如Coursera和Udacity，以及一些专门的大数据学习网站。

这些平台和网站提供了丰富的学习资源，包括视频课程、教材和实践项目等。

2. 学习内容的安排在学习过程中，我根据自身的兴趣和需求，制定了学习计划，并将学习内容分为几个主要模块：大数据概述、数据采集与清洗、数据存储与管理、数据处理与分析、数据可视化等。

每一个模块都有相应的学习目标和学习资源。

3. 学习方法的选择为了更好地学习大数据知识，我采用了多种学习方法。

首先，我通过在线视频课程和教材进行理论学习。

然后，我参预了一些实践项目，如数据采集和处理的实战练习。

此外，我还参加了一些线下的大数据培训班和讲座，与其他学习者进行交流和分享经验。

四、学习成果1. 理论知识的掌握通过学习大数据相关的课程和教材，我对大数据的概念、特点和技术有了更深入的了解。

我学习了大数据的基本概念和原理，了解了大数据采集、存储和处理的方法和技术。

我还学习了一些常用的大数据工具和平台，如Hadoop、Spark和MongoDB等。

2. 实践能力的提升在学习过程中，我通过参预实践项目，提升了自己的实践能力。

我学会了使用Python和R等编程语言进行数据采集、清洗和分析。

我还学会了使用Hadoop和Spark等大数据工具进行数据处理和分析。

通过实践项目，我不仅加深了对理论知识的理解，还提高了自己解决实际问题的能力。

大数据结课总结

大数据结课总结一、前言在大数据时代，数据已经成为企业和个人的重要资产，如何从海量的数据中挖掘出有价值的信息已经成为一个重要问题。

而大数据技术作为一个新兴的技术，可以帮助我们解决这个问题。

因此，在大数据技术方面的学习显得尤为重要。

本文将对我在大数据结课中所学到的内容进行总结。

二、课程概述本次大数据结课主要包括以下内容：1. 大数据基础知识：介绍了大数据的概念、特点、产生原因等基础知识。

2. 大数据处理工具：介绍了Hadoop、Spark等大数据处理工具的使用方法和原理。

3. 大数据存储技术：介绍了HDFS、HBase等大数据存储技术的使用方法和原理。

4. 大数据分析与挖掘：介绍了MapReduce、Spark SQL等分析和挖掘工具的使用方法和原理。

5. 大数据应用案例：介绍了大型企业如何应用大数据技术来提高效率和降低成本。

三、学习总结1. 大数据基础知识在学习过程中，我深刻认识到了什么是“大” 数据。

大数据不仅仅是数据量的概念，还包括数据的多样性、时效性、价值性等多个方面。

在大数据时代，我们需要学习如何处理和利用这些数据，从而为企业和个人带来更多的价值。

2. 大数据处理工具在课程中，我学习了Hadoop和Spark等大数据处理工具。

其中Hadoop是一个分布式文件系统和计算框架，可以实现海量数据的存储和处理；而Spark则是一个快速通用的集群计算系统，可以支持各种各样的计算模式。

通过学习这些工具，我了解到了如何使用它们来处理大规模的数据，并且能够进行一些简单的编程操作。

3. 大数据存储技术在学习过程中，我了解到了HDFS和HBase等大数据存储技术。

其中HDFS是一个分布式文件系统，可以实现海量数据的高可靠性存储；而HBase则是一个分布式列式数据库，可以实现海量结构化、半结构化和非结构化数据的高效存储和查询。

通过学习这些技术，我了解到了如何选择适合自己需求的存储技术，并且能够进行一些简单的操作。

大数据学习总结

大数据学习总结随着互联网的快速发展和智能设备的普及，大数据成为了当今社会中一个炙手可热的话题。

作为一名学习大数据的学生，我在这段时间里深入学习了大数据的相关知识和技术，并对此进行了总结。

一、大数据的概念和特点大数据是指规模巨大、类型多样且难以处理的数据集合。

与传统数据相比，大数据具有以下特点：1. 3V特性：大数据具有大量（Volume）、多样（Variety）和高速（Velocity）的特点。

2. 数据价值：大数据中蕴含着丰富的信息和价值，通过对其进行分析和挖掘，可以帮助企业做出更准确的决策。

3. 数据处理：传统的数据处理方法已经无法胜任大数据的处理需求，因此需要使用大数据技术和工具进行处理和分析。

二、大数据的技术和工具在学习大数据的过程中，我接触到了一些常用的大数据技术和工具，包括：1. Hadoop：Hadoop是一个开源的分布式计算框架，可以处理大规模数据的存储和处理任务。

2. Spark：Spark是一个快速、通用的大数据处理引擎，具有高效的内存计算能力，适用于各种数据处理任务。

3. Hive：Hive是基于Hadoop的数据仓库工具，可以通过类似SQL的查询语言进行数据分析和查询。

4. HBase：HBase是一个分布式的、面向列的NoSQL数据库，适用于存储海量数据。

5. Kafka：Kafka是一个高吞吐量的分布式消息队列系统，用于处理实时数据流。

三、大数据的应用领域大数据在各个领域都有广泛的应用，以下是一些常见的应用领域：1. 金融行业：大数据可以通过分析用户的消费行为和信用记录，帮助银行和保险公司进行风险评估和信用评分。

2. 零售业：通过分析顾客的购买记录和行为，可以帮助零售商预测销售趋势和优化库存管理。

3. 医疗健康：大数据可以帮助医疗机构分析患者的病历和医疗数据，提供个性化的诊断和治疗方案。

4. 物流运输：通过分析交通流量和货物运输数据，可以优化物流路线和提高运输效率。

5. 社交媒体：大数据可以分析用户的社交行为和兴趣，帮助社交媒体平台提供个性化的推荐和广告。

大数据专业课程总结

大数据专业课程总结随着科技的飞速发展，大数据已经成为当今时代的核心话题。

为了更好地理解和应用大数据，许多高校都开设了与大数据相关的专业课程。

本文将对大数据专业的课程进行总结，帮助读者更好地了解这一领域的核心知识和技能。

一、大数据概述在大数据专业中，首先需要了解的是大数据的基本概念、特点和意义。

大数据是指数据量巨大、类型多样、处理复杂的数据集合。

由于其海量、高速和多变的特点，对大数据的处理和分析需要借助特定的技术和工具。

通过这一部分的课程，学生能够建立起对大数据的基本认知，明确其在实际应用中的价值和挑战。

二、数据采集与预处理数据采集是大数据处理的第一步，涉及从各种数据源中提取数据的过程。

预处理则是对采集到的数据进行清洗、整理和转换，为后续分析做好准备。

在这部分课程中，学生将学习如何高效地采集不同类型的数据，如何处理异常和缺失值，以及如何进行数据转换和整合。

三、存储与计算大数据的存储和计算是实现高效处理的关键。

学生将学习如何选择合适的存储方案，如分布式文件系统、数据库等，以满足大数据的存储需求。

同时，学生还将了解各种计算框架，如MapReduce、Spark等，以及如何利用这些框架进行高效的并行计算。

四、分析与挖掘数据分析是大数据应用的核心，涉及的方法和技术众多。

学生将学习统计学、机器学习、数据挖掘等多种分析方法，并掌握如何运用这些方法对大数据进行深入挖掘。

此外，学生还将学习如何利用可视化技术将分析结果直观地呈现出来。

五、实践与应用为了使学生更好地掌握大数据技能，实践和应用环节是必不可少的。

在这一部分中，学生将通过实际项目或案例，综合运用所学知识解决实际问题。

通过实践，学生能够提高解决实际问题的能力，积累宝贵的工作经验。

同时，这也是一个反思和修正的过程，有助于学生对知识进行查漏补缺。

六、伦理与安全在大数据应用中，伦理和安全问题不容忽视。

学生需要了解如何在大数据应用中保护用户隐私、避免数据泄露等安全问题。

大数据学习总结

大数据学习总结一、引言随着信息技术的迅猛发展和互联网的普及，大数据已经成为当前社会发展中的热门话题。

作为一种新兴的技术和理论，大数据在各个领域都有着广泛的应用。

本文将对我在大数据学习过程中所掌握的知识进行总结和归纳，以便更好地理解和应用大数据技术。

二、大数据的定义和特点大数据是指规模庞大、类型多样且难以通过传统方式进行处理和分析的数据集合。

其特点主要体现在以下几个方面：1. 体量大：大数据的数据量通常以TB、PB甚至EB为单位，远远超过传统数据处理的能力范围。

2. 多样性：大数据包含结构化数据、半结构化数据和非结构化数据，如文本、图像、音频等多种形式的数据。

3. 时效性：大数据的产生速度非常快，需要实时或近实时地进行处理和分析。

4. 价值密度低：大数据中包含了大量的噪音和无效信息，需要通过数据挖掘和分析来提取有价值的信息。

三、大数据的技术框架和工具在大数据的处理和分析过程中，涉及到许多技术框架和工具。

以下是我在学习过程中接触到的一些主要技术框架和工具：1. Hadoop：Hadoop是一个开源的分布式计算框架，主要用于存储和处理大规模数据集。

其核心组件包括HDFS（Hadoop分布式文件系统）和MapReduce（分布式计算模型）。

2. Spark：Spark是一个快速、通用的大数据处理引擎，具有内存计算和容错性等特点。

它支持多种编程语言，并提供了丰富的API，可以用于数据处理、机器学习等多种应用场景。

3. Hive：Hive是基于Hadoop的数据仓库工具，提供了类似SQL的查询语言HiveQL，可以将结构化数据映射到Hadoop集群中进行查询和分析。

4. HBase：HBase是一个分布式的面向列的NoSQL数据库，可以用于存储大规模的结构化和半结构化数据。

5. Kafka：Kafka是一个分布式的流处理平台，用于高吞吐量的实时数据流的处理和分析。

6. TensorFlow：TensorFlow是一个开源的机器学习框架，可以用于构建和训练各种深度学习模型。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据技术
1.什么是数据挖掘，什么是机器学习：
什么是机器学习
关注的问题：计算机程序如何随着经验积累自动提高性能；
研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；
通过输入和输出，来训练一个模型。

2.大数据分析系统层次结构：应用层、算法层、系统软件层、基础设施层
3.传统的机器学习流程
预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。

手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，如果数据被很好的表达成了特征，通常线性模型就能达到满意的精度。

4.大数据分析的主要思想方法
4.1三个思维上的转变
关注全集（不是随机样本而是全体数据）：面临大规模数据时，依赖于采样分析；统计学习的目的——用尽可能少的数据来证实尽可能重大的发现；大数据是指不用随机分析这样的捷径，而是采用大部分或全体数据。

关注概率（不是精确性而是概率）：大数据的简单算法比小数据的复杂算法更有效
关注关系（不是因果关系而是相关关系）：建立在相关关系分析法基础上的预测是大数据的核心，相关关系的核心是量化两个数据值之间的数理关系，关联物是预测的关键。

4.2数据创新的思维方式
可量化是数据的核心特征（将所有可能与不可能的信息数据化）；挖掘数据潜在的价值是数据创新的核心；三类最有价值的信息：位置信息、信令信息以及网管和日志。

数据混搭为创造新应用提供了重要支持。

数据坟墓：提供数据服务，其他人都比我聪明！
数据废气：是用户在线交互的副产品，包括了浏览的页面，停留了多久，鼠标光标停留的位置、输入的信息。

4.3大数据分析的要素
大数据“价值链”构成：数据、技术与需求（思维）；数据的价值在于正确的解读。

5.数据化与数字化的区别
数据化：将现象转变为可制表分析的量化形式的过程；
数字化：将模拟数据转换成使用0、1表示的二进制码的过程
6.基于协同过滤的推荐机制
基于协同过滤的推荐（这种机制是现今应用最为广泛的推荐机制）——基于模型的推荐（SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归）
余弦距离（又称余弦相似度）：表示是否有相同的倾向
欧几里得距离（又称欧几里得相似度）：表示绝对的距离
这种推荐方法的优缺点：
它不需要对物品或者用户进行严格的建模，而且不要求物品的描述是机器可理解的；推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

数据稀疏性问题，大量的用户只是评价了一小部分的项目，而大多数的项目是没有进行评分；冷启动问题，新物品和新用户依赖于用户历史偏好数据的多少和准确性，一些特殊品味的用户不能给予很好的推荐。

7.机器学习：构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素：存在潜在模式、不容易列出规则并编程实现、有历史的数据
8.机器学习的基础算法之PLA算法和Pocket算法（贪心PLA）
感知器——线性二维分类器，都属于二分类算法
二者的区别：迭代过程有所不同，结束条件有所不同；
证明了线性可分的情况下是PLA和Pocket可以收敛。

9.机器为什么能学习
学习过程被分解为两个问题：
能否确保Eout(g) 与 Ein(g) 足够相似？
能否使 Ein(g) 足够小？
规模较大的N，有限的dVC，较低的Ein条件下，学习是可能的。

切入点：利用具体特征的，基于有监督方式的，批量学习的分析，进行二分类预测。

10.VC维：
11.噪声的种类：
12.误差函数（损失函数）
13.给出数据计算误差
14.线性回归算法：简单并且有效的方法，典型公式
线性回归的误差函数：使得各点到目标线/平面的平均距离最小！
15.线性回归重点算法部分：
16.线性分类与线性回归的区别：
17.过拟合：
原因：模型复杂太高，噪声，数据量规模有限。

解决方案：使用简单的模型，数据清洗（整形），正则化，验证。

18.正则化
19.分布式文件系统：
一种通过网络实现文件在多台主机上进行分布式存储的文件系统；分布式文件系统一般采用C/S模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求；客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。

20.计算机集群结构：
分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。

与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的，因此大大降低了硬件上的开销。

21.分布式文件系统的结构：
分布式文件系统在物理结构上是由计算机集群中的多个节点构成，这些节点分为两类，一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点。

22.HDFS
主要特性：兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
大的跨平台兼容性；
局限性：不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意
修改文件
块：
hdfs的名称节点存储元数据、元数据保存在内存中、保存文件，block，datanode之
间的映射关系；hdfs的数据节点存储文件内容、文件内容保存在磁盘、维护了block id 到datanode本地文件的映射关系。

23.分布式数据库概述：
四类典型的作用于大数据存储和管理的分布式数据库：并行数据库、NoSQL数据管理系统、NewSQL数据管理系统、云数据管理系统。

并行数据库：
NoSQL数据管理系统：
NewSQL数据管理系统：
云数据管理系统：
Nosql简介：数据模型灵活、简洁；水平可扩展性强；系统吞吐量高；
关系数据库无法满足大数据表现：无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可拓展性和高可用性的需求。

Nosql与关系数据库的比较：
NoSQL的四大类型：键值数据库、
列族数据库、
文档数据库、
图形数据库
NoSQL的理论基础（CAP与ACID、BASE）CAP：
一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。

ACID（关系数据库的事务具有的四个特性）
BASE
NoSQL到NewSQL：
大数据应用：
百度大数据引擎的构成：开放云、数据工厂、百度大脑开放云：
数据工厂：
百度大脑：
阿里大数据应用：去IOE
大数据在电信行业的应用：
24.分布式并行编程框架MapReduce
25.
MapReduce的体系结构：Client、JobTracker、TaskTracker、Task
MapReduce的工作流程：
Split（分片）：
Map端的Shuffle过程详解：
Reduce端的shuffle详解：
MapReduce小结：
26.Spark特点：
Hadoop的局限性：
Spark生态系统：
RDD：
RDD的优势：
RDD之间依赖关系的两种类型：
Stage划分：
Sprak小结：
流数据：
流计算处理流程：数据实时采集（保证实时性、低延迟、可靠稳定）、数据实时计算、实时查询服务（实时查询服务可以不断更新结果，并将用户所需的结果实时推送给用户）。

流处理系统与传统数据处理系统的区别：
开源流计算框架——Storm（免费、开源的分布式实时计算系统）：
Storm的工作流程：
流计算小结：
图计算系统——Pregel简介：
BSP模型：
图计算小结：
Pregel计算模型：
Pregel执行过程：
Pregel容错机制：
HBase：
BigTable：
特点：
HBase：
HBase与传统关系数据库的对比：
HBase数据模型：
HBased 中的数据坐标：
HBase功能组件：
Region的定位:
HBased 系统架构：
Region服务器工作原理：。