(大数据)北邮大数据技术课程重点总结
大数据技术课程总结

大数据技术课程总结随着信息时代的到来,大数据技术逐渐成为各个行业的热门话题。
大数据技术课程的学习,为我们提供了深入了解和应用大数据技术的机会。
在这门课程中,我学到了许多关于大数据技术的知识和技能,并对大数据的应用领域有了更深入的了解。
大数据技术课程教授了我大数据的基本概念和原理。
大数据是指规模庞大、种类繁多的数据集合,传统的数据处理工具和方法已经无法胜任。
课程中,我了解到了大数据的4V特征,即数据的量大、速度快、种类多、价值密度低。
通过学习大数据的基本概念,我对大数据的本质有了更深入的认识。
大数据技术课程介绍了大数据的采集和存储技术。
在大数据时代,数据的采集变得更加便捷和高效。
课程中,我学习了各种数据采集技术,包括传感器技术、网络爬虫技术和日志采集技术等。
同时,课程还介绍了大数据的存储技术,如分布式文件系统和NoSQL数据库等。
通过学习这些技术,我了解到了如何高效地采集和存储大数据。
大数据技术课程还讲解了大数据的处理和分析技术。
在大数据时代,如何高效地处理和分析海量数据成为了一项重要任务。
课程中,我学习了大数据的处理框架,如Hadoop和Spark等。
同时,课程还介绍了大数据的分析方法和工具,如数据挖掘和机器学习等。
通过学习这些技术,我能够有效地处理和分析大数据,从中挖掘出有价值的信息。
除了基本的大数据技术,大数据技术课程还介绍了大数据的应用领域。
大数据技术在各个行业都有广泛的应用,如金融、医疗、交通、电商等。
课程中,我学习了这些领域中大数据的应用案例,了解了大数据技术对于提升效率和决策支持的重要性。
通过学习这些应用案例,我对大数据技术的实际应用有了更深入的了解。
总的来说,大数据技术课程为我提供了全面的大数据知识和技能。
通过学习这门课程,我不仅了解了大数据的基本概念和原理,还掌握了大数据的采集、存储、处理和分析技术。
同时,我还了解了大数据在各个领域的应用。
这些知识和技能将对我的未来职业发展产生积极的影响。
大数据学知识点总结

大数据学知识点总结引言随着数字化时代的到来,大数据已经成为了信息时代最重要的组成部分之一。
在各行业的发展中,大数据的应用正在广泛的推进,而在大数据的应用中,大数据学作为一个核心学科正在逐渐得到重视。
大数据学通过对大数据的采集、存储、处理与分析,为各行业提供了丰富的数据支持,因此大数据学的学习和掌握对于未来的发展至关重要。
本文将对大数据学的知识点进行总结,包括大数据的概念、大数据技术、大数据的应用、大数据的发展趋势等内容。
一、大数据的概念1.大数据的定义大数据是指规模大、类型多、更新快的数据集合,大数据的处理和分析需要特殊的技术和工具,以便从这些数据中提取出有价值的信息。
2.大数据的四个特点(1)规模大:大数据的数据量通常非常庞大,以至于传统的数据处理方式无法很好地处理这些数据;(2)类型多:大数据的类型多种多样,包括结构化数据、半结构化数据和非结构化数据;(3)更新快:大数据的更新速度非常快,需要实时收集和处理数据;(4)价值密度低:大数据中包含了大量的无价值数据,需要通过分析和挖掘来找到有价值的信息。
3.大数据的价值大数据的价值主要体现在两个方面:一是通过大数据的分析可以帮助企业做出更加精准的决策,提高生产效率和企业竞争力;二是大数据的分析可以帮助企业发现商机和趋势,促进创新和发展。
二、大数据技术1.大数据的采集技术大数据的采集技术包括了数据的传感器采集、日志采集、文档采集、网络爬虫采集等方式,通过这些方式可以有效地将数据收集到系统中。
2.大数据的存储技术大数据的存储技术是大数据技术中的一个核心部分,存储技术包括了分布式文件系统、对象存储、数据库等多种方式,以便保证数据的高效存储和管理。
3.大数据的处理技术大数据的处理技术包括了数据清洗、数据预处理、数据分析等多种方式,以便将大数据进行整理、提取、分析等处理,为数据的后续应用提供支持。
4.大数据的分析技术大数据的分析技术是大数据技术中最重要的一块,包括了数据挖掘、机器学习、人工智能等多种分析方式,可以提供对大数据的深层次挖掘和分析。
大数据学习总结

大数据学习总结一、引言大数据作为当今信息时代的重要组成部分,已经在各个领域产生了广泛的应用。
为了更好地掌握和应用大数据技术,我进行了一段时间的大数据学习。
在学习过程中,我系统地学习了大数据的基本概念、技术原理、工具和应用等方面的知识。
通过学习,我对大数据的概念和应用有了更深入的理解,并且掌握了一些常用的大数据技术和工具。
在本文中,我将对我所学的大数据知识进行总结和归纳,以便更好地应用于实际工作中。
二、大数据的基本概念大数据是指规模超过传统数据库能够处理的数据集合,它具有数据量大、数据类型多样、数据处理速度快和数据价值丰富等特点。
大数据的产生主要来源于互联网、物联网、社交媒体等各种数据源。
与传统的数据处理方式相比,大数据需要采用新的技术和方法来进行存储、处理和分析。
三、大数据的技术原理1. 分布式存储与计算:大数据处理需要将数据存储在多个节点上,并且通过分布式计算来实现数据的处理和分析。
常用的分布式存储和计算框架有Hadoop、Spark等。
2. 数据采集与清洗:大数据处理的第一步是采集数据,并对数据进行清洗和预处理。
数据采集可以通过爬虫、API接口等方式进行,数据清洗可以通过数据清洗工具和算法来实现。
3. 数据挖掘与机器学习:大数据处理的核心是从海量数据中挖掘出有价值的信息和知识。
数据挖掘和机器学习是实现这一目标的重要手段,通过建立模型和算法来实现对数据的分析和预测。
4. 数据可视化与展示:大数据处理的最终目标是将处理结果以可视化的方式展示出来,以便用户更好地理解和应用。
数据可视化可以通过图表、地图、仪表盘等方式实现。
四、大数据的工具和应用1. Hadoop:Hadoop是一个开源的分布式存储和计算框架,它包括HDFS分布式文件系统和MapReduce分布式计算模型。
Hadoop可以实现大数据的存储和处理,广泛应用于大数据领域。
2. Spark:Spark是一个快速的、通用的集群计算系统,它支持内存计算和迭代计算,并且提供了丰富的API和工具。
大数据知识点总结

大数据知识点总结大数据(Big Data)是指无法用常规软件工具进行捕捉、管理和处理的大规模数据集合。
随着互联网和信息技术的快速发展,大数据已经成为当今社会中不可忽视的重要资源。
本文将对大数据的定义、特点、应用以及面临的挑战进行总结和分析。
一、大数据的定义大数据是指数据量大到无法用传统数据库工具进行存储、管理和处理的一种数据集合。
大数据的特点主要体现在以下三个方面:1. 数据量大:传统数据库系统难以承载大规模的数据量,而大数据通常以TB(TB级别)甚至PB(PB级别)计算。
2. 数据种类多样:大数据不仅包括结构化数据(如关系数据库中的表格数据),还包括半结构化数据(如XML、JSON等格式数据)和非结构化数据(如文本、图像、视频等)。
3. 数据速度快:大数据的生成速度非常快,需要实时或接近实时地对数据进行处理、分析和挖掘。
二、大数据的特点1. 高速性:大数据处理要求能够高效地进行实时或近实时的数据分析和决策,以满足日益增长的业务需求。
2. 多样性:大数据包含各种类型的数据,如传感器数据、社交媒体数据、日志数据等。
这些多样性的数据需要通过多种方法进行处理和分析。
3. 不确定性:大数据源源不断地产生,其数据质量和准确性难以保证。
因此,对大数据的处理需要考虑到不确定因素,并采取相应的处理策略。
三、大数据的应用1. 商业智能和决策支持:通过对大数据的分析,企业可以更好地了解市场趋势和消费者需求,以便制定更准确的商业策略和决策。
2. 社交网络分析:利用大数据技术可以对社交网络数据进行分析,揭示人们之间的联系和互动模式,为社交媒体平台的运营和管理提供重要依据。
3. 金融风险管理:大数据可以帮助金融机构及时识别异常交易行为和欺诈风险,提高风险管理的效率和准确性。
4. 医疗保健:通过对大规模医疗数据的分析,可以发现疾病的风险因素和预测模型,为医疗决策和疾病治疗提供支持。
5. 智慧城市建设:利用大数据技术,可以对城市中的各种数据进行整合和分析,实现城市资源的合理分配和优化管理。
大数据基础知识点总结

大数据基础知识点总结大数据是一个指代庞大、复杂和高速增长数据集的术语,通常用于描述无法通过传统数据处理工具和技术来处理和分析的数据。
大数据的处理和分析需要一套特定的技术和知识。
以下是大数据的基础知识点的总结:1. 数据的特征:- 五V特征:大数据具有体积大、速度快、多样性、价值密度低和真实性高的特点。
- 数据类型:大数据可以包括结构化数据(如数据库表格)、半结构化数据(如日志文件)和非结构化数据(如图像、音频和视频)。
2. 大数据处理技术:- 分布式计算:大数据需要利用分布式计算框架(如Hadoop和Spark)来处理数据,使得数据可以在多个计算节点上并行处理。
- 数据存储:大数据需要使用高扩展性和容错性的存储系统(如HDFS和NoSQL数据库)来存储大规模数据。
- 数据清洗和预处理:大数据通常需要进行数据清洗和预处理,以去除噪音、标准化数据和处理缺失值等。
- 数据挖掘和分析:大数据可以通过数据挖掘和分析技术来提取有用的信息和洞察。
3. 大数据分析技术:- 批处理:批处理是一种通过一批数据进行分析和处理的方法,适用于对历史数据进行分析。
- 流处理:流处理是一种对实时数据流进行连续处理和分析的方法,适用于处理实时数据和生成实时结果。
- 机器学习:机器学习是一种使用算法和模型来对大数据进行建模和预测的方法,可以识别模式和关联性。
- 文本挖掘:文本挖掘是一种从大量文本数据中提取和分析信息的技术,包括文本分类、聚类和情感分析等。
4. 数据隐私和安全:- 数据隐私保护:大数据涉及大量敏感信息,需要通过数据脱敏、权限控制和加密等技术保护用户隐私。
- 数据安全:大数据需要采取措施来防止数据泄露、恶意攻击和未授权访问等风险,如访问控制和网络安全防护。
以上是大数据的基础知识点总结。
随着技术的不断发展和应用的普及,大数据正成为许多行业的关键资源,掌握大数据的基础知识对于从事相关领域的专业人士至关重要。
大数据技术原理与应用的课程总结

大数据技术原理与应用的课程总结一、简介在本学期的大数据技术原理与应用课程中,我们学习了大数据技术的基本原理和应用。
本文档将对这门课程进行总结。
二、知识点回顾在本课程中,我们学习了以下几个主要的知识点:1.大数据概述–了解大数据的定义和特点–掌握大数据技术发展的历程和趋势2.大数据存储与管理–学习了分布式文件系统(如HDFS)的原理和工作机制–掌握了NoSQL数据库的基本概念和使用方法3.大数据处理与分析–学习了MapReduce编程模型的原理和使用–掌握了Hadoop生态系统的组件(如Hive、Pig、Spark)的使用4.大数据挖掘与机器学习–了解了大数据挖掘的基本概念和常用算法–学习了机器学习在大数据分析中的应用三、实践项目本课程还设计了一个实践项目,让我们动手实践所学的大数据技术。
项目要求我们使用Hadoop和Python,对一份大规模的日志数据进行处理和分析。
项目的主要步骤如下:1.数据预处理–对原始日志数据进行清洗和整理,去除无效数据和重复记录2.数据存储与管理–将清洗后的日志数据存储到HDFS中,以便后续的处理和分析3.数据处理与分析–使用MapReduce编程模型,对日志数据进行处理和分析–如统计每天的访问量、计算不同地区的用户数量等4.结果展示–使用可视化工具(如Matplotlib)将分析结果可视化展示出来–如生成柱状图、折线图等通过完成这个实践项目,我们不仅巩固了所学的知识,更重要的是锻炼了实际应用能力,提升了解决实际问题的能力。
四、学习收获通过学习本课程,我对大数据技术有了更深入的理解和应用能力。
以下是我在学习过程中的一些收获:1.掌握了大数据存储与管理的基本原理和方法,了解了HDFS和NoSQL数据库的应用场景和使用方法。
2.熟悉了大数据处理与分析的主要技术,如MapReduce编程模型和Hadoop生态系统的组件使用。
3.学习了大数据挖掘和机器学习的基本概念和常用算法,了解了它们在大数据分析中的应用。
大数据知识点归纳总结
大数据知识点归纳总结一、大数据概念大数据(Big Data)是指规模超出了传统数据库能够存储、管理和处理的数据集合。
它具有3V特点:Volume(大量)、Velocity(高速)、Variety(多样)。
大数据的处理需要采用新的技术和工具,包括分布式存储技术、并行计算技术、自动化数据采集和分析技术等。
二、大数据技术1. 分布式存储技术分布式存储技术用于将大数据分散存储在多台计算机上,以提高数据的可靠性和可扩展性。
常用的分布式存储系统包括Hadoop Distributed File System(HDFS)和Amazon S3等。
2. 并行计算技术并行计算技术用于同时处理大量数据,提高数据处理速度。
常用的并行计算框架包括MapReduce、Spark和Flink等。
3. 自动化数据采集技术自动化数据采集技术用于从多个数据源中自动采集数据,包括结构化数据、半结构化数据和非结构化数据。
常用的自动化数据采集工具包括Flume、Kafka和Logstash等。
4. 数据分析技术数据分析技术用于对大数据进行分析,挖掘其中隐藏的规律和价值。
常用的数据分析工具包括Hive、Pig和Impala等。
5. 机器学习技术机器学习技术用于大数据的预测分析和智能推荐。
常用的机器学习框架包括TensorFlow、PyTorch和Scikit-learn等。
三、大数据应用1. 金融行业金融行业利用大数据进行风险控制、欺诈检测和个性化推荐等。
例如,利用大数据分析用户的交易行为和信用记录,预测用户的信用风险和个性化需求。
2. 零售行业零售行业利用大数据进行销售预测、库存管理和营销策略优化等。
例如,利用大数据分析顾客的购物行为和偏好,推荐个性化的商品和优惠活动。
3. 电信行业电信行业利用大数据进行用户画像、营销推荐和网络优化等。
例如,利用大数据分析用户的通信行为和网络质量,推荐适合用户的套餐和服务,优化网络资源配置。
4. 医疗保健行业医疗保健行业利用大数据进行疾病预测、个性化治疗和医疗资源分配等。
大数据技术关键知识点详解
大数据技术关键知识点详解大数据技术是指用于处理、存储和分析大规模数据集的各种技术和工具。
随着互联网的迅速发展,大数据在各个领域都得到了广泛的应用,并且呈现出快速增长的趋势。
本文将详细介绍大数据技术的关键知识点,包括数据获取、数据存储、数据处理和数据分析。
一、数据获取数据获取是大数据技术的首要环节,决定了后续数据处理和分析的质量。
常见的数据获取渠道包括传感器、社交媒体、网站日志、传统数据库等。
在数据获取过程中,需要考虑数据的准确性、完整性和实时性。
此外,数据获取还需要注意隐私保护和合规性。
1. 传感器数据获取传感器是获取实时数据的重要途径,可以用于监控和收集环境、生产、交通等各种数据。
传感器数据采集需要考虑传感器的布置位置、采集频率、传输方式等因素,以确保采集到的数据准确可靠。
2. 社交媒体数据获取社交媒体平台如微博、微信等积累了大量的用户行为数据和社交关系数据,可以用于用户画像、推荐系统等应用。
社交媒体数据获取需要考虑用户隐私和数据安全,以及数据爬取和清洗的问题。
3. 日志数据获取网站日志包含了用户访问行为、系统运行状态等重要信息,可以用于性能监控、故障分析等。
日志数据获取需要考虑数据存储的格式和结构,以及日志的采集和处理方式。
4. 传统数据库数据获取传统的关系型数据库存储了大量的结构化数据,可以通过SQL查询语言进行数据获取。
传统数据库数据获取需要考虑数据模型和查询性能的问题。
二、数据存储数据存储是将获取的大数据存储在合适的介质中,并提供高效的数据读写能力。
常见的数据存储方式包括分布式文件系统、NoSQL数据库和关系型数据库等。
数据存储需要考虑数据的可扩展性、数据的备份和恢复,以及对数据的安全保护。
1. 分布式文件系统分布式文件系统如Hadoop Distributed File System(HDFS)可以将大数据分布在多台机器上存储,并提供高容错性和高吞吐量的读写能力。
分布式文件系统的存储容量可以动态扩展,并且支持数据冗余备份和故障恢复。
大数据重点知识点
大数据重点知识点随着科技的快速发展和信息技术的广泛应用,大数据已经成为了当今时代的重要资源。
了解大数据的重点知识点对于从事数据分析、人工智能和信息管理等领域的专业人士来说至关重要。
本文将介绍大数据的核心概念和关键技术,帮助读者全面了解大数据的重点知识点。
一、大数据概述大数据(Big Data)是指以巨大的数据规模、高速的数据流速和多样的数据类型为特征的数据集合。
它以低成本、高效率和强灵活性为核心,带来了革命性的变革和商业价值。
大数据涉及四个维度,分别是数据的规模、速度、多样性和价值。
1. 数据规模:大数据以海量的数据规模为特点,常常需要借助分布式计算和存储技术来进行存储和分析。
2. 数据速度:大数据处理的关键是实时性,需要在海量数据中快速提取有价值的信息。
3. 数据多样性:大数据不仅包含结构化数据,还包括文本、图像、音频、视频等非结构化的数据类型。
4. 数据价值:通过大数据的分析挖掘,可以获取对决策和商业发展有重要意义的洞察和价值。
二、大数据技术大数据的处理和分析需要借助一系列的技术和工具,以下是大数据的主要技术:1. 数据采集与存储技术大数据的采集包括数据源的选择、数据获取的方式以及数据的传输和存储。
常用的数据采集方式包括传感器、网络爬虫和数据接口等。
数据存储技术包括分布式文件系统(如HDFS)、NoSQL数据库(如MongoDB、Cassandra)等。
2. 分布式计算技术大数据的分析离不开高性能的计算能力,分布式计算技术能够将大规模的数据分割成小数据集,并利用分布式计算框架(如Hadoop、Spark)进行并行计算,加快计算速度。
3. 数据处理与分析技术大数据的处理和分析需要借助一系列的算法和模型,包括数据清洗、数据挖掘、机器学习等技术。
通过这些技术,能够从大数据中发现规律、预测趋势和解决问题。
4. 数据可视化技术数据可视化技术将大数据的结果以图表、地图、仪表盘等形式展示,帮助人们更好地理解和利用数据。
大数据重点知识点
大数据重点知识点大数据已经成为了当今社会最炙手可热的话题之一。
随着技术的发展和互联网的普及,大数据正变得越来越重要。
想要了解大数据,我们需要了解一些重点知识点。
本文将讨论大数据的定义、特点、应用以及相关技术。
首先,什么是大数据?大数据指的是规模大、复杂程度高且难以传统方式处理的数据集合。
它通常包括结构化数据(如关系数据库中的表格数据)和非结构化数据(如文本文件、图片、音频等)。
大数据的三个特点是速度、多样性和数量。
速度指的是数据的产生和流动速度非常快,例如社交媒体上的实时数据;多样性指的是数据的类型非常丰富,需要采用不同的方法进行处理;数量指的是数据集合的规模非常庞大,传统的数据处理方法已经无法胜任。
大数据的应用非常广泛,包括商业、医疗、金融、交通等领域。
在商业领域,大数据可以用于分析消费者行为、做出市场预测、提高销售等。
在医疗领域,大数据可以用于研究疾病模式、个性化治疗方案等。
在金融领域,大数据可以用于预测股票价格、进行风险管理等。
在交通领域,大数据可以用于交通流量监测、智能交通管理等。
大数据的应用还远不止于此,随着技术的不断进步,我们可以期待看到更多的创新应用。
要处理大数据,我们需要掌握一些相关的技术。
首先,数据存储和管理是非常重要的。
传统的关系型数据库已经无法处理大数据,所以我们需要使用分布式数据库或者NoSQL数据库来存储和管理数据。
其次,数据处理和分析也是不可或缺的。
大数据的处理通常需要使用分布式计算框架,例如Hadoop和Spark。
这些框架可以将任务拆分为多个子任务并在多台机器上进行并行计算,以加快处理速度。
此外,数据挖掘和机器学习算法也可以帮助我们从大数据中提取有价值的信息。
除了以上提到的技术,还有一些与大数据相关的概念和工具也值得我们学习。
例如,数据可视化是将大数据以可视化的方式呈现出来,帮助我们更好地理解和分析数据。
数据隐私和安全是保护大数据不被滥用和泄露的重要问题,我们需要了解相关的法律和技术措施来保护数据的安全。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习使用场景的核心三要素:存在潜在模式、不容易列出规则并编程实现、有历史的数 据
8.机器学习的基础算法之 PLA 算法和 Pocket 算法(贪心 PLA)
感知器——线性二维分类器,都属于二分类算法 二者的区别:迭代过程有所不同,结束条件有所不同; 证明了线性可分的情况下是 PLA 和 Pocket 可以收敛。
12.误差函数(损失函数)
13.给出数据计算误差
14.线性回归算法:简单并且有效的方法,典型公式
线性回归的误差函数:使得各点到目标线/平面的平均距离最小!
15.线性回归重点算法部分:
16.线性分类与线性回归的区别:
17.过拟合:
原因:模型复杂太高,噪声,数据量规模有限。 解决方案:使用简单的模型,数据清洗(整形),正则化,验证。
23.分布式数据库概述:
四类典型的作用于大数据存储和管理的分布式数据库:并行数据库、
NoSQL 数据管理系统、NewSQL 数据管理系统、云数据管理系统。
并行数据库:
NoSQL 数据管理系统:
NewSQL 数据管理系统:
云数据管理系统: Nosql 简介:数据模型灵活、简洁;水平可扩展性强;系统吞吐量高; 关系数据库无法满足大数据表现:无法满足海量数据的管理需求、无法满足数据高并发的需 求、无法满足高可拓展性和高可用性的需求。 Nosql 与关系数据库的比较: NoSQL 的四大类型:键值数据库、 列族数据库、 文档数据库、 图形数据库 NoSQL 的理论基础(CAP 与 ACID、BASE) CAP: 一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。 ACID(关系数据库的事务具有的四个特性) BASE NoS据在电信行业的应用: 24.分布式并行编程框架 MapReduce MapReduce 的体系结构:Client、JobTracker、TaskTracker、Task MapReduce 的工作流程: Split(分片): Map 端的 Shuffle 过程详解: Reduce 端的 shuffle 详解: MapReduce 小结:
21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类 叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点” (SlaveNode)或者也被称为“数据节点。
22.HDFS
主要特性:兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强
18.正则化
19.分布式文件系统:
一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采用 C/S 模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户 端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集 群。 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统 所采用的计算机集群都是由普通硬件构成的,因此大大降低了硬件上的开销。
9.机器为什么能学习
学习过程被分解为两个问题: 能否确保 Eout(g)与 Ein(g)足够相似? 能否使 Ein(g)足够小? 规模较大的 N,有限的 dVC,较低的 Ein 条件下,学习是可能的。 切入点:利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC 维:
11.噪声的种类:
25.Spark 特点:
Hadoop 的局限性: Spark 生态系统: RDD: RDD 的优势: RDD 之间依赖关系的两种类型: Stage 划分: Sprak 小结: 流数据:
流计算处理流程:数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时 查询服务(实时查询服务可以不断更新结果,并将用户所需的结果实时推送给用户)。 流处理系统与传统数据处理系统的区别: 开源流计算框架——Storm(免费、开源的分布式实时计算系统): Storm 的工作流程: 流计算小结: 图计算系统——Pregel 简介: BSP 模型: 图计算小结: Pregel 计算模型: Pregel 执行过程: Pregel 容错机制: HBase: BigTable: 特点: HBase: HBase 与传统关系数据库的对比: HBase 数据模型: HBased 中的数据坐标: HBase 功能组件: Region 的定位: HBased 系统架构: Region 服务器工作原理:
(大数据)北邮大数据技术 课程重点总结
5.数据化与数字化的区别
数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用 0、1 表示的二进制码的过程
6.基于协同过滤的推荐机制
基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)——基于模型的推荐(SVM、 聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度):表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度):表示绝对的距离 这种推荐方法的优缺点: 它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是 开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。 数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分; 冷启动问题,新物品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用 户不能给予很好的推荐。
大的跨平台兼容性;
局限性:不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修
改文件
块:
hdfs 的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode 之间
的映射关系;hdfs 的数据节点存储文件内容、文件内容保存在磁盘、维护了 blockid
到 datanode 本地文件的映源自关系。