大数据高职系列教材之大数据导论PPT课件:第5章 大数据分析

合集下载

大数据介绍PPT课件

大数据介绍PPT课件

数据清洗与转换
缺失值处理
对缺失数据进行填充、插值或删除等操作。
数据转换
将数据转换为适合分析的格式,如数值型、 类别型等。
异常值处理
识别并处理数据中的异常值,如离群点、噪 声等。
数据规约
降低数据维度,减少数据冗余和复杂性。
数据集成与融合
01
数据集成
将来自不同数据源的数据进行整合, 形成一个统一的数据视图。
副本机制
为确保数据可靠性和可用性,对每个数据分片创建多个副本,并将 它们存储在集群的不同节点上。
一致性协议
通过分布式一致性协议(如Paxos、Raft等)确保数据在多个副本之 间保持一致性。
数据备份与恢复策略
定期备份
制定定期备份计划,将数据备份到远程存储或云 存储中,以防止数据丢失。
增量备份
仅备份自上次完整备份以来发生更改的数据,以 减少备份时间和存储空间。
数据去重
识别并删除重复的数据记录,确保 数据的唯一性。
03
02
数据融合
对多个数据源的数据进行融合,提 取出更全面、准确的信息。
数据校验
对数据进行校验,确保数据的准确 性和一致性。
04
04 大数据存储与管 理
分布式存储原理
数据分片
将大数据集分割成小块,分别存储在多个节点上,以实现数据的分 布式存储。
大数据可视化
处理大规模数据集的可视化技术,如分布式可视化、并行可视化等。
06 大数据挑战与未 来趋势
数据质量与可信度问题
数据来源多样性
大数据来自各种渠道和源头,数 据质量参差不齐,可能存在不准 确、不完整或误导性的数据。
数据清洗与预处理
为确保数据质量,需要进行数据 清洗、去重、异常值处理等预处 理步骤,增加数据处理复杂性和 成本。

大数据的分析课件ppt

大数据的分析课件ppt
阐述数据质量评估、监控及提升的方法论和 实践经验。
治理工具与技术
讨论常用的数据治理工具和技术及其在大数 据场景中的应用。
03
数据挖掘与机器学习算法
常用数据挖掘算法介绍及实现过程演示
决策树算法
K-means聚类算法
通过树形结构进行决策,包括ID3、C4.5等 。
将数据划分为K个簇,实现数据聚类。
Apriori关联规则算法
大数据的分析课件
目录
• 大数据基本概念与特点 • 数据存储与管理技术 • 数据挖掘与机器学习算法 • 大数据分析工具与可视化展示 • 大数据分析实践项目经验分享 • 大数据发展趋势及挑战探讨
01
大数据基本概念与特点
大数据定义及发展历程
大数据定义
指无法在一定时间范围内用常规软件工具进行捕捉、管理和 处理的数据集合,需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力来适应海量、高增长率和多样化 的信息资产。
Tableau可视化数据分析案例演示
数据拖拽分析
01
Tableau支持数据拖拽操作,便于用户快速进行数据分析。
可视化组件自定义
02
Tableau提供多种可视化组件,用户可根据需求自定义组件样式

动态交互与筛选
03
Tableau支持动态交互功能,便于用户在分析过程中实时筛选和
查看数据。
其他常用可视化工具简介及对比
Smartbi
一款智能化的商业智能工具,提供丰富的数据分析和可视化功能, 操作简便。
FineBI
一款功能强大的大数据分析工具,支持多种数据源连接,可视化效 果丰富。
PowerVD
一款专注于可视化数据分析的工具,提供丰富的图表类型和交互功能 ,适用于各种场景。

大数据分析课件

大数据分析课件

大数据分析课件一、引言随着互联网、物联网、云计算等技术的飞速发展,数据已经成为当今社会的一种重要资源。

大数据分析作为一种新兴的数据处理方法,通过对海量数据的挖掘、分析和利用,为各行各业提供决策依据,成为推动社会进步的重要力量。

本课件旨在介绍大数据分析的基本概念、技术体系、应用场景及发展趋势,帮助读者了解大数据分析的核心内容,为实际应用提供理论支持。

二、大数据分析基本概念1.大数据(1)数据量巨大:大数据涉及的数据量通常达到PB (Petate)级别,甚至更高。

(2)数据类型多样:大数据包括结构化数据、半结构化数据和非结构化数据等多种类型。

(3)数据速度快:大数据的产生速度极快,如社交网络、物联网等实时产生的数据。

2.大数据分析(1)数据采集:从各种数据源获取原始数据。

(2)数据预处理:对原始数据进行清洗、转换、集成等操作,提高数据质量。

(3)数据存储:将预处理后的数据存储在适当的数据仓库或数据湖中。

(4)数据分析:运用统计、机器学习等方法对数据进行挖掘和分析。

(5)数据可视化:将分析结果以图表、报告等形式展示,便于用户理解和使用。

三、大数据分析技术体系1.分布式计算框架为了应对大数据处理的需求,分布式计算框架应运而生。

常见的分布式计算框架有Hadoop、Spark等。

这些框架可以将大数据分布式存储在多个节点上,实现数据的并行处理,提高数据处理效率。

2.数据挖掘算法数据挖掘算法是大数据分析的核心。

常见的数据挖掘算法包括分类、聚类、关联规则挖掘、时间序列分析等。

这些算法可以帮助我们从海量数据中提取有价值的信息和知识。

3.机器学习技术机器学习是一种让计算机自动从数据中学习规律的方法。

在大数据分析中,机器学习技术可以帮助我们构建预测模型,实现对未知数据的预测和分类。

常见的机器学习算法有决策树、支持向量机、神经网络等。

4.数据可视化技术数据可视化技术可以将复杂的数据以图形、图像等形式展示,便于用户理解和分析。

大数据导论PPT全套完整教学课件2024新版

大数据导论PPT全套完整教学课件2024新版

NoSQL数据库
如HBase、Cassandra等,适用 于海量数据的存储和访问,支持 高并发读写和灵活的数据模型。
云存储服务
如Amazon S3、阿里云OSS等, 提供弹性扩展、按需付费的在线 存储服务。
分布式计算技术
1 2 3
MapReduce编程模型
将大规模数据处理任务拆成若干个可以在集群 中并行执行的小任务,实现数据的分布式处理。
数据质量定义及维度
阐述数据质量的定义,从准确性、完 整性、一致性、时效性等多个维度评
价数据质量。
数据质量评价标准
数据质量提升策略
介绍业界通用的数据质量评价标准, 如信息质量评估框架(IQAF)等。
探讨数据清洗、数据整合、数据变换 等数据质量提升策略及实施方法。
未来发展趋势预测及挑战应对
大数据与人工智能融合
政府信息公开与透明化建设
政府数据开放共享
通过大数据平台实现政府各部门间数据共享,提高政府决策效率和 透明度。
政策效果评估
利用大数据分析技术对政策实施效果进行实时监测和评估,为政策 调整提供依据。
舆情分析与应对
运用大数据技术对社会舆论进行实时监测和分析,帮助政府及时了 解民意,提高应对突发事件的反应速度。
ABCD
物联网技术体系
感知层、网络层、应用层
物联网在大数据中的应用案例
智能交通、智能家居、智能医疗等
边缘计算与雾计算在大数据中的作用
边缘计算概述
边缘计算的定义、特点、应用场景
雾计算概述
雾计算的定义、特点、与云计算的区别和联系
边缘计算与雾计算在大数据中的作用
降低数据传输延迟、提高数据处理效率、增强数据安全性
物理资源层、虚拟化层、平台管理层 、应用服务层

大数据分析课件

大数据分析课件
大数据技术被设计用于在 成本可承受的条件下,通 过非常快速(velocity) 地采集、发现和分析,从 大量(volumes)、多 类别(variety)的数据 中提取价值(value), 将是IT 领域新一代的技 术与架构。
技术领域的挑战
技术架构的挑战:
1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据,也 不能很好的支持高级别的数据分析。急速膨胀的数 据体量即将超越传统数据库的管理能力。 如何构建全球级的分布式数据库(Globally-Distri buted Database) ,可以扩展到数百万的机器, 数已百计的数据中心,上万亿的行数据。
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联 网世界中人与人交互信息,位置信息等是大数据的主要来源. •文本/图片/视频 等非结构化/半结构化数据 •能够在不同的数据类型中,进行交叉分析的技术,是大数据的 核心技术之一.语义分析技术,图文转换技术,模式识别技术,地 理信息技术等,都会在大数据分析时获得应用.
分布式文件系统
GFS将整个系统分为三类角色:Client(客户端)、Master (主服务器)、Chunk Server(数据块服务器)。
分布式文件系统
Hadoop是一个分布式系统基础架构,由Apache基金 会开发。用户可以在不了解分布式底层细节的情况下, 开发分布式程序,充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distri buted File System),简称HDFS。HDFS有着高容错 性的特点,并且设计用来部署在低廉的硬件上。
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处 理的范畴

大数据分析课件

大数据分析课件

大数据分析课件大数据分析课件第一章:引言1.1 课程介绍本章将介绍大数据分析课程的背景、目的和内容概述。

第二章:大数据概述2.1 大数据定义本节将定义大数据的概念,解释其特点和意义。

2.2 大数据应用领域本节将介绍大数据在各个行业中的应用,如零售业、金融业、医疗保健等。

2.3 大数据处理工具本节将介绍大数据处理的常用工具,如Hadoop、Spark等。

第三章:数据采集与清洗3.1 数据采集方法本节将介绍常用的数据采集方法,如网络爬虫、传感器数据获取等。

3.2 数据清洗技术本节将介绍数据清洗的方法和技术,以确保数据的准确性和完整性。

第四章:数据存储与管理4.1 数据存储技术本节将介绍数据存储的技术和数据库管理系统,如关系型数据库、NoSQL数据库等。

4.2 数据仓库与数据湖本节将介绍数据仓库和数据湖的概念、特点和使用场景。

第五章:数据分析与挖掘5.1 数据分析方法本节将介绍数据分析的常用方法,如统计分析、机器学习、数据可视化等。

5.2 数据挖掘技术本节将介绍数据挖掘的技术和方法,如关联规则、聚类分析、分类算法等。

第六章:大数据应用案例6.1 零售业案例本节将介绍大数据在零售业中的应用案例,如商品推荐、销售预测等。

6.2 金融业案例本节将介绍大数据在金融业中的应用案例,如风险评估、反欺诈分析等。

6.3 医疗保健案例本节将介绍大数据在医疗保健领域中的应用案例,如疾病预测、医疗资源管理等。

第七章:数据隐私与安全7.1 数据隐私保护本节将介绍数据隐私的概念和保护措施,如数据脱敏、隐私政策等。

7.2 数据安全管理本节将介绍数据安全管理的方法和技术,如访问控制、加密算法等。

第八章:大数据伦理与法律8.1 大数据伦理问题本节将介绍大数据应用中涉及的伦理问题,如数据歧视、隐私侵犯等。

8.2 大数据法律框架本节将介绍与大数据相关的法律法规和政策,如数据保护法、隐私法等。

第九章:总结与展望9.1 课程总结本节将总结本课程的主要内容和学习收获。

大数据分析讲稿ppt教案

大数据分析讲稿ppt教案

一致性
不同来源的数据是否 能够相互匹配和验证 。
03 大数据分析技术
CHAPTER
数据预处理
01
02
03
数据清洗
去除重复、异常、缺失数 据,确保数据质量。
数据转换
将数据从一种格式或结构 转换为另一种格式或结构 ,以便于分析。
数据集成
将多个数据源的数据整合 到一个统一的数据仓库中 。
数据分析方法
特点
大数据分析具有数据量大、处理速度 快、数据类型多样等特点,能够为企 业提供更精准、全面的数据分析结果 ,帮助企业做出更好的决策。
大数据分析的重要性
提高决策效率
大数据分析能够快速处理大量数 据,为企业提供及时、准确的分 析结果,从而提高决策效率和准
确性。
发现潜在机会
通过对数据的深入挖掘和分析,企 业可以发现隐藏在数据中的机会和 趋势,从而制定更具针对性的市场 策略。
大数据伦理、法律与社会责任
总结词
大数据的伦理、法律和社会责任是大数 据发展中不可忽视的重要问题。
VS
详细描述
随着大数据技术的广泛应用,数据隐私、 信息安全、算法公正等问题也日益凸显。 因此,在大数据的发展过程中,需要关注 和解决这些伦理、法律和社会责任问题。 例如,加强数据隐私保护、建立数据安全 标准、推动算法公正等,以确保大数据技 术的健康发展。
以更好地了解客户需求,提高客户满意度和忠诚度,降低营销成本。
03
精准营销工具
精准营销工具包括用户画像、推荐系统、A/B测试等,可以帮助企业实
现个性化推荐、优化广告投放等。
风险管理与控制
风险管理概述
风险管理工具
风险管理是指对企业面临的各种风险 进行识别、评估、控制和监控的过程 。

大数据的分析课件ppt

大数据的分析课件ppt

THANK YOU
感谢观看
总结词
通过大数据分析,深入了解用户在电商平台上的行为模 式和偏好,优化产品推荐和营销策略。
详细描述
收集用户在电商平台上的浏览、搜索、购买、评价等数 据,运用数据分析工具进行挖掘和分析。识别用户的购 买习惯、兴趣爱好和消费趋势,为产品开发和营销提供 有力支持。
社交媒体情绪分析
总结词
利用大数据分析社交媒体上的文本、图片和视频,了 解公众的情绪和态度,为企业决策提供依据。
预测性分析
预测模型建立
利用回归分析、时间序列分析、机器学习等技术,建 立数据预测模型,对未来数据进行预测。
模型评估与优化
通过交叉验证、调整参数等方法,评估模型的预测精 度和稳定性,并进行优化和改进。
预测结果解读
对预测结果进行解释和说明,帮助用户理解预测的意 义和价值。
规范性分析
01
数据关联分析
通过关联规则挖掘、相关性分析 等技术,发现数据之间的关联和 规律,为决策提供支持。
数据清洗
在数据存储之前,需要对数据进行清洗,去除重 复、错误或不完整的数据。
数据整合
将来自不同数据源的数据进行整合,以便进行更 全面的分析。
数据分析
利用统计分析、机器学习等技术对大数据进行深 入分析,以揭示数据中的模式和趋势。
数据可视化
数据可视化是将大数据以图形、图表 等形式呈现出来,以便更好地理解和 解释数据。
数据泄露风险
大数据的收集和处理涉及到大量的个人隐私信息,需要采取有效 的安全措施,防止数据泄露和滥用。
访问控制和权限管理
建立完善的访问控制和权限管理制度,对数据进行分级管理,确 保只有经过授权的人员能够访问相关数据。
加密与脱敏技术
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向流 程视角
面向流程视角的大数据分析方法主要关注大数据分析的步骤 和阶段。一般而言,大数据分析是一个多阶段的任务循环执 行过程。
面向信息技术视角的大数据分析方法强调大数据本身涉及到
面向信息 技术视角
的新型信息技术,从大数据的处理架构、大数据系统和大数 据计算模式等方面来探讨具体的大数据分析方法。
5.2数据分析方法
数据来源
数据作为第四次工业革命的战略资源,全球各国都在大力发展数据基础信息平台的建设, 用以改善数据的采集、存储、传输及管理的效率,从而提升信息服务水平。
数据分析 活动步骤
大数据分析包括五个阶段,1)数据获取及储存 2)数据信息抽取及无用信息的清洗 3 )数据整合及表示 4)数据模型的建立和结果分析 5)结果阐释
大数据应用人才培养系列教材
大数据导论
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.1 数据分析概念和分类
数据分析概念和分类
数据分析是指收集、处理数据并获 取数据隐含信息的过程。大数据具 有数据量大、数据结构复杂、数据 产生速度快、数据价值密度低等特 点,这些特点增加了对大数据进行 有效分析的难度,大数据分析(Big Data Analytics, BDA)成为当前探索 大数据发展的核心内容。 数据分析主要作用包括: ● 推测或解释数据并确定如何使用 数据; ● 检查数据是否合法; ● 给决策制定合理建议; ● 诊断或推断错误原因; ● 预测未来将要发生的事情。
机器学习算法从数据中自动分析获得规律,并利用规律对未
机器学习
知数据进行预测。高性能的以机器学习算法为核心的数据分 析,为实际业务提供服务和指导,进而实现数据的最终变现。
可视化分析与信息绘图学和信息可视化相关。数据可视
可视化 分析
化的目标是以图形方式清晰有效地展示信息,从而便于 解释数据之间的特征和属性情况。
第五章 大数据分析
数据分析的类型
根据数据分析深度,可将数据分 析分为三个层次:描述性分析 (descriptive analysis),预测 性(predictive analysis)分析和 规则性分析(prescriptive analysis)。 在统计学的领域当中,数据分析 可划分为描述性统计分析、探索 性数据分析及验证性数据分析三 种类型。 在人类探索自然的过程中,通常 将数据分析方法分为定性数据分 析和定量数据分析两大类。 按照数据分析的实时性,一般将 数据分析分为实时数据分析和离 线数据分析。
Pentaho BI
5.3 数据挖掘
第五章 大数据分析
数据挖掘常用算法
大数据挖掘常用的算法有分类、聚类、回归分析、关联规 则、特征分析、Web页挖掘、神经网络等智能算法。
5.3 数据挖掘
第五章 大数据分析
分类
分类就是通过学习得 到一个目标函数,根据 目标数据的不同特点按 照分类模式将其划分为 不同的类别,其作用是 通过分类模型,将目标 数据映射到某个特定的 类别。
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.2数据分析方法
第五章 大数据分析
数据分析方 数据分析是指数据收集、处理并获取数据信息的过程。通过数据分析,人们可以从杂乱 法概述 无章的数据当中获取有用的信息,从而找出研究对象的内在规律。
陈述问题
数据收集
进行预处理
挖掘数据
解释模型得出结论
5.3 数据挖掘
第五章 大数据分析
大数据挖掘
数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定 类型的模式和趋势,最终形成创建模型。
分类
一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或 分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。
5.3 数据挖掘
人工神经网络
人工神经网络是一种模拟大 脑神经突触联接结构来进行 信息处理的数学模型,具有 强大的自主学习能力和联想 存储功能并具有高度容错性 ,非常适合处理非线性数据 以及具有模糊性、不完整性 、冗余性特征的数据。
第五章 大数据分析
5.3 数据挖掘
第五章 大数据分析
大数据挖掘工具
第五章 大数据分析
Storm
Storm是一个开源的、分布式的 具有高容错性的实时计算系统。 Storm能够十分可靠地处理庞大 的数据流,能够用来处理 Hadoop的批量数据。Storm应用 领域广泛,包括:在线机器学习、 实时分析、分布式RPC(远过程 调用)、持续计算、ETL等等。 Storm的处理速度非常迅速,每 个节点每秒可以处理上百万个数 据元组,Storm支持多种语言编 程,具有容错性高、可扩展、易 于设置和操作的特点。
问题。
关联分析最主要的目的就是找出
隐藏在数据之间的相互关系和关
联性,即可以根据一个数据项的
出现推导出其他相关数据项的出
现。 关联分析
5.3 数据挖掘
第五章 大数据分析
Web网页挖掘涉及Web技术、计 算机语言、信息学等多个领域, 是一个综合性过程。
Web网页挖掘
特征分析是指从数据库中的一组数 据中提取出关于这些数据的特征式 ,这些特征式即为此数据集的总体 特征。 特征分析
2
数据整合及表示
3
数据模型的建立和结果分析
4
结果阐释
5
第五章 大数据分析
5.2数据分析方法
数据分析活动步骤
(1)识别目标需求
首先必须明确数据分析的目标需求,从而 为数据的收集和分析提供清晰的方向,该 步骤是数据分析有效性的首要条件。
(3)数据预处理
对数据进行必要的预处理,常用的 数据预处理方法包括:数据集成、 数据清洗、数据去冗余。
在完成对数据的处理之后,最重要的就是根据既定目标需求对处理结果进行分
分析数据 析。目前,主要依靠四项技术:统计分析、数据挖掘、机器学习和可视化分析。
5.2数据分析方法
第五章 大数据分析
大数据分析方法的三种体系
面向数 据视角
面向数据视角的大数据分析方法主要是以大数据分析处理的对象 “数据”为依据,从数据本身的类型、数据量、数据处理方式以 及数据能够解决的具体问题等方面对大数据分析方法进行分类。
大数据应用人才培养系列教材
第五章 大数据分析
5.1 数据分析概念和分类 5.2 数据分析方法 5.3 数据挖掘 5.4 上机与项目实训 习题
5.3 数据挖掘
第五章 大数据分析
数据挖掘基本概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其 中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据 源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理 解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
5.2数据分析方法
第五章 大数据分析
分析数据
统计分析基于统计理论,属于应用数学的一个分支。在 统计理论中,随机性和不确定性由概率理论建模。统计 统计分析 分析技术可以分为描述性统计和推断性统计。
数据挖掘可以认为是发现大数据集中数据模式的一种计算过 程。许多数据挖掘算法已经在机器学习、人工智能、模式识 数据挖掘 别、统计和数据库领域得到了应用。
聚类
聚类分析是把一组数 据按照差异性和相似性 分为几个类别,使得属 于同一类的数据之间相 似性尽可能大,不同类 之间的相似性尽可能小 ,跨类的数据关联性尽 可能低。
5.3 数据挖掘
第五章 大数据分析
回归分析
回归分析是确定两种或两种以上变
量相互之间依赖性关系的一种统计
分析方法,用以分析数据的内在规
律,常用于数值预报、系统控制等
Hadoop是一种能够对大数据进行并行分布式处理的计算框架, 以一种可靠、可伸缩、高效的方式对海量数据进行处理。
人工神经网络是一种模拟大
脑神经突触联接结构来进行
信息处理的数学模型,具有
强大的自主学习能力和联想
存储功能并具有高度容错性
,非常适合处理非线性数据
以及具有模糊性、不完整性
Hadoop实现了一个分、布冗式余文性件特系征统的(数H据a。doop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来 部署在低廉硬件上;而且它提供高吞吐量来访问应用程序的数据,适 合那些有着超大数据集(large data set)的应用程序。
RapidMiner是德国多特蒙德工业大 学于2007年推出的世界领先的数据 挖掘工具,能够完成的数据挖掘任务
涉及范围广泛,并且能够简化数据挖
掘过程的设计和评价R。apidMine
r
5.3 数据挖掘
第五章 大数据分析
Pentaho BI
Pentaho BI是一个以流程为核心的,面向 解决方案(Solution)而非工具组件的框 架,其目的在于将一系列企业级BI产品、 API、开源软件等组件加以集成,方便商 务智能应用的开发。Pentaho BI包括多个 工具软件和一个web server平台,支持分 析、报表、图表、数据挖掘和数据集成等 功能,允许商业分析人员或研发人员分析 模型,创建报表,商业规则和BI流程。
朴素贝叶斯算法 支持向量机SVM算法 AdaBoost算法
C4.5算法
CART算法
聚类
目的在于将数据集内具有相似特征属性的数据聚集在一起,同一个数据群中的数据特征要尽 可能相似,不同的数据群中的数据特征要有明显的区别。
BIRCH算法
相关文档
最新文档