数据挖掘流程模型CRISP-DM
基于CRISP-DM框架规划云舆情项目的数据挖掘方案

基于CRISP-DM框架规划云舆情项目的数据挖掘方案【摘要】舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和,随着互联网发展,云端舆情显得尤为重要;本文简要介绍应用CRISP-DM框架来规划云舆情项目的数据挖掘流程,及部分数据应用方案。
【关键字】云舆情;CRISP-DM;数据挖掘1、引言舆情广义上是指舆情因变事项发生、发展和变化过程中,民众所持有的社会态度,通过辨析探究舆情,能够捕捉民意,预测事态发展,提供决策依据;近年来,我国互联网从用户规模、技术应用、数据信息量等方面都发生巨大变化;面对海量舆情信息,各机构目前采用最多的是对关键词进行人工搜索甄别的方法,效率极低,时效性和准确性得不到保障,得不到智能的分析预判数据。
为及时掌握、分析网上舆论动态,云舆情项目充分利用互联网智能分析处理等核心技术,采集新闻、论坛、自媒体、微博、微信、群聊、短视频、抖音、快手、外媒等媒体信息,为用户提供全面的大数据舆情监测预警服务,云舆情项目采用在各种KDD 过程模型中占据领先位置的CRISP-DM框架,对互联网信息进行数据挖掘、汇集整理和分析,为决策提供依据,增强对舆情信息的有效整合。
本文从项目规划实施的视角,阐述一下基于CRISP-DM框架规划云舆情项目数据挖掘的看法,供大家相互交流。
2、过程描述(1)、商业理解(business understanding)经市场调研,目前市场上对于多平台海量舆情数据分析处理很困难,急需一套互联网舆情监控分析系统开展互联网信息的挖掘汇集整理和分析工作;云舆情系统在此背景下应运而生,系统能把握互联网上舆论信息,及时掌握、分析网上舆论动态,全面了解社情民意,为决策提供舆情信息分析服务,并及时发现和解决潜在的舆情危机。
基本原理为根据关注的关键词组或关键词组集合从各媒体平台查找出海量舆情数据,经过数据集成、规约、清理、变换、统计等处理方式,整合汇聚成高价值数据,通过分析算法形成主题跟踪、专题分析、事件分析、倾向分析、预警分析、统计报告等可视化数据链条,最终形成SaaS化云舆情商业产品。
CRISP-DM

tCitRleISP-DM参考模型的六阶段
CRISP-DM参考模型的各个阶段
1 商业理解
2 数据理解
6 发布
数据
5 评估
3 数据准备
4 建模
• 外层循环表示数据挖掘本身的循环特征。 • 内层循环是数据挖掘项目的常规阶段。
1
商业理解
CRISP-DM参考模型各阶段的主要任务
从商业角度理解项目的目标和要求,把理解转化为数据挖掘的定义和实现 目标的初步计划。
彻底地评估模型和检查建立模型的各个步骤,确保它真正达到了商业目标。
6
发布
发布过程可以是报告的形式,也可以复杂到在企业中执行一个可重复的数 据挖掘过程。多数情况下,由客户来实施发布,而非数据分析师。
• 每个阶段的顺序不是固定不变
tCitRleISP-DM的实施过程需要不同角色团队协同完成
角色在各阶段的任务
商业理解
数据理解
数据准备
建模
评估
发布
确定商业目标
商业背景
评估形势
资源清单
确定数据 挖掘目标
制定项目计划
任务
确定数据 挖掘目标
项目计划
商业目标
商业成功准则
要求、假定 和限制
风险和偶然性
专业术语
成本和收益
数据挖掘 成功标准
工具方法的 初始评估
需要通过了解业务需求和相关业务数据来定 义项目的目标。
一般任务的分解
Tom 方 Khabaza 法
论
……
CRISP-DM数据挖掘方法论采用层次过程模型描述
阶段 一般任务 具体任务 过程实例
CRISP-DM具备广泛的适用性和实用性
不限技术工具
关注商业目标
用CRISP—DM模型来规范企业数据中心建设

根据 企业 信息 化 建 设 的发 展 规 律 , 大 规模 在
国 ) O A V reene nBn rpB V( 和 HR ezkr gne akGe . 荷 i
的管理信息系统建设完成 以后 , 这些系统的使用 已经产 生 了大量 的业 务 数 据 , 着 数 据 的不 断丰 随 富, 数据 应用 和信息 资源开发 的需求 也就 应运
而生 。
兰) 这 个 组 织 建 立 了数 据 挖 掘 的 过 程 模 型 ,
C IP D ( rs- d s y t d r Poes aa R S — M C osI u t Sa ad r s- t n r n c D
Mnn , iig详见 图一 ) 。与 以往 仅 仅局 限在 技术 层 面 上 的数 据 挖 掘 方 法 论 不 同 , RS . M 把 数 据 挖 C IPD 掘看作 是 一个 商业 过 程 , 一 过 程 将 其 具 体 的 商 这 业 目标 映 射 为 数 据 挖 掘 目标 。最 近 一 次 调 查 显 示 ,0 以上 的数 据 挖 掘工 具采 用 的都是 C IP 5% RS . D 的数 据 挖 掘 流 程 , 已经 成 为 事 实 上 的行 业 M 它 标准。 ] [
件供 货商 和用 户组 织成 立 了行业 协 会 , 括 N R 包 C
Ss msE gneig C pn ae 丹 麦 ) D i lr yt n ier o e hgn( e n 、 am e—
C IPD 模型 定义 了六 个 过 程 , 别 是 : R S .M 分 商
业理 解 ( uiesu d r a dn ) 数 据 理 解 ( aa B s s n es n ig 、 n t Dt
es) 分 析 ( nl e 、 估 ( ses 、 动 ( c es 、 A ay ) 评 z A ss) 行 A—
数据分析标准流程crisp

数据分析标准流程crispThe CRISP-DM (Cross-Industry Standard Process for Data Mining) is a comprehensive and well-established standard process for data mining and data analysis. It provides a structured approach to planning, executing, and evaluating data mining projects. CRISP-DM consists of six phases: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, and Deployment.CRISP-DM的六个阶段为:商业理解、数据理解、数据准备、建模、评估和部署。
这些阶段按顺序进行,每个阶段都提供了一些指导,以确保项目在逻辑上和有效方面顺利进行。
The first phase, Business Understanding, involves understanding the business objectives and requirements from a data mining perspective. It's essential to establish clear objectives and communicate with the stakeholders to ensure that the project's goals align with the business needs. This phase sets the foundation for the entire data mining process.商业理解阶段是CRISP-DM的第一个阶段,这个阶段从数据挖掘的角度了解业务目标和需求。
数据挖掘基本流程

SEMMA视角下的数据挖掘流程
通过上述两个步骤,对数据的状态和趋势有了 进一步了解;对原来要解决的问题可能会有了进 一步的明确;这时要尽可能对问题解决的要求 能进一步的量化。问题越明确,越能进一步量 化,问题就向它的解决更前进了一步。
问题明确化、数据调整、 技术选择。
SEMMA视角下的数据挖掘流程
SEMMA视角下的数据挖掘流程
模型和知识的综 合解释和评价
数据取样 数据特征探索、分析和预处理
模型的研发、 知识的发现
问题明确化、数据 调整、技术选择。
SEMMA视角下的数据挖掘流程
数据取样
当进行数据挖掘时,首先要从企业大量数据中取出 要探索问题相关的样板数据子集,而不是动用全部 企业数据。
如同在对开采出来矿石首先要进行选矿一样。通过 数据样本的精选,不仅能减少数据处理量,节省系 统资源,而且能通过数据的筛选,使得想要反映的 规律性更加凸现出来。
CRISP-DM与SEMMA的区别
CRISP-DM SEMMA
客户需要时间评估 效果,对比投放广 告时和暂停时的效 果差距。
CRISP-DM模型视角下的数据挖掘流程
客户说太忙了,两 个孩子要上幼儿园、 要考大学,没有时 间打理。
不靠推广带来客户, 客户说钱全部都买
客户最近资金链比
只是让他的客户在 宝马了,生意太好
较紧张,被人压了
网上能找到他的信 了。只是暂时不做, 笔大额贷款。
CRISP-DM模型视角下的数据挖掘流程
CRISP-DM模型视角下的数据挖掘流程
CRISP-DM模型视角下的数据挖掘流程
数据预处理
数据准备阶段涵盖了从原始粗糙数据中构建最终数 据集(将作为建模工具的分析对象)的全部工作。 数据准备工作有可能被实施多次,而且其实施顺序 并不是预先规定好的。
数据挖掘SPSSMODELER教程第三课:CRISP-DM详解

CRISP-DM模型详解
建立模型(Modeling)
选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有 些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊 要求,因此需要经常跳回到数据准备阶段。
CRISP-DM模型详解
评价(Evaluation)
已经从数据分析的角度建立了高质量显示的模型。在开始最后部署模 型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型 可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有 被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达 成。
重要文档输出
SPSS Modeler 数据挖掘项目
第三课:CRISP-DM模型详解
本节课内容提要
1、CRISP-DM模型详解 2、重要文档输出
CRISP-DM模型详解
业务理解
数据理解
实施
数据
数据准Байду номын сангаас 建立模型
评价
CRISP-DM模型详解
业务理解 (Business Understanding)
从业务理解的角度理解项目目标和需求,同时将这个知识转化为数据 挖掘问题的定义和完成目标的初步计划。
CRISP-DM模型详解
实施 (Deployment)
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识, 获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶 段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过 程。
数据挖掘九大定律

数据挖掘通用流程CRISP-DM(CRISP-DM (cross-industry standard process for data mining), 即为跨行业数据挖掘标准流程)的缔造者之一Tom Khabaza曾总结了在数据挖掘上的九大定律,如下所示。
(1)Business Goals Law:每个数据挖掘解决方案的根源都是有商业目的的。
(2)Business Knowledge Law:数据挖掘过程的每一步都需要以商业信息为中心。
(3)Data Preparation Law:数据挖掘过程前期的数据准备工作要超过整个过程的一半。
(4)NFL Law:NFL(没有免费午餐,No Free Lunch)。对于数据挖掘者来说没有免费的午餐,数据挖掘的任何一个过程都是来之不易的。
(8)Value Law:数据挖掘模式的精准和稳定并不决定数据挖掘过程的价值,换句话说技术手段再精妙,没有商业意义和合适的商业应用是没有价值的。
(9)Law of Change:所有的模式都商业决定数据挖掘。数据挖掘各类技术和算法的飞速发展不能让我们偏离以商业行为为核心的方向,只是纯粹为了追求高深的技术而忽略或损害到商业目的就本末倒置了。
(5)Watkins' Law:此定律以此命名是因为David Watkins首次提出这个概念。这个定律说的是在数据的世界里,总是有模式可循的。您找不到规律不是因为规律不存在,而是因为您还没有发现它。
(6)Insight Law:数据挖掘可以把商业领域的信息放大。
(7)Prediction Law:预测可以为我们增加信息。
CRISP-DM方法指南

数据挖掘方法论之一----------CRISP-DM方法指南2006-2-10CRISP-DM是NCR和SPSS提出的跨行业标准数据挖掘过程,从最初提出至今将近10年了,可以感觉到这是一个不错的方法论。
给出了详细的步骤,可能需要考虑的问题,非常实用。
CRISP-DM全称Cross Industry Standard Process-Data Mining。
分为六个步骤:商业理解、数据理解、数据准备、建立模型、模型评估以及结果部署。
以下分别介绍每个步骤的要完成的任务,输出及产生输出所要进行的活动。
1.商业理解(Business understanding)1.1 确定商业目标任务:确定商业目标分析人员的首要目标是从商业的角度透彻地理解客户想要实现什么。
通常客户会有多个目标和约束需要去均衡。
在工程的最初,分析人员就要去揭示那些影响最后的输出的关键因素。
假如忽略了这一步,可能导致的后果是费尽力气却是为一个错误的问题去寻找答案。
输出:背景在工程的最开始比较有关该组织商业背景的所有已知信息。
这些细节不仅有助于确定商业目标,也有助于确定工程实施中所需的资源。
活动:关于组织建立图表来识别组织各分支、部门和工程组。
图表中应给出管理者的名字和职责;确定业务过程的关键人员及其角色;确定内部提供支持者(财务支持/主要使用者/领域专家);确定是否有一个指导小组及其成员情况;确定受数据挖掘影响的业务部门(如市场、销售、财务)。
问题域确定问题域(如市场、客户关怀、业务发展等);用一般性的文字描述问题;检验项目的当前状态;Identify target groups for the project result ( 如是否需要为上层管理者生成书面报告或者仅仅是一个供终端用户使用的系统);确定用户的需要和期望。
当前的解决方法描述为了解决问题当前所采用的方法;描述当前方法的优缺点及用户的接受程度。
输出商业目标从商业的角度,描述在该数据挖掘项目中客户的主要目标。