数据挖掘经典案例
大数据通过数据挖掘技术应用的案例分析

大数据通过数据挖掘技术应用的案例分析随着互联网的普及,数据的规模不断增大,大数据的时代已经到来。
如何利用这些海量的数据,掌握信息,提高效率,成为当前科技领域的重要课题。
在这个领域,数据挖掘技术是至关重要的一环,它可以让我们通过大数据的洪流,深度挖掘出有价值的信息,从而为企业带来更多的商业价值。
本文将介绍几个大数据应用案例,探讨数据挖掘技术的实际应用。
案例一:天猫双十一数据分析天猫是中国最大的电商平台之一,每年的双十一成为了消费者购物的狂欢节。
在这样的一个大流量的场景中,数据挖掘技术可以发挥重要的作用。
对于天猫来说,通过对消费者的分析,掌握他们的购物偏好、需求及购买力等信息,格外重要。
针对双十一活动,天猫进行了多个方面的数据挖掘。
首先是用户画像的挖掘,即对各个消费者的行为数据进行分析,挖掘他们的购物心理,掌握购物偏好,进行更有的推荐;其次是商品消费大数据分析,通过对商品的销售数据进行分析,找出最受欢迎的商品,进行更优质的推广。
此外还可以通过大数据分析来制定精准的营销计划,调配资源,提高商品成交率。
案例二:零售巨头沃尔玛的大数据应用沃尔玛是世界上最大的零售商之一,除了传统的销售模式之外,沃尔玛还利用独特的大数据技术,通过数据的分析来优化生产、供应链等方面。
例如,对销售数据和消费者的行为数据进行分析,可以预测出某一时间段内销售额的变化,助于制定销售策略;再如对供应链数据进行分析,可以及时发现供应链中的问题,对此加以解决;最后,基于自身的数据优势,沃尔玛还着眼于提高用户体验,实现了用户画像和个性化推荐等应用。
案例三:社交网站中的数据挖掘应用社交网站中有着大量的用户数据,数据挖掘技术的应用可以为企业创造更多的价值。
例如,美国的LinkedIn就利用职业履历等信息为企业提供高质量的招聘及推荐服务;Facebook通过营销平台等应用实现了个性化的广告投放;Twitter则是针对舆情进行了大量的研究,为政府、企业和社会大众提供相关的分析报告。
数据分析师的数据挖掘案例分享

数据分析师的数据挖掘案例分享数据分析师是如今非常炙手可热的职业之一,他们利用各种工具和技术从海量数据中提取有用信息,为企业决策提供依据。
数据挖掘是数据分析师工作中的重要环节,通过挖掘并分析数据,可以发现隐藏在数据背后的规律和趋势。
本文将分享一些数据分析师在数据挖掘过程中的真实案例,以展示他们在实践中的研究能力和技术应用。
案例一:电商平台用户消费行为分析在一个电商平台上,数据分析师通过挖掘用户的消费行为,为企业制定营销策略提供指导。
他们首先收集用户的浏览、购买、评价等行为数据,并按照不同维度进行分析,比如地理位置、购买频次、购买金额等。
然后利用数据挖掘算法,发现不同用户群体的消费习惯和特征,比如喜欢买什么类型的商品、经常购买的时间段等。
最后,将这些分析结果结合到推荐系统中,为用户个性化推荐商品,提高用户购买转化率。
案例二:医疗数据分析,辅助疾病诊断在医疗领域,数据分析师运用数据挖掘技术,辅助医生进行疾病诊断。
他们利用大量病人的医疗记录、检查报告等数据,通过数据挖掘算法发现不同疾病之间的关联性和规律。
比如,通过分析某种疾病的症状、体征和其他疾病的关系,可以帮助医生更准确地判断病情。
此外,数据分析师还可以利用数据挖掘技术对医疗资源进行优化配置,提高医疗效率。
案例三:金融机构风险管理数据分析师在金融机构中的应用也非常广泛,其中风险管理是一个重要领域。
他们通过对金融市场数据进行挖掘和分析,发现不同金融产品之间的关联性和风险因素。
比如,通过分析市场数据、经济指标等,可以预测某种金融产品的价格变动趋势;通过分析客户的信用记录和消费行为,可以评估客户的信用风险;通过分析不同资产的组合情况,可以降低投资组合的风险等。
案例四:交通数据分析,改善交通拥堵在城市交通管理中,数据分析师利用数据挖掘技术可以帮助政府和交通管理部门改善交通拥堵问题。
他们通过收集各种交通数据,比如交通流量、拥堵地点和时间等,并利用数据挖掘算法,发现交通拥堵的主要原因和影响因素。
数据挖掘算法案例三篇

数据挖掘算法案例三篇篇一:数据挖掘算法经典案例国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)20XX年12月评选出了数据挖掘领域的十大经典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCART 。
不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。
(一)C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1.用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2.在树构造过程中进行剪枝;3.能够完成对连续属性的离散化处理;4.能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。
其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
(二)Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k<n。
它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。
它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
(三)Supportvectormachines支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。
它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。
支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。
在分开数据的超平面的两边建有两个互相平行的超平面。
数据挖掘的案例

数据挖掘的案例数据挖掘是指从大量的数据中发现隐藏的、有价值的信息的过程。
在当今信息爆炸的时代,数据挖掘正发挥着越来越重要的作用。
它可以帮助企业发现市场趋势、预测客户需求、改进产品设计、提高运营效率等方面。
下面我们将介绍几个关于数据挖掘的案例,来看看数据挖掘是如何应用于实际生活中的。
首先,我们来看一个关于市场营销的案例。
某电商公司通过数据挖掘发现,购买婴儿尿布的顾客在周五晚上和周六早上也会购买啤酒。
这个看似毫不相关的数据其实揭示了一个有趣的市场现象,周末是人们购物和放松的时间,而婴儿尿布和啤酒的购买行为可能与家庭聚会有关。
基于这一发现,该公司调整了促销策略,将尿布和啤酒放在一起促销,结果销量大增。
其次,我们来看一个关于客户关系管理的案例。
一家银行通过数据挖掘发现,年龄在25岁到35岁之间、收入在中等水平、有一定的存款和投资的客户更有可能申请房贷。
基于这一发现,银行可以有针对性地向这部分客户推荐房贷产品,提高营销效率,同时也为客户提供更符合其需求的金融服务。
再来一个关于医疗健康的案例。
医院通过数据挖掘发现,某种特定的症状在一定时间内出现的概率较大,这可能是某种疾病的早期信号。
基于这一发现,医院可以建立预警系统,及时发现患者的病情变化,提高治疗效果,甚至挽救生命。
最后,我们来看一个关于交通运输的案例。
某城市的交通管理部门通过数据挖掘发现,某些路段在特定时间段内容易发生拥堵,这与学校放学时间、工厂下班时间等有关。
基于这一发现,交通管理部门可以调整信号灯时间、增加临时交通警力等措施,有效缓解交通拥堵问题。
通过以上几个案例的介绍,我们可以看到数据挖掘在各个领域都有着丰富的应用场景。
它不仅可以帮助企业发现商机、提高效率,还可以为社会各个领域带来更多的便利和效益。
数据挖掘已经不再是一种新鲜的技术,而是一种成熟的工具,它正在深刻地改变着我们的生活和工作方式。
相信随着科技的不断进步,数据挖掘的应用领域将会越来越广泛,效果也会越来越显著。
数据挖掘的32个案例

数据挖掘的32个案例介绍数据挖掘是一种从大量数据中提取有用信息的过程。
它可以帮助人们发现隐藏在数据背后的模式、关联和趋势。
本文将介绍32个数据挖掘案例,涵盖了各个领域和行业。
电子商务1. 用户购买行为分析•收集用户的购买历史数据•使用关联规则挖掘用户购买的商品之间的关系•根据挖掘结果制定个性化推荐策略2. 客户流失预测•收集客户的历史数据和流失数据•使用分类算法构建客户流失预测模型•根据预测结果采取相应的措施留住潜在流失客户3. 价格优化•收集竞争对手的价格数据和销售数据•使用回归算法建立价格与销量之间的关系模型•根据模型结果制定最优价格策略健康医疗1. 疾病诊断•收集患者的症状和诊断结果数据•使用分类算法构建疾病诊断模型•根据模型结果辅助医生做出诊断决策2. 药物副作用预测•收集药物使用和副作用数据•使用关联规则挖掘药物和副作用之间的关系•根据挖掘结果预测新药物的副作用风险3. 医疗资源分配优化•收集医院资源使用和患者就诊数据•使用聚类算法将患者分为不同的就诊类型•根据聚类结果优化医疗资源的分配和调度金融1. 信用评分•收集借款人的个人信息和还款记录•使用分类算法构建信用评分模型•根据模型结果评估借款人的信用风险2. 欺诈检测•收集交易数据和欺诈行为数据•使用异常检测算法识别潜在的欺诈交易•根据检测结果采取相应的措施减少欺诈风险3. 股票价格预测•收集股票的历史价格和相关因素数据•使用时间序列分析方法预测股票价格的趋势•根据预测结果制定投资策略社交媒体1. 用户兴趣分析•收集用户的社交媒体活动数据•使用聚类算法将用户分为不同的兴趣群体•根据群体特征提供个性化的内容推荐2. 情感分析•收集用户的社交媒体评论和情感标签数据•使用文本挖掘算法分析用户对不同话题的情感倾向•根据分析结果评估产品或事件的受欢迎程度3. 虚假信息检测•收集用户发布的信息和虚假信息标签数据•使用分类算法识别潜在的虚假信息•根据检测结果采取相应的措施减少虚假信息的传播教育1. 学生成绩预测•收集学生的个人信息和历史成绩数据•使用回归算法预测学生未来的成绩•根据预测结果提供个性化的学习建议2. 学生流失预测•收集学生的学习行为和流失数据•使用分类算法构建学生流失预测模型•根据预测结果采取相应的措施留住潜在流失学生3. 教学资源优化•收集学生的学习行为和成绩数据•使用关联规则挖掘学生的学习模式和教学资源之间的关系•根据挖掘结果优化教学资源的分配和使用结论数据挖掘在各个领域都有广泛的应用。
数据挖掘典型案例

数据挖掘典型案例数据挖掘是一种通过大数据分析技术来发现模式、关联、异常和趋势的过程。
它可以帮助企业和组织从海量数据中提取有用的信息,以支持决策和业务发展。
在实际应用中,数据挖掘有许多典型案例,下面我们将介绍几个典型的数据挖掘案例。
首先,零售行业是数据挖掘的重要应用领域之一。
零售商通过数据挖掘技术可以分析顾客的购买行为,发现潜在的购买模式和趋势。
比如,通过对顾客购买历史数据的分析,零售商可以发现某些商品之间的关联性,从而进行交叉销售和精准营销。
此外,数据挖掘还可以帮助零售商预测销售额、库存需求和季节性销售变化,从而更好地管理供应链和库存。
其次,金融领域也是数据挖掘的重要应用领域之一。
银行和金融机构可以利用数据挖掘技术来识别信用卡欺诈、预测贷款违约风险、个性化推荐理财产品等。
通过对客户的交易数据、信用记录和个人信息的分析,金融机构可以建立客户信用评分模型,从而更好地管理风险和提供个性化的金融服务。
另外,医疗保健领域也是数据挖掘的重要应用领域之一。
医疗机构可以利用数据挖掘技术来分析患者的病历数据、医疗影像数据和基因组数据,从而实现个性化诊疗和精准医疗。
通过对大量的医疗数据进行分析,医疗机构可以发现潜在的疾病模式、预测疾病发生和传播趋势,从而更好地进行疾病预防和控制。
最后,互联网领域也是数据挖掘的重要应用领域之一。
互联网企业可以利用数据挖掘技术来分析用户的行为数据、社交网络数据和内容数据,从而实现个性化推荐、精准广告投放和用户画像建模。
通过对用户的行为轨迹和兴趣偏好进行分析,互联网企业可以更好地理解用户需求,提高用户粘性和商业转化率。
综上所述,数据挖掘在零售、金融、医疗和互联网等领域有着广泛的应用。
通过对大数据进行分析,数据挖掘可以帮助企业和组织发现隐藏在数据背后的规律和价值,从而实现商业智能和数据驱动的决策。
随着大数据技术的不断发展和完善,数据挖掘在未来将发挥越来越重要的作用,成为推动企业创新和发展的重要引擎。
数据挖掘应用案例

数据挖掘应用案例数据挖掘技术,可以帮助我们从海量数据中发现有用的模式,已经成为数据库研究的一个新的热点。
以下是店铺为大家整理的关于数据挖掘应用案例,给大家作为参考,欢迎阅读!数据挖掘应用案例篇1蒙特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。
在20世纪90年代中期,行业竞争的加剧导致该银行需要通过交叉销售来锁定1800万客户。
银行智能化商业高级经理JanMrazek说,这反映了银行的一个新焦点--客户(而不是商品)。
银行应该认识到客户需要什么产品以及如何推销这些产品,而不是等待人们来排队购买。
然后,银行需要开发相应商品并进行营销活动,从而满足这些需求。
在应用数据挖掘之前,银行的销售代表必须于晚上6点至9点在特定地区通过电话向客户推销产品。
但是,正如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。
因此,在晚餐时间进行电话推销的反馈率非常低。
几年前,该银行开始采用IBMDB2IntelligentMinerScoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。
这些评价可用于确定客户购买某一具体产品的可能性。
该系统能够通过浏览器窗口进行观察,使得管理人员不必分析基础数据,因此非常适合于非统计人员。
“我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。
现在,当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。
“蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进行决策。
数据挖掘应用案例篇2就算没去过纽约,也应该都听说过拥有百年历史的纽约地铁,又脏又臭又阴暗,但是纽约客以及自世界各地来的旅客又都离不开地铁,每天550 万人搭乘,想必每一座地铁、每一层阶梯、每一列车厢,到处沾满人类陈年积淀的汗渍与污垢。
数据挖掘技术应用案例解析

数据挖掘技术应用案例解析在数字化时代,数据挖掘技术已成为企业决策、市场分析、风险管理等领域的重要工具。
通过对大量数据的收集、处理和分析,数据挖掘技术能够揭示出隐藏在数据背后的规律,为企业的战略规划和运营管理提供有力支持。
本文将通过几个典型的数据挖掘技术应用案例,来解析数据挖掘技术在实践中的具体运用和效果。
一、电商推荐系统电商推荐系统是数据挖掘技术在电子商务领域的重要应用之一。
通过分析用户的购物历史、浏览记录、搜索行为等数据,推荐系统能够预测用户的兴趣和需求,从而为用户推荐合适的商品。
例如,亚马逊的推荐系统就是基于用户的购物行为和评价数据,通过数据挖掘技术构建了一个庞大的商品推荐网络,有效提高了用户的购物体验和满意度。
二、银行信用卡欺诈检测银行信用卡欺诈是银行风险管理的重要问题之一。
数据挖掘技术可以通过对信用卡交易数据的分析,发现异常交易模式,从而及时识别并预防欺诈行为。
例如,某些银行采用了基于数据挖掘技术的欺诈检测模型,通过对交易金额、交易时间、交易地点等多个维度的分析,有效识别出了大量欺诈交易,为银行挽回了巨大的经济损失。
三、医疗诊断与预测数据挖掘技术在医疗领域也有广泛的应用。
通过对患者的病历数据、医疗影像数据等进行分析,数据挖掘技术能够帮助医生进行更准确的诊断和治疗。
同时,数据挖掘技术还可以用于预测疾病的发展趋势和患者的预后情况,为医生制定个性化的治疗方案提供参考。
四、社交网络舆情分析社交网络已成为人们获取信息、表达意见的重要平台。
数据挖掘技术可以对社交网络上的大量文本数据进行情感分析、主题提取等操作,从而揭示出公众对某些事件或话题的态度和看法。
这种舆情分析技术对于政府和企业了解公众需求、预测市场趋势具有重要意义。
五、交通拥堵预测与调度城市交通拥堵问题一直是困扰城市管理者和市民的难题。
数据挖掘技术可以通过对交通流量、道路状况、天气条件等数据的分析,预测交通拥堵的发生时间和地点,从而为交通管理部门提供决策支持。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘经典案例当前,市场竞争异常激烈,各商家企业为了能在竞争中占据优势,费劲心思。
使用过OLAP技术的企业都知道,OLAP技术能给企业带来新的生机和活力。
OLAP技术把企业大量的数据变成了客户需要的信息,把这些信息变成了价值,提高了企业的产值和效益,增强了客户自身的竞争实力。
“啤酒与尿布”的故事家喻户晓,在IT界里,几乎是数据挖掘的代名词,那么各商家企业受了多少启发,数据挖掘又给他们带来了多少价值呢?客户需求客户面对大量的信息,用OLAP进行多维分析。
如:一个网上书店,用OLAP技术可以浏览到什么时间,那个类别的客户买了多少书等信息,如果想动态的获得深层次的信息,比如:哪些书籍可以打包推荐,哪些书籍可以在销售中关联推出等等,就要用到数据挖掘技术了。
当客户在使用OLAP技术进行数据的多维分析的时候,联想到“啤酒与尿布”的故事,客户不禁会有疑问,能不能通过数据挖掘来对数据进行深层次的分析呢,能不能将数据挖掘和OLAP结合起来进行分析呢?SQL Server 2005 数据挖掘:SQL Server 2005的Data Mining是SQL Server2005分析服务(Analysis Services)中的一部分。
数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。
换言之,数据挖掘派生数据中存在的模式和趋势。
这些模式和趋势可以被收集在一起并定义为挖掘模型。
挖掘模型可以应用于特定的业务方案,例如:预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。
Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法 (SSAS),可以预测离散属性,例如,预测目标邮件活动的收件人是否会购买某个产品。
Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性,预测连续属性,例如,预测下一年的销量。
Microsoft 顺序分析和聚类分析算法预测顺序,例如,执行公司网站的点击流分析。
Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组,例如,使用市场篮分析来建议客户购买其他产品。
Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法,查找相似项的组,例如,将人口统计数据分割为组以便更好地理解属性之间的关系。
巅峰之旅之案例一:网上书店关联销售提出问题网上书店现在有了很强的市场和比较固定的大量的客户。
为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务,等方式吸引更多的读者。
是不是这样就够了呢?这里,给众多网上书店的商家们提供一种非常好的促进销售量增长,吸引读者的方法,就是关联销售分析。
这种方法就是给客户提供其他的相关书籍,也就是在客户购买了一种书籍之后,推荐给客户其他的相关的书籍。
这种措施的运用给他们带来了可观的效益。
首先必须明确的是,这里介绍的关联销售并不是,根据网上书店的销售记录进行的比例统计,也区别于简单的概率分析统计,是用的关联规则算法。
“啤酒和尿布”的故事足以证明了该算法的强大功能和产生的震撼效果。
那么,怎么来实现这样一个效果呢?解决步骤首先,我们有数据源,也就是销售记录。
这里我们做数据挖掘模型,要用到两张表,一张表是我们的会员,用会员ID号来代替;另一张表是我们那个会员买了什么书。
我们应用SQL Server 2005的Data Mining工具,建立数据挖掘模型。
具体步骤如下:第一步:定义数据源。
选取的为网上书店的销售记录数据源(最主要的是User表和Sales表)。
第二步:定义数据源视图。
在此我们要建立好数据挖掘中事例表和嵌套表,并定义两者之间的关系,定义User为事例表(Case Table),Sales为嵌套表(Nested Table)。
第三步:选取Microsoft Association Rules(关联规则)算法,建立挖掘模型。
第四步、设置算法参数,部署挖掘模型。
第五步、浏览察看挖掘模型。
对于关联规则算法来说,三个查看的选项卡。
A:项集:“项集”选项卡显示被模型识别为经常发现一起出现的项集的列表。
在这里指的是经过关联规则算法处理后,发现关联在一起的书籍的集合。
B:规则:“规则”选项卡显示关联算法发现的规则。
“规则”选项卡包含一个具有以下列的网格:“概率”、“重要性”和“规则”。
概率说明出现规则结果的可能性。
重要性用于度量规则的用途。
尽管规则出现的概率可能很高,但规则自身的用途可能并不重要。
重要性列就是说明这一情况的。
例如,如果每个项集都包含属性的某个特定状态,那么,即使概率非常高,预测状态的规则也并不重要。
重要性越高,规则越重要。
C:关联网络:节点间的箭头代表项之间有关联。
箭头的方向表示按照算法发现的规则确定的项之间的关联。
效果展示1、我们可以看到在上图中,绿色的是我们选择的节点,橙色的是可以预测所选节点的节点,也就是说如果消费者买了《月光宝盒(2VCD)》的话,那么我们可以给该消费者推荐《乱世佳人(上集,2VCD)》。
紫色的是和所选节点能够双向预测的,即买了《大圣娶亲》,推荐《乱世佳人(上集,2VCD)》;同样,买了《乱世佳人(上集,2VCD)》,推荐《大圣娶亲》。
这样我们就很容易看到经过关联算法计算出来的书籍之间的关联性。
如图3所示效果。
2、我们也可以通过写DMX语句来实现预测查询。
SELECTPredictAssociation([User].[Sales],include_statistics,10)From[User]NATURAL PREDICTION JOIN(SELECT (SELECT '月光宝盒(2VCD)' AS [Book Name]) AS [Sales]) AS t巅峰之旅之案例二:客户类别销售分析这个案例的前提是我们已经建立好了一个OLAP的多维数据库Sales,事实表为FactInternetSales,有五个维度,分别是DimCurrency,DimCustomer,DimProduct,DimTime,DimPromotion。
提出问题利用OLAP建立的多维数据库Sales,我们可以实现多角度的浏览和分析。
例如:我们可以分析2004年第一季度的M生产线产品的销售量情况,还可以实现灵活的交叉分析,等等。
但是,如果我们要分析,某个维度的多个属性的综合的销售量,例如:客户维度里有Birth Date、English Education、House Owner Flag、Number Cars Owned、Yearly Income等属性,在多维数据库里面分析的时候,我们可以把客户维度的Number Cars Owned属性放在展示区域的行上,把度量值Order Quantity放在列上,查看拥有0-4辆汽车的客户的订购所有产品的数量。
同样,我们也可以类似的查看其他属性的情况。
但是,如果我们要把客户维度的某些属性综合考虑来分类,例如:我们要把高收入、高学历、高消费的客户作为一个群体,把高收入,低学历、高消费的客户作为一个群体,等等,然后,基于这些群体来浏览分析,销售情况,如何来实现呢?解决步骤用过聚类算法的大概比较清楚,聚类算法,是用来给事物分类的。
那么怎么用聚类算法的这个特性,和OLAP进行正和呢。
请看下面这个案例:第一步:建立挖掘模型。
这里需要注意的是:以前我们在建立数据挖掘模型的时候是基于关系型数据源。
A:而在这里,我们要基于多维数据库Sales,选取维度DimCustomer为数据挖掘模型的数据源。
B:按照向导,选取事例键Dim Custom er,C:在选取事例级别列对话框里面,选择一些属性和度量值,我们这里选取English Education、House Owner Flag、Number Cars Owned、Yearly Incom e、Sales Amount。
如图5所示。
D:在完成对话框里面,我们输入挖掘结构名称Custom erSturcture,输入挖掘模型名称Custom erClustering。
必须注意的是,一是一定要选择创建挖掘模型维度,输入挖掘模型维度的名称Custom erClustering;二是一定要选择使用挖掘模型维度创建多维数据集Sales_DM。
E:设置算法参数。
然后对创建的挖掘结构和挖掘模型进行处理。
此时,共享维度里面会自动添加了一个Custom erClustering维度,也就是数据挖掘维度。
第二步:处理Custom erClustering维度。
第三步:处理多维数据集Salse_DM。
处理后的多维数据集Sales_DM,就包含了数据挖掘维度Custom erClustering。
这样,我们就可以把经过聚类算法分类后的客户维度,来进行多维数据分析。
效果展示这些Cluster是我们用聚类算法建立的挖掘模型的维度成员,每个Cluster都是我们所选属性的一个综合的结果,但是代表着一个明显的特征。
我们还可以在数据挖掘模型里面,对各个Cluster进行名称的标示,如Cluster 1是高收入高消费高学历的群体,我们就可以给他命名,把所有的Cluster都命名为能代表本身特性的名称,这样,使得多为数据库的信息就更丰富了。
总结在激烈的市场竞争中,要想把海量的数据转化为信息,提高自身的信息化建设水平,增强企业的核心竞争力,BI技术是您明智的选择。
应用OLAP技术建立多维数据库,进行多维分析,并把数据挖掘算法应用于多维数据库中,会进一步增加信息量,让您掌握更多的市场先机。