一个案例说清楚如何进行数据分析
数据分析方法 - 运用数据分析进行案例研究的方法

数据分析方法 - 运用数据分析进行案例研究的方法概述数据分析已经成为许多行业中不可或缺的工具,它可以帮助决策者从大量的数据中获取洞察力和信息,以做出更明智的决策。
在本文中,我们将探讨运用数据分析进行案例研究的方法。
1. 确定研究目标在进行案例研究之前,首先需要明确研究目标。
这有助于我们确定所要收集和分析的数据类型,并确保整个研究过程有条不紊。
2. 收集和清洗数据收集数据是案例研究中至关重要的一步。
可以从多个来源收集各种类型的数据,例如调查问卷、观察记录、数据库等。
收集到的原始数据可能存在缺失值、异常值或错误值,因此需要对其进行清洗和预处理,以确保后续分析的准确性和可靠性。
3. 数据探索与可视化在开始正式分析之前,对数据进行探索性分析是一个必不可少的步骤。
通过计算统计指标、创建图表和绘制图形等方式可以帮助我们了解数据的特征和分布。
数据可视化技术是一种有效的方式,可以帮助我们更好地理解数据,并揭示其中的模式和关联。
4. 提取特征与建立模型根据研究目标,我们可以选择适当的特征并建立相应的数学或统计模型。
常用的分析方法包括回归分析、聚类分析、决策树、支持向量机等。
通过对数据进行模型训练和验证,我们可以得到对研究问题有意义的结论。
5. 结果解释与应用在获得研究结果后,需要对结果进行解释和解读。
这有助于我们理解模型中涉及的变量之间的关系,并评估其对实际问题的影响程度。
最后,将分析结果与实际情境相结合,形成具体决策或行动方案。
6. 案例研究应用举例在本文中列举了几个使用数据分析进行案例研究的实际应用场景: - 市场营销决策 - 利用大数据分析客户行为以提高市场营销活动效果; - 金融风险管理 - 使用数据模型检测潜在风险并制定相应策略; - 健康医疗 - 利用数据分析优化医院资源分配和病人诊断过程。
总结通过运用数据分析进行案例研究的方法,我们可以从大量的数据中提取有意义的信息,为决策提供准确可靠的依据。
在实践中,灵活运用各种统计和机器学习技术,并结合领域知识与专业判断,将会进一步发挥数据分析的价值。
数据分析案例2篇

数据分析案例2篇数据分析案例1:某电商平台用户购物行为分析项目背景某电商平台想要了解其用户的购物行为,以便更好地满足用户需求和提升用户满意度。
我们得到了该平台2019年1月至2020年12月的订单数据,并希望从这些数据中挖掘出有价值的信息。
数据分析过程与结果1.订单情况分析:我们先看一下订单数量和销售额随时间的变化趋势。
通过绘制折线图,我们可以看到,在2020年初出现了一定程度的增长,在3月份达到峰值,之后出现了下降趋势。
预计这是因为疫情致使消费者居家购物需求增加。
2.商品情况分析:我们还想了解哪些商品受到用户青睐,以及消费者的购买偏好。
通过筛选销售额前十的商品,我们发现主要是洗护用品、食品和家居装饰品等生活必需品,这是符合预期的。
此外,我们还分析了商品的类别和价格分布,了解到用户偏爱购买价格在100-500元之间的商品。
3.用户行为情况分析:我们也关注了用户的购物行为,如用户的购物频率、购物金额等。
通过统计用户的购物次数和购物金额,我们发现20%的用户产生了80%的消费额,这也印证了老生常谈的“二八定律”。
我们还发现一些用户购买了大量的商品,可能是商家为了促销而采取的打包销售策略的结果。
4.流失用户情况分析:最后,我们还关注了流失用户的情况。
通过对比每月的下单用户数和活跃用户数,我们发现有一部分用户只下过一次单就不再买了。
对于这部分用户,我们需要深入了解他们的流失原因,以便采取有针对性的营销措施。
结论通过以上的数据分析,我们得到了以下结论:(1)订单数量和销售额在2020年3月份达到峰值,之后出现下降趋势。
(2)销售额前十的商品主要是生活必需品,用户偏爱购买价格在100-500元之间的商品。
(3)20%的用户产生了80%的消费额,一些用户购买了大量的商品。
(4)从下单用户数和活跃用户数的对比中,我们发现一部分用户只下过一次单就不再购买了,需要深入调查原因。
数据分析案例2:某公司产品销售情况分析项目背景某公司拥有一系列产品,我们想要了解每种产品的销售情况,以便更好地进行销售策略的制定。
数据分析案例

数据分析案例数据分析是指通过收集、组织、分析和可视化数据的过程,从而得出结论的过程。
数据分析的结果可以用来决定组织的决策和行动。
本文将介绍一个典型的数据分析案例,以便让读者更好地了解数据分析的实践。
这个案例涉及一家名为ABC公司的某个项目,这个项目旨在优化其对客户的服务。
ABC公司的管理层发现,它的客户服务部门的效率较低,客户投诉较多,消费者满意度不高,于是决定进行一次数据分析,以找出客户服务部门存在的问题,并最终改善其服务。
首先,ABC公司搜集有关客户服务部门的所有数据,包括客户服务响应时间、客户投诉率、客户满意度水平等。
在数据收集完成后,ABC公司将数据分类并组织起来,以便更好地利用数据。
比如,将所有关于客户服务响应时间的数据收集在一起,将所有关于客户投诉率的数据收集在一起,以此类推。
组织后的数据将用于进行分析,ABC公司利用几种统计分析方法,包括描述性统计、分位数图、聚类分析等,来挖掘结构性数据信息,分析客户服务部门的运行情况。
这些分析结果可以用来指导ABC公司修正客户服务政策。
比如,分析结果可能显示,客户服务部门的响应时间太长,导致客户不满意;或者,客户投诉率过高,表明服务不能满足客户的要求等。
最后,ABC公司利用可视化技术,将分析结果提供给管理层,以便使他们能够更清楚地理解数据。
比如,管理层可以看到投诉率和满意度水平的变化,以及客户服务响应时间的趋势。
他们可以根据可视化结果,做出更加明智和长远的决策,以改善客户服务。
通过以上案例可以看出,数据分析是一个系统性的过程,可以帮助管理层有效地分析出有用的信息,以指导决策和行动。
这项实践可以帮助公司合理分配资源,提升服务质量,提高客户满意度,并取得最佳结果。
本文介绍的是一个典型的数据分析案例,也是数据分析的典型流程:收集数据→组织数据→分析数据→可视化数据→持续优化服务。
本文的目的是让读者了解数据分析是一项系统性实践,可以帮助管理层分析数据,以便拟定对策,提升服务质量并取得最佳结果。
数据分析案例

数据分析案例
近年来,随着大数据技术的发展,数据分析技术也得到了长足发展,广泛应用在商业、金融和其它各行各业领域中。
下面将介绍一个基于数据分析的案例,来说明数据分析在商业决策中的重要作用。
案例背景
某餐饮公司在过去2年间发现销售量一直在下滑,属于正常现象,但是也正是因为属于正常现象,所以该公司及时采取了一些措施,利用数据分析技术来改善公司的销售状况。
数据分析过程
首先,该公司建立了一个数据库,收集了过去两年间的餐厅销售情况,包括客户的菜品偏好、价格水平及销售量等,在此基础上,使用SPSS等数据分析工具,进行数据挖掘,以便得到客户的消费特征,比如客户偏爱什么菜、客户对什么价格比较敏感等等。
基于对客户特征的分析,公司便可以根据客户需求,制定出合理的定价策略,同时还可以根据客户需求,调整菜品种类,使公司更好地满足客户的需求。
分析结果
通过数据分析,该公司得出了几点有价值的结论:
1、不同的菜品对客户的吸引力不尽相同,客户的菜品偏好不同,应根据客户需求逐渐调整菜单,以便满足客户的需求;
2、价格对于客户来说非常重要,客户对价格有很大敏感度,应
根据客户的价格需求,合理定价;
3、数据分析不仅能够分析客户的消费特征,还可以预测客户的消费趋势,从而更好地满足客户的需求和服务。
结论
数据分析在公司的决策中有着重要的作用,它能够根据数据提取出客户的消费特征,从而更好地满足客户的需求,做出正确的决定。
因此,公司在进行商业决策时,应该结合实际情况,结合数据分析技术,做出有效的决策,从而提高公司的经营效率。
大数据数据分析方法数据处理流程实战案例

大数据数据分析方法数据处理流程实战案例一、背景介绍在当今大数据时代,数据已经成为了企业决策的重要依据。
如何高效地对海量的数据进行分析,挖掘出有价值的信息,对企业的经营管理具有重要意义。
本案例以电商平台为背景,介绍了一种基于大数据数据分析方法的数据处理流程。
二、数据收集1.数据源:电商平台的交易数据,包括购买记录、用户信息等。
2.数据采集:通过网络爬虫技术,对电商平台的各类页面进行爬取,获取所需的数据。
通过API接口获取实时数据。
三、数据清洗1.数据质量检查:对采集的数据进行质量检查,包括数据类型是否正确、数据格式是否规范等。
2.缺失值处理:对于存在缺失值的数据,可以选择删除该数据或者通过插值方法填充缺失值。
3.异常值处理:对于异常值较多的数据,可以通过数据预处理方法,选择适当的异常值处理方式,如将其替换为均值、中位数等。
四、数据整合1.数据集成:将不同数据源的数据整合成一个数据集,以方便后续分析。
可以使用ETL工具、数据集成软件等进行数据整合。
2.数据转换:对于不同数据源的数据格式不同的情况,可以使用数据转换方法,将数据转换成相同的格式,方便进一步的分析。
五、数据分析1.探索性数据分析:对数据集进行描述性统计分析,包括计算各个维度的均值、方差等,探索数据的整体分布特征、异常情况等。
2.关联规则挖掘:对交易数据进行频繁项集挖掘和关联规则挖掘,挖掘出不同商品之间的关联关系,为商品推荐、交叉销售等提供支持。
3.用户画像分析:通过对用户信息数据进行分析,挖掘用户的购买偏好、用户特征等,为个性化推荐、精准营销等提供依据。
六、数据可视化在数据分析阶段得到的结果,可以使用数据可视化方法将其呈现出来,以便更好地理解和传达分析结果。
可以使用数据可视化工具,如Tableau、PowerBI等,绘制直观、易理解的图表、图形等。
七、应用根据分析结果,结合业务需求,对数据分析结果进行应用。
可以为电商平台提供商品推荐、个性化营销、销售策略优化等方面的支持,进一步提高企业的竞争力。
数据分析方法与案例

数据分析方法与案例近年来,数据分析已经成为各行各业中不可或缺的一部分。
随着技术的发展,大量的数据被积累起来,如何利用这些数据来做出明智的决策成为了企业和组织面临的重要挑战。
而数据分析方法的运用正是为了解决这个问题。
本文将介绍数据分析的一些基本方法,并通过实际案例来展示这些方法的应用。
数据分析的基本方法数据分析的目的是从海量数据中提取有用的信息,并帮助人们做出合理的决策。
为了达到这个目标,我们需要使用一些数据分析的基本方法。
1. 描述性统计描叙性统计是最常用的数据分析方法之一。
它主要是通过对数据的整理、分类和总结,来基于统计数据描绘数据的分布、趋势和基本特征。
常用的统计指标包括均值、中位数、众数、方差和标准差等。
2. 数据可视化数据可视化是通过图表、图形和其他可视化工具来展示数据的方法。
它使得数据更加直观和易于理解。
常见的数据可视化图表包括柱状图、折线图、饼图和散点图等。
3. 数据挖掘数据挖掘是从大量数据中发现隐藏模式、规律和关联性的过程。
它使用统计学和机器学习等技术来分析数据,以发现对于决策有意义的信息。
数据挖掘常用的技术包括聚类分析、关联规则挖掘和分类分析等。
4. 假设检验假设检验是用来验证关于样本总体的推断的方法。
通过设定一个零假设和一个备择假设,然后收集样本数据,并基于这些数据来判断是否需要拒绝零假设。
常见的假设检验方法包括T检验、方差分析和卡方检验等。
5. 时间序列分析时间序列分析是一种用来研究时间序列数据的方法。
它主要用于分析时间序列数据的趋势、周期性和季节性等特征。
常见的时间序列分析方法包括平滑法、ARIMA模型和回归分析等。
6. 因子分析因子分析是一种用来分析多个指标之间的关系的方法。
它通过将一系列相关的指标综合起来,以找到潜在的隐藏因子,并进一步研究这些隐藏因子与原始指标之间的关系。
因子分析常用的方法包括主成分分析和因子旋转等。
7. 决策树分析决策树分析是一种用来建立决策模型的方法。
数据分析的案例分析

数据分析的案例分析数据分析是一种通过收集、处理和解释数据来提取信息和得出结论的过程。
在当今的信息时代,数据分析在各个领域都起着至关重要的作用。
本文将通过分析一个实际的案例来展示数据分析的应用和效果。
案例背景介绍:我们将以一家电子商务公司为例,该公司销售各种产品,并通过互联网进行销售。
该公司拥有大量的销售数据,包括销售额、销售数量、地理位置、渠道来源等。
我们将利用这些数据进行分析,以帮助公司制定合适的销售策略和决策。
数据采集和准备:为了进行数据分析,首先需要采集和准备数据。
公司使用的销售系统能够自动生成销售数据的报表,我们可以从中提取所需的数据进行分析。
数据准备包括数据清洗、去重、处理缺失值等步骤,以确保数据的准确性和完整性。
数据分析方法和结果:1. 销售趋势分析通过对销售数据进行时间序列分析,我们可以观察到销售额和销售数量的趋势变化。
这有助于我们了解销售业绩的整体情况以及季节性销售波动趋势。
我们可以利用这些信息调整产品上市时间和促销策略,以最大化销售收益。
2. 地理位置分析通过将销售数据与地理信息进行关联,我们可以确定销售热点区域和冷门区域。
对于销售热点区域,我们可以加大宣传力度,增加库存以满足需求;对于冷门区域,我们可以调整销售策略,开拓新的市场。
此外,还可以通过对不同地区的消费者需求进行分析,调整产品组合和定价策略。
3. 用户行为分析通过分析用户购买行为和偏好,我们可以了解用户的需求和兴趣。
例如,我们可以通过购买记录和浏览历史来判断用户对特定产品的喜好以及他们的购买周期。
这有助于我们提供个性化的推荐和定制化的促销活动,提高用户的购买率和忠诚度。
4. 渠道分析通过分析不同销售渠道的销售数据,我们可以评估不同渠道的效果和贡献度。
例如,我们可以比较线上销售和线下销售的比例和趋势,判断是否需要调整渠道资源的投入。
此外,还可以通过与合作伙伴进行数据共享,共同探讨如何优化渠道合作,实现互利共赢。
结论和建议:通过对上述案例的数据分析,我们可以得出以下结论和建议:1. 销售额和销售数量存在明显的季节性波动,公司应根据季节性需求合理安排产品上市时间和促销策略。
数据分析的成功案例解析

数据分析的成功案例解析在当今信息爆炸的时代,数据已经成为企业决策的重要依据。
数据分析作为一种强大的工具,可以帮助企业发现隐藏在海量数据中的商机。
本文将通过分析几个成功的数据分析案例,探讨数据分析在不同领域的应用,以及其背后的奥秘。
案例一:电商平台的推荐系统电商平台的推荐系统是一个典型的数据分析应用案例。
通过分析用户的购买历史、浏览记录、点击行为等数据,推荐系统可以根据用户的个性化需求,向其推荐最感兴趣的商品。
这不仅提高了用户的购物体验,也增加了平台的销售额。
推荐系统背后的核心技术是协同过滤算法。
该算法通过分析用户行为数据,找出与目标用户兴趣相似的其他用户,然后根据这些用户的购买行为,向目标用户推荐商品。
这个过程涉及到大量的数据处理和计算,需要高效的算法和强大的计算能力。
同时,为了保护用户隐私,推荐系统还需要建立合理的数据安全和隐私保护机制。
案例二:医疗健康领域的数据分析在医疗健康领域,数据分析的应用也非常广泛。
以医疗影像为例,通过对大量的医学影像数据进行分析,可以帮助医生准确诊断疾病。
例如,深度学习算法可以自动识别影像中的异常区域,并给出相应的诊断结果。
这大大提高了医生的工作效率,减少了误诊率。
除了医学影像,数据分析在疾病预测、药物研发等方面也发挥着重要作用。
通过分析大量的病例数据,可以发现潜在的疾病风险因素,提前预测疾病的发生。
同时,数据分析还可以帮助研发新药,加快药物研发的速度和降低成本。
案例三:金融行业的风控分析在金融行业,风控分析是一项至关重要的工作。
通过对客户的信用记录、借贷行为、资产负债情况等数据进行分析,可以评估客户的信用风险,制定合理的贷款政策。
同时,通过对市场行情、经济指标等数据进行分析,可以预测金融市场的走势,为投资者提供决策参考。
风控分析背后的关键是建立合理的模型和算法。
例如,通过建立信用评分模型,可以根据客户的个人信息和信用记录,计算出客户的信用分数,从而评估其信用风险。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例研究:全球创新网络和分析(GINA)EMC 全球创新网络和分析(GINA)团队由一群在EMC 全球各地卓越中心(COE)工作的高级技术专家构成。
这个团队的宗旨是吸引全球卓越中心(COE)员工来从事创新、研究和大学的合作伙伴关系。
在2012 年,新任职的团队总监想加强这些活动,并建立一个机制来追踪和分析相关信息。
此外,GINA 团队想要创建更加健壮的机制来记录他们与EMC 内部、学术界或者其他组织机构的思想领袖的非正式对话,用来在日后发掘洞见GINA 团队想要提供一种在全球范围内分享想法,以及在地理上相互远离的GINA 成员之间分享知识的手段。
它们计划创建一个包含结构化和非结构化数据的存储库,用于实现下面三个主要目标。
●存储正式和非正式的数据。
●追踪全球技术专家的研究。
●挖掘数据模式和洞察力,以提高团队的运营和战略。
GINA 的案例研究展示了一个团队如何应用数据分析生命周期在EMC 内分析创新数据。
创新通常难以评估,该团队想要使用高级分析方法在公司内部识别关键创新者。
第1 阶段:发现在GINA 项目的发现阶段,团队开始确定数据源。
虽然GINA 由一群掌握许多不同技能的技术专家组成,他们对想要探索的领域有一些相关数据和想法,但缺少一个正式的团队来执行这些分析。
在咨询了包括巴布森学院(Babson College)的知名分析专家Tom Davenport、麻省理工学院集体智慧专家兼协同创新网络(CoIN,Collaborative Innovation Networks)创始人PeterGloor 等专家后,团队决定在EMC 内部寻找志愿者来众包工作。
团队中的各种角色如下所示。
●业务人员、项目发起人、项目经理:来自于首席技术官办公室的副总裁。
●商业智能分析师:来自于IT 部门的代表。
●数据工程师和数据库管理员(DBA)):来自于IT 部门的代表。
●数据科学家:EMC 杰出工程师,他还开发了GINA 案例研究中的社交图谱。
项目发起人想要利用社交媒体和博客[26]来加速全球创新和研究数据的收集,并激励世界范围内的数据科学家“志愿者”团队。
鉴于项目发起人缺少一个正式的团队,他需要想办法找到既有能力有愿意花时间来解决问题的人。
数据科学家们往往热衷于数据,项目发起人依靠这些人才的激情富有创新地完成了工作挑战。
该项目的数据主要分为两大类。
第一类是近 5 年EMC 内部创新竞赛,被称为创新线路图(以前称为创新展示),提交的创新想法。
创新线路图是一个正式的、有机的创新过程,来自世界各地的员工提交创新想法,然后被审查和评判。
最好的想法被选择出来进行孵化。
因此,创新线路图的数据是结构化数据和非结构化数据的混合,结构化数据包括创新想法的数量、提交日期和提交者,非结构化数据包括该创新想法的文本描述。
该项目的数据主要分为两大类。
第一类是近 5 年EMC 内部创新竞赛,被称为创新线路图(以前称为创新展示),提交的创新想法。
创新线路图是一个正式的、有机的创新过程,来自世界各地的员工提交创新想法,然后被审查和评判。
最好的想法被选择出来进行孵化。
因此,创新线路图的数据是结构化数据和非结构化数据的混合,结构化数据包括创新想法的数量、提交日期和提交者,非结构化数据包括该创新想法的文本描述。
第二类数据包括来自世界各地创新和研究活动的备忘录和笔记。
这些数据也包括结构化数据和非结构化数据。
结构化数据包括日期、名称、地理位置等属性。
非结构化数据包括“谁、何事、何时、何地”等信息,用来表示公司内知识的增长和转移。
这种类型的信息通常存在于业务部门,对研究团队几乎不可见。
GINA 团队创建的10 大初始假设(IH)如下所示。
●:在不同地理区域的创新活动反映了企业的战略方向。
●:当全球知识转移作为想法交付过程的一部分发生时,交付想法所花的时间将减少。
●:参与全球知识转移的创新者能更快地交付想法。
●:对提交的创新想法可以进行分析和评估,确定资助的可能性。
●:某一特定主题的知识发现和增长可以跨区域进行评估和对比。
●:知识转移活动可以确定在不同地区的特定研究的边界人员。
●:企业战略与地理区域相对应。
●:频繁的知识扩张和转移活动缩短了从想法到企业产出所花费的时间●:谱系图可以揭示什么时候知识扩展和转移(还)没有导致企业产出。
●:新兴研究课题可以按照特定的思想者、创新者、边界人员和资产进行分类。
●GINA 的初始假设可以被划分为2 大类。
●描述性分析,对当前正在发生的能进一步激发创造力、合作和资产生成的事件进行描述。
●预测性分析,建议管理层未来投资的方向和领域第2 阶段:数据准备团队与IT 部门合作建立了一个新的分析沙箱用于存储和实验数据。
在数据探索期间,数据科学家和数据工程师开始注意到某些数据需要治理和规范化。
此外,团队意识到某些缺失的数据集对于检验一些分析假设非常关键。
当团队探索数据时,他们很快就意识到,如果数据的质量不够好或者没有足够的高质量数据,就无法执行生命周期过程中的后续步骤。
因此,确定项目需要什么级别的数据质量和清洁度非常重要。
在GINA 案例中,团队发现许多研究者和大学人员的名字被拼错,或者在数据存储中的首尾有空格。
这些看似数据中的小问题都必须在本阶段解决,以便在随后阶段更好地分析和聚合数据。
第3 阶段:模型规划在GINA 项目中,对于大部分数据集来说,似乎可以使用社交网络分析技术来研究EMC 的创新者网络。
在其他情况下,由于数据的缺乏很难恰当地检验假设。
针对IH9,团队决定发起一个纵向研究来跟踪知识产权产出随时间的变化。
这种数据收集将使团队可以检验以下两种初始假设。
●:频繁的知识扩张和转移活动缩短了从想法到企业产出所花费的时间。
●:谱系图可以揭示什么时候知识扩展和转移(还)没有导致企业产出。
●对于提出的纵向研究,团队需要建立研究的目标标准。
具体来说,团队需要确定遍历了整●个过程的成功创意的最终目标。
针对研究范围要考虑以下注意事项。
●确定实现目标所要经历的里程碑。
●追踪人们如何从每个里程碑出发进化创意。
●追踪失败的创意和达成了目标的创意,对比两种创意的不同历程。
●取决于数据如何收集和封装,使用不同的方法比较时间和结果。
这可能会像t 检验●(t-test)那样简单,也可能会涉及不同的分类算法。
第4 阶段:模型建立在第4 阶段,GINA 团队采用了若干种分析方法。
其中包括数据科学家使用自然语言处理(NLP)技术来处理创新线路图的创新想法的文本描述。
此外,数据科学家使用R 和RStudio 进行社交网络分析,然后使用R 的ggplot2 包创建社交图谱和创新网络的可视化。
这项工作的示例如图所示。
图中的社交图谱描述了GINA 中创新想法提交者之间的关系。
每一种颜色代表来自不同国家的创新者。
带红圈的点是中心(hub),代表一个具有较高的连通性和较高的“中间型(betweenness)”分数的创新者。
图2.11 中的聚类包含地理的多样性,这在证明地理边界人员的假设时至关重要。
该图中有一个研究科学家比图中其他人的分数高很多。
数据科学家识别出了这个人,并在分析沙箱中对其运行了分析,生成了关于他的如下信息,证明他在公司中很有影响力。
●年,他参加了ACM SIGMOD 会议,这是一个大规模数据管理和数据库方面的顶级会议。
●他拜访了EMC Documentum 内容管理团队位于法国的业务部门(现在IIG 部门的一部分)。
●在一个虚拟午餐会议上,他向3 名俄罗斯员工、1 名开罗员工、1 名爱尔兰员工、1 名印度员工、3 名美国员工和1 名以色列员工介绍了参加SIGMOD 会议的感想。
●年,他参加了在加州召开的SDM 2012 会议。
●在参加SDM 会议后,他拜访了EMC、Pivotal 和VMware 的创新者和研究员。
●随后,他在一个内部技术会议上,向数十名公司创新和研究人员介绍了他的二位研究人员这一发现表明,至少部分初级假设是正确的,即数据可以识别跨越不同地域和业务部门的创新者。
团队使用了Tableau 软件进行数据可视化和探索,使用了Pivotal GreenPlum 数据库作为主数据仓库和分析引擎。
第 5 阶段:沟通结果在第5 阶段中,团队发现了若干种方法来过滤分析结果和识别最有影响和最相关的发现。
这个项目在识别边界人员和隐藏的创新者方面是成功的。
因此,首席技术官办公室发起了纵向研究,开始收集更长时间跨度上的创新数据。
GINA 项目促进公司内外跨区域的创新和研究相关的知识分享。
GINA 也使得EMC 创造了更多的知识产权和生成了更多的研究主题,并促进了与大学的科研合作关系,以便在数据科学和大数据方面进行联合学术研究。
此外,由于有杰出工程师和数据科学家作为志愿者参与了该项目,因此该项目在预算有限的情况下顺完成。
该项目中的一个重要发现是,在爱尔兰的科克市有相当多的创新者。
EMC 在每年举办一次创新竞赛,让员工提出可以为公司带来新价值的创新理念。
回顾2011 年的相关数据,15%的入围者和15%的获奖者都来自爱尔兰。
考虑到爱尔兰科克市的COE 相对较小的规模,这些数字就异常惊人了。
进一步研究后发现,科克COE 员工接受了来自外部顾问关于创新的集中培训,这被证明是非常有效的。
因此科克的COE 想出了更多、更好的创新点子,为EMC 的创新做出了巨大的贡献。
传统的或者“八卦式”的口口相传的方法将很难识别这个创新者群体。
团队运用社交网络分析发现了在EMC 中谁做了巨大的贡献。
这些研究结果通过演示和会议在内部分享,并通过社交媒体和博客进行了推广。
第 6 阶段:实施在一个装载了创新者笔记、备忘录和演示报告的沙箱中运行分析产生了对EMC 创新文化的深刻见解。
来自该项目的关键发现包括以下这些。
●首席技术官办公室和GINA 在将来需要更多的包括营销计划在内的数据,以解读EMC全球的创新和研究活动。
●有些数据非常敏感,团队需要考虑数据的安全性和私密性,比如谁可以运行模型并看到结果。
●除了运行模型,还需要改进基本的商业智能,比如仪表盘、报告和全球研究活动查询。
●在部署模型后,需要有一套机制来持续不断地评估模型。
评估模型的好处也是这一阶段的主要目标之一,并需要定义一个过程来按需重新训练模型。
除了上述的行为和发现,团队还演示了如何在项目中通过分析发现新的见解,而这些见解在传统上是很难进行评估和量化的。
这个项目促使首席技术官办公室对大学研究项目进行资助,也发现了隐藏的、高价值的创新者。
此外,首席技术官办公室还开发了工具来帮助创新想法提交者使用新的融合了主题建模技术的推荐系统来寻找类似的想法,改进自己的想法和完善新知识产权的提案。
每个公司都想要加强创新,但却很难评估创新或确定增加创新的方法。
本项目从这样一个角度来探索这个问题,即通过评价非正式社交网络来识别创新子网络内的边界人员和有影响力的人。