大数据的5个误区与真相

数据分析工作常见的七种错误及规避技巧

数据分析工作常见的七种错误及规避技巧商业领域的数据科学家和侦探类似:去探索未知的事物。

不过,当他们在这个旅程中冒险的时候，他们很容易落入陷阱。

所以要明白,这些错误是如何造成的,以及如何避免。

“错误是发现的入口。

”——James Joyce (著名的爱尔兰小说家)。

这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。

说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。

数据科学家是经过大量考察后才被录用的，录用成本很高。

组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。

数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。

数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。

福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦探。

“我是福尔摩斯，我的工作就是发现别人不知道的。

”企业要想保持竞争力,它必须比大数据分析做的更多。

不去评估他们手中的数据质量，他们想要的结果,他们预计从这种数据分析中获得多少利润，这将很难正确地找出哪些数据科学项目能够盈利,哪些不能。

当发生数据科学错误时——一次是可以接受的——考虑到有一个学习曲线,但是如果这些错误发生在两次以上,这会增加企业成本。

在Python中学习数据科学，成为企业数据科学家。

避免常见的数据科学错误：1、相关关系和因果关系之间的混乱对于每个数据科学家来说，相关性和因果关系的错误会导致成本事件，最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误，导致伊利诺斯州给本州的学生发书，因为根据分析显示家里有书的学生在学校能直接考的更高分。

进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。

这改变了之前的假设和洞察：父母通常买书的家庭，能营造愉快的学习环境。

大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。

大数据时代

（2）. 你确定要鸡蛋碰石头吗?
“好吧，但是为什么我们一定需要新的工具？我们不能用原来的软件工具来分析大数据吗？”我们在讨论使用 Hadoop去排列成百上千的非结构数据输入。讨论中有位听众提问，为什么他不能简单地使用SPSS来分析大量的文本语料库。事实上，一旦你领会了#1中的内容，那么你将意识到你需要一个可以理解、存储和分析不同数据输入(图像，点击流，视频，声纹，元数据，XML，等)，并且可以并行处理他们的新的工具。这就是为什么内存中的桌面工具足以处理本地内存中的分析(SPSS，R，WEKA，等)却无法处理大量的大数据源。所以我们需要新的技术来管理这些各不相Biblioteka 的数据源，并以并行的原则管理他们。
马云说：互联网还没搞清楚的时候，移动互联就来了，移动互联还没搞清楚的时候，大数据就来了。互联网和移动互联网还好理解，面对大数据，相信许多人都一头雾水。下面我们通过几个经典案例，让大家实打实触摸一把“大数据”。你会发现它其实就在身边。
奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据，因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言，依靠直觉与经验进行决策的优势急剧下降，在政治领域，大数据的时代已经到来；各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已，无数公司和创业者都纷纷跳进了这个狂欢队伍。
2.大数据的三大误区
关于大数据的三大误区随着整个行业对大数据的兴趣越来越大，使我们接触到了一大堆关于大数据的评论，提问以及错误的理解。以下是对于大数据的三大误区：
（1）. 最重要的，是关于大数据本身的大小
大数据主要是数据的大小，因为大数据就是大的，对吗？其实，并不完全是。哈佛的定量社科学院的Gary King说。当然，如今的数据处理量要远超过去(这里是指”3Vs”的量-量，多变性及速度)，但如果人们只关注于GB、TB或PB，他们将仅仅视大数据为关于存储和科技的问题。尽管这也是绝对重要的，但大数据的更突出的几个方面通常是另外两个V：多变性(Variety)和速度(Velocity)。速度指的是数据流及非常快的数据，数据积累或进入数据仓库时的低延迟，以使人们可以更加快速地(或者甚至自动地)做出决定。数据流的确是个大问题，其多变性是3V当中最有趣的。

大数据的概念

一、大数据概念"大数据"是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

"大数据"首先是指数据体量(volumes)?大，指代大型数据集，一般在10TB?规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。

接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理。

最后一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。

百度知道—大数据概念大数据(bigdata)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据的4V特点：Volume、Velocity、Variety、Veracity。

互联网周刊—大数据概念 "大数据"的概念远不止大量的数据（TB）和处理大量数据的技术，或者所谓的"4个V"之类的简单概念，而是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。

换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力研究机构Gartner—大数据概念 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从数据的类别上看，"大数据"指的是无法使用传统流程或工具处理或分析的信息。

数据收集中需要注意哪些常见错误

数据收集中需要注意哪些常见错误在当今数字化的时代，数据收集成为了许多领域中至关重要的环节。

无论是市场调研、学术研究，还是企业的运营管理，准确、全面且有效的数据都是做出明智决策的基础。

然而，在数据收集的过程中，往往容易出现一些常见的错误，如果不加以注意，可能会导致数据质量下降，分析结果偏差，甚至得出错误的结论。

下面，我们就来探讨一下数据收集中需要注意的那些常见错误。

首先，样本偏差是一个常见且容易被忽视的问题。

当我们选择收集数据的样本时，如果不能代表总体的特征，就会产生样本偏差。

比如说，在进行一项关于消费者偏好的调查时，如果只选择在特定商场购物的人群作为样本，而忽略了其他消费场所的人群，那么得到的结果就可能无法反映整个消费者群体的真实偏好。

这是因为特定商场的消费者可能具有某些特定的特征或消费习惯，与更广泛的消费者群体存在差异。

为了避免样本偏差，我们需要采用科学合理的抽样方法，如随机抽样、分层抽样等，以确保样本能够尽可能地反映总体的情况。

其次，数据收集方法不当也会影响数据的质量。

不同的数据收集方法适用于不同的情况，如果选择错误的方法，可能会导致数据不准确或不完整。

例如，在收集关于人们日常行为的数据时，如果采用自我报告的方法，即让人们自己描述自己的行为，可能会存在记忆偏差或故意夸大、缩小某些行为的情况。

而如果采用直接观察的方法，则可能会对被观察者的行为产生影响，导致他们表现出不同于平时的行为。

因此，在选择数据收集方法时，需要充分考虑研究的目的、对象和环境，选择最适合的方法，或者结合多种方法进行数据收集，以相互验证和补充。

数据定义不清晰也是一个容易出错的地方。

如果对于要收集的数据没有明确的定义和标准，不同的收集人员可能会有不同的理解和操作，从而导致数据的不一致性。

比如，在收集关于“客户满意度”的数据时，如果没有明确规定满意度的衡量标准和具体指标，那么收集到的数据可能会五花八门，有的可能基于客户的口头评价，有的可能基于客户的购买频率，这样的数据就很难进行有效的分析和比较。

埃森哲大数据分析方法

探索数据：运用统计方法对数据进行探索，发现数据内部规律。数据转换：为了达到模型的输入数据要求，需要对数据进行转换，包括生成衍生变量、一致化、标准化等。
建立模型：综合考虑业务需求精度、数据情况、花费成本等因素，选择最合适的模型。在实践中对于一个分析目的，往往运用多个模型，然后通过后续的模型评估，进行优化、调整，以寻求最合适的模型。
注意
判别方法
判别公式
剔除范围
操作步骤
评价
拉依达准则（3σ准则）
大于μ+3σ 小于μ-3σ
求均值、标准差，进行边界检验，剔除一个异常数据，然后重复操作，逐一剔除
适合用于n>185时的样本判定
肖维勒准则（等概率准则）
大于μ + Zc(n)σ小于μ - Zc(n)σ
求均值、标准差，比对系数读取Zc(n)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除
业务理解
数据理解
数据准备
建立模型
模型评估
开始
是否明确需求
否
否
数据探索
结构分析
分布特性
特征描述
……
分类与回归
聚类分析
时序模型
关联分析
结构优化
分析结果应用
数据分析框架
图例
流程概要
方法分类
处理方法
模型检验
理解业务背景，评估分析需求
是
是否满足要求
收集数据
否
是
是
建立模型
贝叶斯
神经网络
C4Hale Waihona Puke 5决策树……指数平滑
狄克逊准则
f0 > f(n,α)，说明x(n)离群远，则判定该数据为异常数据
将数据由小到大排成顺序统计量，求极差，比对狄克逊判断表读取 f(n,α)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除

大数据应用的误区_风险与优势

学术篇大数据应用的误区、风险与优势胡小明中国信息协会北京100045摘要: 从大数据热带来的认识陷阱谈起，指出大数据应用取得成果不容易，大数据意味着大噪声，易导致虚假信息泛滥和欺骗行为发生，大数据预测解决不了不确定性问题，急忙抢占大数据技术制高点没有意义；认为大数据应用应基于经济学视角，大数据的优势是做小事情，整合业务数据比大数据更重要；最后指出，信息化建设不能跟风，大数据只是工具，政府要做好公共服务，不必去做新技术的探索者。

关键词：大数据；信息化；电子政务在大数据热一浪高过一浪之时，很需要给大数据热应用对环境的要求更苛刻，取得成效会更难。

泼一点凉水，防止政府、企业盲目跟风跌入技术导向的大数据应用的困难之一是数据资源稀缺，虽然传感陷阱。

器越来越多，互联网、移动通信、银行、物流都是大数信息化宣传言过其实已经屡见不鲜，人们宣传数据据的来源，但是能够方便利用这些资源的机构是极少库、信息共享、物联网、云计算，每次都会描绘一个无的，用户想解决的问题很多，能供用户使用的数据如凤限乐观的前景，重大成效炙手可得，然而现实往往会浇毛麟角，大多数部门找不到可用的大数据资源，更谈不上一瓢冷水，人们终于发现信息化效益不都是那么容易上利用大数据的眼光与技术。

达到的，技术不是最关键的因素，清醒的思考才是更重影响大数据应用的更关键问题是需求环境不成熟，要的。

言过其实的宣传是营销的职业病，IT企业希望造用户面对的问题是有优先级的，要先解决最重要、最急成盲目购买技术的气氛，媒体是产业广告驱动的，记者切的问题，而优先级最高的问题恰恰不是大数据能够解需要耸人听闻，专家需要展示自己的前瞻性，官员们需决的。

大数据擅长细节上的改进，只会锦上添花，不会要说明自己是内行，而泼冷水的文字被媒体极力抑制，雪中送炭，对那些管理问题成堆的机构帮不上忙，多数这种宣传信息的不对称必然导致“新概念过热”，形成企业与政府部门现在还没有锦上添花的条件。

新概念陷阱。

从华为看全面预算管理的八个误区

全面预算管理的“8 个大坑”预算以客户为源头，以项目为基础，反映业务实质。

——《华为全面预算管理政策》今天的课程就是说怎么样去正确的认识全面预算管理，避免我们预算管理过程的误区。

我准备了八个问题要跟大家一起探讨。

误区1：预算是财务部的事情，销售物流等部门只需要按照财务的要求提供数据就好先看一下华为对全面预算管理的定义：公司为实现年度内的战略诉求及经营目标，按照规定程序对经营活动、投资/筹资活动等的总体安排，是对业务计划整合、集成与货币化的表达。

全面预算主要包括经营预算、战略专项、投资/筹资预算及集团财务预算（三大报表预算、税务预算等），重大风险及关键预算假设也视为全面预算的有机组成部分。

具体包括：1. 全面预算制定与审批；2. 预算的获取与授予；3. 授权与执行管控；4. 预测与经营分析决策；5. 核算及财务绩效评价。

大家常常理解预算就一套表格、一套数据，华为这里边包括什么？第一，明确了预算不只是个财务数据，还包括业务计划；第二，不仅仅是一个数据放那不动，还有获取授权，还有预测与经营分析，还有核算与财务绩效评价，这些全部是进行全面预算管理部分。

上面这个定义是“全面预算”，那什么叫“全面预算管理”？全面预算管理：围绕公司经营目标达成和战略落地，以全面预算为依托，通过全面预算管理程序，对公司内部经营过程进行计划、协同、组织与控制的一系列活动。

这个是华为的定义，但是从我自己这么多年的理解来看，我个人是不完全认同的，它只是从预算管理部的角度来定义。

我对这个定义的补充。

第一个，定义中是讲的年度内，过去实践来看，全面预算从时间的角度应该分成长期和短期，长期就是战略财经预算，短期就是年度预算。

其实华为自己的实践中，它的预算也分的很细，有战略的、有年度的，更多的还有基于项目维度的。

第二个，我们还有产品的生命周期预算，可能未来3-5 年做这个产品跟年度也不完全匹配。

而且从我们过去的实践来看，产品和项目预算是华为做好经营管理的基本的单元。

大数据公司眼里的O2O：世界的个体被数据重新链接

大数据公司眼里的O2O：世界的个体被数据重新链接随着互联网向传统领域逐步渗透，大数据技术行业也在随之发生变化。

大数据技术公司百分点公司创始人苏萌、CEO柏林森接受媒体采访时表示，随着智能手机的普及，大数据在重新链接世界的个体，线下也成为了流量入口，线下企业终于可以像电商公司一样定位、洞察用户。

百分点公司正向集团化发展，成立O2O子公司信柏科技，专注O2O大数据，帮助传统零售业的线下数据挖掘和分析。

同时，百分点向传统领域如金融、证券、制造业等领域渗透，未来不排除在O2O硬件商家、移动互联网、智能设备厂商领域进行并购。

未来场景：每个交互节点都将产生数据“从数据源来看，之前不能得到量化的数据，随着技术手段进步都可以量化。

”柏林森说。

例如，线下消费者的数据。

过去，消费者在线下的数据无法了解和掌握。

虽然一些线下企业拥有会员卡数据，但这些数据并不是online的。

“会员卡数据是‘死’的，就像一个个盒子放在地下室，但不知道盒子里装的是什么。

如果要找数据，需要把一个个盒子打开。

”苏萌说。

随着智能手机普及，线下公司终于可以像电商公司一样，开展一系列的定位、洞察用户、数据分析，从而更好地掌握实体店铺内的动线和消费者行为轨迹，让线下也成为了流量入口。

线下数据包括用户进入停车场、进店、出门、访问APP等。

未来，用户在线下消费时的每个触点，都有可能产生数据，存在营销的机会。

在上述过程中，应用到的技术有wifi、蓝牙、定位等。

大数据存在误区苏萌说，大数据的核心内涵是基于应用提高企业的商业价值，提高效率、降低成本。

但很多公司有两个误区。

误区一是不懂得管理数据。

“很多人把数据比喻成石油。

实际上有的数据是原油，不能用，需求需要提炼加工，变成汽油、柴油等材料。

数据管理是大部分公司所欠缺的。

”苏萌说。

误区二是很多公司盲目上线大数据项目，但并没有想清楚如何应用。

苏萌介绍，数据的应用有两个方向。

一是营销，二是企业内部运营管理。

以广告投放为例，数据可以指导公司在什么地方投放广告，某一产品在哪些渠道更好销售，不同渠道、不同接触点为客户提供个性化的信息和商品推荐。