对大数据分析相关问题的思考

合集下载

对大数据的认识和理解

对大数据的认识和理解

对大数据的认识和理解大数据是指以庞大、复杂而又多样的数据集为基础,通过计算机和相关技术进行存储、管理和分析的过程。

在当今信息化社会中,大数据已经成为技术发展和经济增长的重要驱动力。

本文将对大数据的认识和理解进行探讨。

一、大数据的背景和特点在传统的数据处理中,数据的规模较小且结构简单,可以通过传统的数据管理和分析方法进行处理。

然而,随着科技的进步和互联网的普及,数据以指数级别的速度增长,而且数据的结构变得越来越复杂,传统的方法已经无法有效地应对这种挑战。

大数据的特点主要体现在以下几个方面:1. 数据量巨大:大数据的处理对象是规模庞大的数据集,这些数据包括结构化数据(如数据库记录)和非结构化数据(如文本、图像、音视频等)。

2. 多样性:大数据来源广泛,包括社交媒体数据、传感器数据、日志数据等,数据的种类和形式多样,要求具备多样的数据分析和处理技术。

3. 时效性:大数据的产生和更新速度非常快,需要实时或近实时的处理和分析。

4. 质量不一:大数据中存在着各种不完整、不准确和冗余的数据,需要进行数据清洗和质量控制。

二、大数据的应用领域大数据的应用领域非常广泛,几乎涉及到各个行业和领域。

以下将列举一些常见的应用领域:1. 商业智能和市场营销:通过对大数据的分析,企业可以了解消费者的需求和行为,提供个性化的产品和服务,优化市场营销策略。

2. 金融和保险业:大数据可以帮助金融机构进行风险评估、诈骗检测和交易分析,提高业务效率和风险控制能力。

3. 医疗健康:通过分析大数据,可以实现个体化诊疗、疾病预测和健康管理,提升医疗服务的质量和效率。

4. 城市管理和智慧城市:利用大数据分析技术,可以对城市的交通、环境、能源等进行监测和管理,优化城市运行效率和资源利用率。

5. 教育和科研:大数据可以帮助教育机构进行学生评估、教学优化和个性化教育,促进科学研究的进展。

三、大数据的挑战和未来发展虽然大数据带来了许多机遇和优势,但也面临着一些挑战:1. 数据安全和隐私保护:大数据中可能包含个人敏感信息,需要加强数据安全和隐私保护措施。

数据化思维心得体会(通用18篇)

数据化思维心得体会(通用18篇)

数据化思维心得体会(通用18篇)(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。

文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如职场文书、公文写作、党团资料、总结报告、演讲致辞、合同协议、条据书信、心得体会、教学资料、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, this store provides various types of classic sample essays for everyone, such as workplace documents, official document writing, party and youth information, summary reports, speeches, contract agreements, documentary letters, experiences, teaching materials, other sample essays, etc. If you want to learn about different sample formats and writing methods, please pay attention!数据化思维心得体会(通用18篇)通过写心得体会,我们可以不断反思自己的行为和选择,从而更加明确自己的目标和方向。

大数据应用中的问题和优化方案

大数据应用中的问题和优化方案

大数据应用中的问题和优化方案一、引言随着信息技术的发展,大数据已经成为当前社会和经济发展的主要驱动力之一。

然而,在大数据应用过程中,也会面临一些问题和挑战。

本文将探讨大数据应用中的问题,并提出相应的优化方案。

二、大数据应用中的问题1. 数据安全性:在大数据应用过程中,数据被广泛收集、存储和分析。

然而,由于涉及个人隐私和商业机密等敏感信息,数据安全性成为一个重要挑战。

黑客攻击、恶意软件以及内部人员泄露等风险时刻存在,对于大数据平台来说保证数据的安全非常重要。

2. 数据质量:大数据平台收集到的海量数据往往包含了各种噪音、错误和不完整信息。

这些低质量的数据会对分析结果产生负面影响,并降低决策的准确性。

因此,如何确保数据质量成为一个关键问题。

3. 大规模计算:由于大规模数据集需要进行复杂且高效率的计算与处理,传统计算硬件与软件系统往往表现出明显瓶颈。

大数据处理过程中的计算速度和资源管理问题需要通过优化方案来解决。

4. 数据隐私保护:随着大数据应用的深入,个人及企业数据日益暴露在公共视野之下。

对于用户隐私数据的保护成为一个亟待解决的问题,政府与企业需要制定相应法规并提供可行的技术手段来保护个人和商业机构的数据安全。

5. 决策支持能力:大数据分析旨在帮助决策者做出更明智的决策。

然而,由于数据量庞大且多样化,如何从海量数据中提取关键信息、洞察趋势,并为决策者提供实时准确的结果成为一个挑战。

三、大数据应用中的优化方案1. 数据加密和权限管理:采用强大的加密技术,确保敏感数据在传输和存储过程中得到有效保护。

同时,建立严格权限管理机制,限制不同用户对敏感信息的访问权限,以减少潜在风险。

2. 数据清洗与预处理:通过清洗、去重、纠错等操作,排除低质量的数据,并完善各项指标。

此外,可应用机器学习和数据挖掘技术,自动化地识别并修复低质量数据。

3. 分布式计算与存储:采用分布式计算与存储系统,充分利用集群架构的优势,提高大数据处理的效率。

大数据分析心得体会.doc

大数据分析心得体会.doc

大数据分析心得体会篇一:大数据心得体会大数据心得体会早在2007年,人类制造的信息量有史以来第一次在理论上超过可用存储空间总量,近几年两者的剪刀差越来越大。

2010年,全球数字规模首次达到了“Zb”(1Zb=1024Tb)级别。

2012年,淘宝网每天在线商品数超过8亿件。

2013年底,中国手机网民超过6亿户。

随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起,我们这个社会的几乎所有方面都已数字化,产生了大量新型、实时的数据。

无疑,我们已身处在大数据的海洋。

有两个重要的趋势使得目前的这个时代(大数据时代)与之前有显著的差别:其一,社会生活的广泛数字化,其产生数据的规模、复杂性及速度都已远远超过此前的任何时代;其二,人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的复杂度、速度和精准度从庞杂的数据中获得史无前例的洞察力和预见性。

大数据是技术进步的产物,而其中的关键是云技术的进步。

在云技术中,虚拟化技术乃最基本、最核心的组成部份。

计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。

在人类文明史上,人类一直执着探索我们处的世界以及人类自身,一直试图测量、计量这个世界以及人类自身,试图找到隐藏其中的深刻关联、运行规律及终极答案。

大数据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及经济可得性,使人类第一次试图从总体而非样本,从混杂性而非精确性,从相关关系而非因果关系来测量、计量我们这个世界。

人类的思维方式、行为方式及社会生活的诸多形态(当然包括商业活动)正在开始发生新的变化。

或许是一场革命性、颠覆性的变化。

从这个意义上讲,大数据不仅是一场技术运动,更是一次哲学创新。

1大数据的概述1.1大数据的概念大数据(bigdata)是指那些超过传统数据库系统处理能力的数据。

它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。

数据分析实践心得(优秀12篇)

数据分析实践心得(优秀12篇)

数据分析实践心得(优秀12篇)(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。

文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如职场文书、公文写作、党团资料、总结报告、演讲致辞、合同协议、条据书信、心得体会、教学资料、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, this store provides various types of classic sample essays for everyone, such as workplace documents, official document writing, party and youth information, summary reports, speeches, contract agreements, documentary letters, experiences, teaching materials, other sample essays, etc. If you want to learn about different sample formats and writing methods, please pay attention!数据分析实践心得(优秀12篇)6.心得体会是我们对所学内容的思考和理解,是知识积累的体现。

大数据思维引发的哲学思考

大数据思维引发的哲学思考

大数据思维引发的哲学思考大数据思维是指基于大数据技术、方法和理论进行分析和处理的思维方式。

它通过对大规模数据的收集、存储、处理和分析,揭示了以往难以触及的数据信息和规律,为决策和创新提供了全新的思路和手段。

大数据思维的出现,引发了一系列哲学思考。

首先,大数据思维引发了对真实性和客观性的思考。

以往,人们通常通过小样本的调查和实验来推断和判断事物的规律和真相。

而大数据思维的出现,使得人们能够从海量的数据中挖掘出潜藏其中的规律,揭示事物背后的真相。

这引发了人们对经验的信任和统计规律的质疑,重新思考了事实和观念之间的关系,以及自身的认知限制。

大数据思维也赋予了数据客观性的属性,使得决策和判断更加科学和准确,但也引发了对数据的滥用和隐私权的担忧。

其次,大数据思维引发了对个体和群体关系的思考。

在大数据时代,个体行为和群体行为都能被轻易捕捉和分析。

大数据思维无疑推动了社会科学的发展,使得人们对社会系统和个体行为的理解更加深入。

同时,大数据思维也引发了对个体隐私权和个人选择的关注。

个体的行为和选择被数据记录和分析,从而可能被他人和机构所利用。

这引发了对价值观、自由意志和人的自主性的思考,以及个体与群体之间的关系和权力的分配。

第三,大数据思维引发了对科技和人类进化的思考。

大数据使得人类对自然、社会和个体了解的深度和广度大大提升。

这推动了科技的发展,也加速了人类社会的演进。

然而,人们也开始思考科技对人类自身的影响和发展方向。

大数据思维加深了对科技的依赖,使得人类开始探讨自身进化和科技进步之间的关系。

这引发了人们对科技伦理、人机关系和人类未来发展的思考。

最后,大数据思维引发了对未知和探索的思考。

大数据时代,数据量呈指数级增长,但人类对于世界的认知仍然有限。

大数据思维催生了对未知的好奇和渴望,人们开始思考如何从数据中发现新的问题、新的规律以及新的可能性。

这推动了学术研究和创新的进步,也让人们对人类知识、科学方法和认识论的局限性有了更深刻的认识。

大数据分析培训心得体会范文(5篇)

大数据分析培训心得体会范文(5篇)

大数据分析培训心得体会范文(5篇)大数据分析培训心得体会范文篇1电子工艺实训是一门技术性很强的技术基础课,也是我们理工科进行工程训练,学习工艺知识,提高综合素质的重要实践环节。

从第2周到第5周每周周二下午四个小时来进行这次实训。

实训任务是制作一台万用表,刚开始时我并不清楚电子工艺实训到底要做些什么,以为像以前的金工实训那样这做做那做做。

之后得知是自我做一个万用表,而且做好的作品能够带回去。

听起来真的很搞笑,做起来就应也挺好玩的吧!就这样,我抱着极大的兴趣和玩的心态开始这次的实训旅途。

实训第一天也就是第二周,透过看录像中电子工艺实训的范围与技术,还有录像中老师高-潮的技艺让我艳羡不已,这个下午,我对电子工艺实训有了初步的认识,对电路板,电路元件有了必须的认识,对我接下类的三周的实际操作给予了必须的指导。

第3周也并不是学制作,而是做一些基本工的练习,练习如何用电烙铁去焊接电阻,导线。

电烙铁对我来说很陌生,所以我很认真地对待这练习的机会。

我再说说焊接的过程。

先将准备好的元件插入印刷电路板规定好的位置上,待电烙铁加热后用烙铁头的刃口上些适量的焊锡,上的焊锡多少要根据焊点的大小来决定。

焊接时,要将烙铁头的刃口接触焊点与元件引线,根据焊点的形状作必须的移动,使流动的焊锡布满焊点并渗入被焊物的缝隙,接触时间大约在3-5秒左右,然后拿开电烙铁。

拿开电烙铁的时间,方向和速度,决定了焊接的质量与外观的正确的方法是,在将要离开焊点时,快速的将电烙铁往回带一下,后迅速离开焊点,这样焊出的焊点既光亮,圆滑,又不出毛刺。

在焊接时,焊接时间不要太长,免得把元件烫坏,但亦不要太短,造成假焊或虚焊。

焊接结束后,用镊子夹住被焊元件适当用力拔一下,检查元件是否被焊牢。

如果发现有松动现象,就要重新进行焊接。

焊接看起来很简单但其中有很多技巧要讲究的,比如说用偏口钳掐导线的力度、焊锡丝的量和在焊的过程中时间都要把握准才行,多了少了都不行!我觉得最难的就是托焊了,总是把握不好焊锡丝的量和电烙铁托的时间。

大数据在日常生活中的应用及思考

大数据在日常生活中的应用及思考

大数据在日常生活中的应用及思考大数据在日常生活中的应用及思考近年来,随着科技的飞速发展和互联网的普及,大数据成为了当今社会的热门话题之一。

大数据所蕴含的海量信息和深度洞察力,正深刻地改变着我们的生活方式和社会结构。

从购物、医疗到交通出行,大数据已经渗透到我们日常生活的方方面面。

本文将探讨大数据在日常生活中的应用,并深入思考其中的利与弊。

一、大数据在日常生活中的应用1. 电商购物:对于电商企业而言,大数据是实现精准营销和提升用户购物体验的重要工具。

通过分析用户的购物历史、浏览行为和关注点,电商平台可以为用户推荐个性化的商品和折扣信息,提高购物的准确性和满意度。

2. 交通出行:大数据在交通领域的应用已经成为现实。

通过实时收集和分析车辆和乘客的信息,交通管理部门可以优化道路交通流量、改善交通拥堵状况。

同时,借助智能导航系统,我们能够根据实时交通情况选择最佳路线,提高出行效率。

3. 医疗健康:大数据在医疗健康领域的应用日益广泛。

医疗机构可以通过分析大数据,实现对患者的个性化诊疗计划和预测疾病风险,提高医疗效果和降低医疗成本。

同时,大数据还可以用于公共卫生管理,实时监测和预警传染病等重大突发公共卫生事件。

4. 社交媒体:社交媒体平台是大数据应用的重要领域之一。

通过分析用户的社交网络和行为,社交媒体企业可以为用户提供个性化的信息流、广告推荐和好友推荐,增强用户黏性和用户满意度。

5. 金融服务:大数据在金融领域的应用已经开始展现出巨大潜力。

银行、保险等金融机构可以通过大数据分析客户的信用记录、消费习惯等信息,为客户提供个性化的金融产品和服务,改善用户体验和增加收益。

二、大数据在日常生活中的思考虽然大数据在日常生活中的应用给我们带来了便利和舒适,但我们也需要充分认识到其中存在的风险和挑战。

1. 隐私保护:大数据的应用需要收集大量个人信息,对个人隐私构成了挑战。

我们需要确保个人信息的合法、合规和安全,在利用大数据的同时保护个人隐私权益。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对大数据分析相关问题的思考引言随着移动互联网和社交网络的发展,各行业无论大小,都可以轻松产生海量的数据。

某些数据分析师表示:如果可以实时、精确地追踪一切数据,并且有足够高效的算法与储存设备,大数据可以分析并解决一切问题。

但这样的论点过于理想化,现实情况并不是这样。

随着互联网和社交媒体的活跃,数据量已经不是问题,工具和算法也在日新月异地发生着迭代和更新。

大数据的应用和分析,也的确让很多企业得到利好,提高了利润。

越来越多的问题,在大数据的处理和分析下迎刃而解。

无论是用户喜好、销售变化、市场动态、经济形势,甚至是预测天气,动动鼠标就能够了解。

但是,大数据真的是神奇并万能的吗?1 大数据不是万能的《连线》杂志的前主编Chris Anderson曾经说过:“有了足够的数据,数字本身就能说话”[1],现今的大数据热度,也正好说明了这一种行业内的认知:“数据必然反映事物之间的联系,因此大数据总是能够揭示事物的真理。

”但大数据并非真的这么万能。

1.1 大数据不能解决所有的问题首先,大数据并不能够解决所有的问题,尤其是大数据用于做用户分析的时候。

大数据的基础是记录用户在线上的点击和操作,这些数据确实是在反映用户的操作和使用行为,但所思并不等于所想,用户的行为并不完全能够反映用户的意图。

苹果公司在发布iPhone4之前做过一个测试,让大家给白色和黑色的手机投票,白色的票数高出黑色很多。

然后苹果公司让这些人从这两种颜色的手机中,选择一种带走,却发现多数人选择了黑色。

手机腾讯网每天的新闻排行中点击量最高的多数是明星八卦类的内容。

但从用户调研问卷和访谈的结果中发现,明星八卦在用户需要和喜欢的内容中排名很靠下。

有的用户,在填写问卷时刚选择了“不喜欢看太八卦的内容”,几分钟之后就在测试页面上打开了“某某明星离婚纠纷”的文章。

而当数据量足够大的时候,如果过分依赖数据的结果,或者把数据的结果理解成用户的“思想”,就很容易做出错误的判断,甚至曲解用户的意图。

1.2 大数据能否客观地反映问题如果说,大数据无法正确反映用户所思,但总会如实反映用户所做吧。

但现实是,大数据可能连这点都做不到。

麻省理工出版的《“R a w D a t a”i s a n Oxymoron》一书中的观点就很有意思,作者认为,“这个世界上根本就不存在‘原始数据’这一说法,‘原始数据’只不过是一种修辞”[2],数据在采集、筛马 弢手机腾讯网 北京 100080摘 要大数据分析作为当下的热点概念,得到越来越多的重视。

但大数据不是万能的,它有自身的局限性,过分依赖大数据会产生很多问题。

针对这一观点,文章分析列举大数据自身存在的局限性,概括在进行大数据分析时需要注意的问题,提出在做大数据分析时,应当把大数据做“小”的处理方式。

关键词 大数据;数据分析;局限性选、提取和分析的所有过程中,全部加入了人的主观意识,因此任何数据都不是完全客观的。

人们在处理数据时使用的工具和算法都是按照我们给定的逻辑和思路来设计与编写,从最初采集数据的时候,数据就已经被加工过并打上了人为的烙印;因此也就不存在“原始数据”的概念了。

我非常同意作者的观点,“人们总是看到他们希望看到的东西”,数据也是这样;因此,对于大数据分析来说,分析师、数据库工程师、系统搭建和使用者,任何一个参与分析和研究的人,都在左右着数据对现实反映的“客观性”和“真实性”。

其中任何一环失之毫厘,数据分析的结果就可能差之千里。

1.3 数字无法描述感情大数据的另一个局限性在于它很难表现和描述用户的感情。

大数据在处理人类情感、社会关系、前后关联等问题的时候,表现通常不尽如人意。

换句话说,大数据适合做那些“量”的分析,却不善于做“质”的研究。

如两个用户在机器上做了完全相同的操作,从计算机和数据分析的角度看,就是完全相同的两个个体。

但事实上,他们绝对不会是完全一样的两个人。

这也是在做定性分析时,需要找用户面谈的原因。

只有当和用户面对面的时候,才可以通过他的动作、表情清楚地知道用户在这么做和这么说的时候是一种什么样的情绪,很多时候这比系统跑出几TB的数据要实用很多。

大数据只能告诉我们用户正在做什么,而不能告诉我们他们在做的时候是怎么想的、背景是怎样的,或者有着什么样的情绪。

很多时候数字确实比直觉要严谨,但对于用户分析来说,真正有价值的,恰恰经常是这些严谨的数字难以触达的地方。

2 警惕大数据分析的“陷阱”从上述看出,大数据并不是神话,行业从业者过高地吹捧大数据,反而会引起很多问题。

尤其是对于分析师来说,在应用大数据分析的时候,更要警惕其中的一些“陷阱”。

2.1 警惕数据的错误采集方式采集数据是任何数据分析的第一个环节,如果这个环节出了问题,那么后续的操作,就没有可靠性了。

在很多项目中,经常因为使用错误的采集方式而导致错误的分析结论。

举个例子,如果对2013年雅安地震的相关数据进行分析,可以发现那个时期微博、微信、人人等社交媒体的数据量激增,这些网站在短时间内就积累了海量的数据,但这些数据却很难反映全部的问题。

雅安地震的数据大部分集中在成都等大型城市,这点很好理解,因为大城市的人口密度高、智能手机更加普及、覆盖也更广;而那些相对偏僻的地区,收集的数据则少得可怜,由于电力、通信系统瘫痪,真正受灾最严重的地区则几乎统计不到相关的数据。

这是一个客观条件导致数据收集“部分缺失”的典型例子,这样的数据结构统计出来的结果和分析结论一定无法如实反映全部情况。

当然这是一个比较极端的例子,但日常工作中,这种情况也不少见,地域、终端设备、产品的投放渠道等都会直接影响数据的采集过程。

现在来看,对于App Store的下载和操作行为,由于苹果系统的封闭性,应用开发者们还没有什么太好的数据采集方式;安卓平台则由于第三方市场参差不齐,所采集到数据的可靠性也很难有保障。

分析师在做数据采集的时候,就需要经常自省,“究竟需要什么样的数据”、“这些数据是否足够”、“数据是从哪里来的”、“其中有多少数据是真正有价值的”,从数据处理的第一个环节就开始减少误差对数据真实性的干扰。

2.2 大数据的冗余、虚假和干扰大数据的一个显著特点就是庞大的数据量和繁复的数据结构,在一个PB量级的数据库中提取、筛选和分析某个很具体的问题如同大海捞针。

这是大数据分析面临的另一个问题。

随着数据量的提升,单位数据的价值越来越低,而筛选和分析的成本却越来越高。

有些分析师认为,“世界上没有无用或过量的数据,任何数据都是有价值的,也许今天采集到的数据暂时没有什么意义。

但说不定哪天这些数据就会发挥作用。

”这个观点过于理想化,在现实工作中很难实现。

在实际工作中,这些多余数据不但会降低服务器和数据库的效率,同时还会给真正有效的数据造成干扰和偏差。

例如要检测某个网站的健康度,一般核心的指标是网站新用户、留存和现有用户之间的比例。

但是当社交媒体普及和繁荣之后,更多的指标被加入进来,转发、分享、评价等参数也被引用来评价一个网站的健康程度。

网站的运营人员往往为了达到所谓的KPI,去强制提高其中的某些数据,这些额外被统计的数据往往会对之前的指标产生干扰或者影响。

Facebook去年的一份报告显示,其网站有7 600万个“僵尸账号”[3];在twitter上,很多明星的僵尸粉数量更是惊人,根据Social Selling University 网站的数据,贾斯汀比博的粉丝中有31%是僵尸粉,而Lady gaga的僵尸粉更是占了34%。

这些“僵尸账户”在社交媒体上造成了虚假的繁荣,很可能会让博主和广告主对于明星账户的商业价值产生错误的评估,引起运营上的偏差,甚至导致投资上的失策。

2.3 多重指标和分歧由于膨胀的数据量往往会得到一大堆的数据和报告,在做大数据分析和处理的时候,就经常会遇到多重指标所造成的分歧。

一组数据在不同人看来,会得出不同的结论。

当一组数据得出很多关键指标的时候,这些多重指标就会让分析者产生困惑,甚至得出与事实完全相反的结论。

2012年,几家电商网站打口水仗,其最初的导火索就是这个原因。

某个机构出具了一份电商行业的“权威”报告,报告对于各家电商网站的用户数、交易额、出货量、访问次数、活跃度等各个指标进行了调研。

究竟哪个指标才是最关键的衡量指标,谁也说不清楚;因此造成了“一份报告各自表述”的情况。

于是有的网站成为“用户量第一”,有的是“交易额第一”,有的是“活跃度最高”。

总之,所有的网站都从中找到了能让自己成为行业第一的“关键”数据和结论,之后所有网站都不服气,口水仗也因此而生。

以至于这个“权威”报告的权威性遭到大量的挑战和质疑。

这就又回到机器与人脑的博弈中,数据是在反应和处理情况,但解读数据的是人;因此,在分析工作中,真正值得做的,并不是把数据反应的情况简单地全部说出来,而是有选择性地说,这才是分析师的价值。

2.4 用结论指导分析上述还揭示了一个潜在的问题,即是用数据分析来得出结论,还是用结论来指导数据分析?我们都知道应该是前者,但往往在工作的时候会发生偏差。

很多分析师会接到这样一种需求,“现在有一个假设,希望可以通过数据分析的结论来验证一下”,而通常会发现,验证的结果恰恰都能验证这些假设。

这其实是因为在做这类需求的数据分析时,采集、筛选、分析和处理的过程都被限定在了那个假设所设置的框架中,按照这个框架的规则来进行演算就如同反证法,从结论出发来证明结论,任何假设在这种情况下都可以自圆其说。

这种情况在非“大数据”时代就经常发生,而在“大数据”时代,这种情况更为严重。

海量的数据和报告,通常让分析师对于他们的假说更为自信。

“如此大量的数据都证明了,那这个假设还能有什么问题呢?”这种从结论引导的分析过程,就很容易发生偏差,在采集数据的时候很容易片面地缩小采样范围,在筛选和分析的时候忽略那些可能存在的问题。

这在工作中很常见。

“人们总是试图证明他们心中的结论,挖掘和分析那些对证明有利的数据”,但人们心中的假设却经常与真理背道而驰。

2.5 突变和延迟任何形式的大数据,都需要一个成长的空间和时间,或者说需要一个数据量积累的过程。

这一特点,决定了大数据在时间上的相对延迟,即大数据只能反应已经发生过的操作行为,很难响应正在发生的事情;尤其是在遇到突变的时候,大数据基本对此无能为力。

当数据量达到一定的规模时,短时间的突变会直接淹没在海量的数据里,这样往往会让分析者忽略掉很多重要的问题。

比如某个网站的NBA直播室新增了网友声援球队的模块,用户可以给自己喜欢的球队投票。

然而这个系统有一定的漏洞,在湖人队某场比赛的当天,用户通过其中的漏洞给球队刷票,导致短时间的投票量增长了几倍。

这个短时间的流量脉冲相对于全天数据来说影响只有不到5%,因此无论是统计人员还是业务负责人对此都没有在意。

相关文档
最新文档