大数据分析过程遇到的13个问题
大数据分析中如何处理缺失数据(Ⅰ)

大数据分析中如何处理缺失数据随着信息技术的快速发展和数据量的飞速增长,大数据分析已经成为了各行各业的重要工具。
然而,在进行大数据分析的过程中,经常会遇到数据缺失的情况。
数据缺失是指数据集中的某些观测值或变量值没有被记录或采集到。
缺失数据的存在会对数据分析结果产生一定的影响,因此如何处理缺失数据成为了大数据分析中的一个重要问题。
1. 缺失数据的影响缺失数据对数据分析结果产生的影响主要体现在以下几个方面:(1)降低数据的可靠性和准确性(2)导致样本偏差,影响统计分析的结果(3)影响模型的训练和预测效果因此,合理有效地处理缺失数据对于准确分析大数据至关重要。
2. 处理缺失数据的方法在大数据分析中,处理缺失数据的方法主要包括删除缺失数据、填补缺失数据和建立模型预测缺失数据。
(1)删除缺失数据删除缺失数据是最简单和直接的方法,但是也是最不可取的方法之一。
因为大数据分析中往往数据量庞大,删除缺失数据会导致丢失大量有价值的信息,从而影响最终的分析结果。
(2)填补缺失数据填补缺失数据是一种比较常用的方法,其主要包括均值填补、中位数填补、众数填补和插值法填补等。
其中,均值填补是将缺失数据用变量均值填充,中位数填补是将缺失数据用变量中位数填充,众数填补是将缺失数据用变量众数填充,插值法填补是根据变量之间的关系进行插值填补。
这些方法都可以有效地减少缺失数据对分析结果的影响,但是需要根据具体情况选择合适的方法。
(3)建立模型预测缺失数据建立模型预测缺失数据是一种比较高级的方法,它利用已有的数据来建立模型,然后利用模型对缺失数据进行预测。
这种方法可以更好地利用已有的信息来填补缺失数据,提高数据的利用率和分析结果的准确性。
3. 处理缺失数据的注意事项在处理缺失数据时,需要注意以下几个问题:(1)了解数据缺失的原因:了解数据缺失的原因可以帮助我们更好地选择合适的处理方法。
数据缺失的原因可能包括人为原因、系统原因和随机原因等,需要分析清楚具体原因后进行处理。
大数据考试题目及答案

大数据考试题目及答案一、单项选择题(每题2分,共20分)1. 大数据技术的核心目标是处理哪种类型的数据?A. 结构化数据B. 半结构化数据B. 非结构化数据D. 所有上述数据类型答案:D2. 在大数据分析中,以下哪个算法主要用于聚类分析?A. 决策树B. 神经网络C. K-meansD. 线性回归答案:C3. Hadoop的核心组件包括以下哪个?A. SparkB. HiveC. HBaseD. MapReduce答案:D4. 数据挖掘中的“关联规则”通常与哪位学者的名字联系在一起?A. 马斯洛B. 纳维斯C. 阿普拉姆D. 汉斯答案:B5. 大数据的“4V”特性不包括以下哪一项?A. 体量大B. 速度快C. 价值高D. 成本高答案:D6. 在大数据架构中,数据湖主要用于存储什么类型的数据?A. 仅结构化数据B. 仅非结构化数据C. 结构化和非结构化数据D. 仅半结构化数据答案:C7. 下列哪项不是大数据分析的常见应用场景?A. 市场分析B. 风险管理C. 客户细分D. 纸质文档打印答案:D8. 大数据技术可以有效地处理“数据孤岛”问题,这主要是指:A. 数据的物理隔离B. 数据的逻辑隔离C. 数据的格式不统一D. 数据的存储位置分散答案:B9. 在大数据环境下,以下哪个数据库更适合处理非关系型数据?A. MySQLB. OracleC. MongoDBD. SQL Server答案:C10. 大数据的实时分析通常依赖于哪种技术?A. 数据仓库B. 批处理C. 流处理D. 数据挖掘答案:C二、多项选择题(每题3分,共15分)11. 大数据的存储技术包括以下哪些选项?(多选)A. 云存储B. 分布式文件系统C. 关系型数据库D. NoSQL数据库答案:A B D12. 在大数据的生态系统中,以下哪些组件是常见的?(多选)A. HadoopB. SparkC. MongoDBD. Excel答案:A B C13. 大数据的分析过程通常包括哪些步骤?(多选)A. 数据采集B. 数据清洗C. 数据可视化D. 数据丢弃答案:A B C14. 以下哪些因素会影响大数据的性能?(多选)A. 数据的规模B. 数据的处理速度C. 数据的存储格式D. 数据的来源答案:A B C15. 在大数据安全领域,以下哪些措施是重要的?(多选)A. 数据加密B. 访问控制C. 数据备份D. 系统防火墙答案:A B C D三、简答题(每题10分,共20分)16. 请简述大数据的“4V”特性是什么?答案:大数据的“4V”特性指的是体量大(Volume)、速度快(Velocity)、类型多(Variety)、价值高(Value)。
如何优化大数据分析流程

如何优化大数据分析流程随着信息技术的不断发展和数据规模的不断扩大,大数据分析已经成为涵盖众多应用领域的关键技术之一。
然而在实际应用过程中,大数据分析流程中存在着种种问题,因此如何优化大数据分析流程已成为业界和学术界急需解决的问题之一。
本文将从以下几个方面入手,探讨如何优化大数据分析流程。
一、数据清洗数据清洗是大数据分析中的一个必要步骤,其主要目的是去除未记录的或错误的数据,保证数据质量。
在实际应用过程中,大数据分析所用数据源通常包含多个渠道,数据质量和数据格式千差万别。
因此,数据清洗变得至关重要。
数据清洗的基本方法包括删除重复数据、填充缺失数据、校验数据合法性等。
其中,填充缺失数据是常见的数据清洗技术之一。
如果程序中某些数据已损坏或缺失,这将导致分析结果出现波动或者系统出现错误。
针对这种情况,通常采用插值或替换法来修补数据误差,以保障数据的正确性和完整性。
二、特征提取特征提取是大数据分析过程中非常重要的一个环节,它通过将数据转化为有意义的特征向量,为后续的建模和分析提供基础。
常见的特征提取方法有主成分分析、线性判别分析、小波变换等。
选择特征提取方法时需要考虑数据的形态、降维效果、特征评估等因素,同时还需充分考虑时间复杂度与空间复杂度等问题。
在特征提取过程中,我们需要尽可能寻找到数据和预测变量之间的关系,并将它们转化为机器学习算法可用的输入数据。
因此,特征提取要做到简单、有利于分类、不引入冗余特征。
三、数据建模数据建模是大数据分析的核心环节,目的是从数据中提取出关键的信息和洞见。
在现实生活中,通常需要根据业务场景选择不同的建模算法,最常见的包括线性回归、逻辑回归、决策树、随机森林、神经网络等。
建模过程中可能需要对数据进行预处理或特征工程,以克服数据不平衡等问题,同时要对模型的评估进行全面的可靠性评估,比如交叉验证、模型不确定性评估等。
四、模型评估与优化模型评估是大数据分析中的一项重要的工作,它旨在通过对模型进行评价和优化,提高其预测的准确性和稳定性。
大数据时代管理会计发展存在的问题及解决措施

大数据时代管理会计发展存在的问题及解决措施随着互联网和信息技术的迅猛发展,大数据时代已经到来。
在大数据时代,管理会计的发展面临着诸多挑战和问题。
本文将重点讨论大数据时代管理会计发展中存在的问题,并提出相应的解决措施。
一、问题分析1.数据规模庞大:大数据时代,数据规模呈几何级数增长,管理会计面临的数据规模巨大,传统的手工数据处理方式已经无法满足需求。
2.数据质量难以保证:大数据时代,数据源的多样性和数据质量的不确定性成为困扰管理会计发展的难题。
数据质量差、含有噪声和异常值的数据会导致管理决策的错误。
3.数据隐私和安全:在大数据时代,数据隐私和安全是管理会计面临的一个重要问题。
大数据的采集、存储和处理过程中可能会遭受黑客攻击,导致数据泄露和商业秘密泄露。
4.技术需求高:大数据时代,管理会计需要掌握先进的数据分析技术,解决复杂的数据分析问题。
现有管理会计人员的技术水平普遍偏低,难以满足大数据时代的需求。
5.组织架构和流程重组:大数据时代,需要对组织架构和流程进行重组和优化,以适应大数据时代对管理会计的需求。
组织架构和流程的重组需要大量的人力、物力和财力投入。
二、解决措施1.提升数据处理能力:针对数据规模庞大的问题,可以引入云计算和大数据技术,利用分布式存储和并行计算的优势,提升管理会计的数据处理能力。
2.加强数据质量管理:对于数据质量难以保证的问题,可以建立数据质量管理体系,制定数据质量标准和规范,加强对数据源的管理和监控,确保数据的准确性和可信度。
3.加强数据安全防护:在数据采集、存储和处理过程中,可以采用数据加密和访问控制等措施,提高数据安全性。
建立完善的数据安全管理体系,进行数据安全风险评估和应急预案制定,及时应对数据安全事件的发生。
4.提升技术水平:对于技术需求高的问题,可以采取培训和人才引进的方式,提升管理会计人员的技术水平。
加强与信息技术部门的合作,利用外包和合作的方式获取先进的数据分析技术支持。
人行大数据直报系统存在的问题和建议

人行大数据直报系统作为一个重要的信息汇报和监测平台,可能存在以下问题:数据质量问题:由于数据来源多样化和复杂性,数据的准确性、完整性和一致性可能存在问题。
部分数据可能存在错误、遗漏或不一致,影响了数据的可靠性和分析结果的准确性。
数据安全风险:大数据直报系统涉及大量的敏感信息和个人数据,如不加强数据安全保护措施,可能会面临数据泄露、信息安全威胁等风险。
确保数据的机密性、完整性和可用性是一个重要的挑战。
数据处理和分析能力:大数据直报系统需要处理海量的数据,并进行快速的数据分析和挖掘。
但是,系统可能面临数据处理速度不够快、算法不够精准等问题,导致数据分析的效果不佳。
用户界面和体验:系统的用户界面和交互设计可能存在不够友好和直观的问题,使用户在使用过程中感到困惑或操作复杂。
优化用户界面和提升用户体验可以提高系统的易用性和用户满意度。
为了改进人行大数据直报系统,以下是一些建议:提升数据质量管理:加强数据采集、整理和清洗的过程,确保数据的准确性和一致性。
建立数据质量监测机制,及时发现和纠正数据质量问题。
加强数据安全保护:采取严格的数据安全措施,包括数据加密、访问控制、身份认证等,确保数据的机密性和安全性。
定期进行安全评估和漏洞扫描,及时修复安全漏洞。
强化数据处理和分析能力:优化系统的数据处理算法和架构,提高数据处理和分析的效率和精确度。
引入先进的数据挖掘和机器学习技术,提供更准确的数据分析和预测能力。
改进用户界面和体验:进行用户需求调研,了解用户的实际需求和使用习惯,优化用户界面设计,简化操作流程,提升用户的使用体验和满意度。
加强用户培训和支持:提供系统使用培训和技术支持,帮助用户更好地理解和使用系统。
建立用户反馈渠道,及时处理用户的问题和建议。
综上所述,通过加强数据质量管理、数据安全保护、数据处理和分析能力以及用户体验的改进,可以进一步提升人行大数据直报系统的质量和价值,为用户提供更好的数据支持和决策参考。
大数据分析师如何应对数据分析中的数据不一致性

大数据分析师如何应对数据分析中的数据不一致性数据不一致性在大数据分析的过程中是一个常见的问题,它指的是在相同或相似的数据集中,不同数据源之间可能存在的差异或矛盾。
这种数据不一致性可能导致分析结果的不准确性和误导性,给决策带来巨大风险。
因此,大数据分析师需要采取一系列的应对策略,确保数据的一致性和准确性。
1. 数据采集与清洗数据采集是大数据分析的第一步,分析师需要从多个不同源头获取数据。
然而,不同数据源之间的数据格式和结构常常不一致,为了解决这个问题,分析师需要进行数据清洗和标准化。
他们可以使用数据清洗工具来去除重复数据、填补缺失值、处理异常值等,以确保数据的一致性。
2. 数据整合与转换在大数据分析过程中,分析师可能需要将来自多个数据源的数据整合到一个数据集中,这就需要进行数据转换和整合。
分析师可以使用数据整合工具,将不同数据源的数据进行合并和匹配,确保数据一致性。
此外,他们还可以通过数据转换技术,将不同的数据格式转换为统一的格式,以便进行后续的分析和挖掘。
3. 数据验证与校对为了确保数据的准确性和一致性,分析师需要对数据进行验证和校对。
他们可以使用数据校验工具来检查数据的完整性和一致性,寻找数据不一致性的源头。
分析师还可以进行数据抽样和对比,将来自不同数据源的数据进行对比,发现数据不一致性所在,及时修复和更新。
4. 数据分析与模型建立在进行数据分析和建模之前,大数据分析师需要对数据进行预处理和准备。
这包括对数据进行归一化、标准化和聚合等操作,以确保数据的一致性和可比性。
此外,他们还可以使用数据挖掘和机器学习算法来发现数据不一致性的模式和规律,为数据修复和纠错提供支持。
5. 数据监控与追踪数据一致性不仅仅是在数据分析初期需要关注的问题,分析师还需要对数据的一致性进行持续的监控和追踪。
他们可以使用数据质量管理工具来监控数据的变化和演化,发现和解决数据不一致性问题。
此外,分析师还需要建立数据审查和纠错的机制,及时修复数据不一致性带来的影响。
马尔科夫链在大数据分析中的常见问题解决方法(Ⅲ)

马尔科夫链在大数据分析中的常见问题解决方法马尔科夫链是一种随机过程模型,通常用于建模具有状态转移特性的系统。
在大数据分析中,马尔科夫链被广泛应用于各种领域,如自然语言处理、金融风险管理、生物信息学等。
然而,马尔科夫链在实际应用中也面临着一些常见问题,本文将讨论这些问题,并介绍相应的解决方法。
问题一:状态转移矩阵稀疏在实际数据中,状态转移矩阵可能会变得非常稀疏,即某些状态之间的转移概率接近于零。
这种情况会导致模型的预测能力下降,因为马尔科夫链假设当前状态的转移仅与前一状态有关,如果某些状态之间的转移概率接近于零,就无法有效地利用历史状态信息。
解决方法:一种常见的解决方法是使用平滑技术,即对状态转移矩阵进行平滑处理,使得所有状态之间的转移概率都不为零。
常用的平滑技术包括拉普拉斯平滑、Add-one平滑等,这些方法能够有效地解决状态转移矩阵稀疏的问题,提高模型的预测性能。
问题二:长期预测不稳定另一个常见问题是马尔科夫链在进行长期预测时出现不稳定的情况。
由于马尔科夫链的特性,长期预测结果可能会逐渐偏离真实情况,使得模型的长期预测能力下降。
解决方法:为了解决这一问题,可以使用马尔科夫链的高阶转移模型,即考虑更多的历史状态信息,以提高长期预测的稳定性。
另外,还可以结合其他时间序列分析方法,如ARIMA模型、指数平滑模型等,综合考虑多种模型的预测结果,以提高长期预测的准确性。
问题三:状态空间过大在实际应用中,状态空间可能会非常大,导致状态转移矩阵的维度非常高。
例如,在自然语言处理中,状态空间可能是所有可能的词汇组合,这会使得模型的训练和预测变得非常困难。
解决方法:针对状态空间过大的问题,可以使用马尔科夫链的稀疏表示方法,即只存储非零转移概率的状态对应关系,以减小状态转移矩阵的维度。
另外,还可以使用特征选择技术,选择最重要的状态特征进行建模,以减小状态空间的大小,提高模型的训练和预测效率。
问题四:参数估计不准确在实际数据中,马尔科夫链的参数估计可能会出现不准确的情况,导致模型的预测性能下降。
大数据专业_面试题目(3篇)

第1篇一、基础知识1. 请简述大数据的概念及其特点。
答:大数据是指规模巨大、数据类型多样、数据价值密度低、数据增长速度快的海量数据。
其特点包括:数据量大(Volume)、数据类型多样(Variety)、价值密度低(Value)、数据增长速度快(Velocity)。
2. 请列举大数据处理的三个关键技术。
答:大数据处理的关键技术包括:分布式文件系统(如HDFS)、分布式计算框架(如MapReduce、Spark)、数据仓库技术(如Hive、Impala)。
3. 请简述Hadoop的核心组件及其作用。
答:Hadoop的核心组件包括:(1)HDFS(Hadoop Distributed File System):分布式文件系统,用于存储海量数据。
(2)MapReduce:分布式计算模型,用于处理海量数据。
(3)YARN(Yet Another Resource Negotiator):资源管理框架,用于管理计算资源。
(4)HBase:分布式、可扩展、支持随机访问的NoSQL数据库。
4. 请简述Spark的核心组件及其作用。
答:Spark的核心组件包括:(1)Spark Core:提供通用集群计算能力和内存计算抽象。
(2)Spark SQL:提供对结构化数据的支持。
(3)Spark Streaming:提供实时流处理能力。
(4)MLlib:提供机器学习算法库。
(5)GraphX:提供图处理能力。
5. 请简述Hive和Impala的区别。
答:Hive和Impala都是数据仓库技术,但它们在实现原理和性能上有所不同:(1)实现原理:Hive基于Hadoop的MapReduce模型,而Impala基于Spark SQL。
(2)性能:Impala的性能优于Hive,因为它是基于内存的计算。
二、数据处理与存储6. 请简述ETL(Extract, Transform, Load)在数据处理中的作用。
答:ETL是数据仓库中的核心概念,其作用包括:(1)提取(Extract):从各种数据源提取数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析遇到的13个问题
1、最早的数据分析可能就报表
目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。
早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出来了。
但是数据量大
起来怎么分析呢?数据分析完了怎么做传输呢?这么大的数据量怎么做到实时呢?分析的结果数据如果不是很大还行,如果分析的结果数据还是很大改怎么办呢?这些问题在这篇文章中都能找到答案,下面各个击破。
2、要做数据分析,首先要有数据
这个标题感觉有点废话,不过要做饭需要食材一样。
有些数据时业务积累的,像交易订单的数据,每一笔交易都会有一笔订单,之后再对订单数据作分析。
但是有些场景下,数据没法考业务积累,需要依赖于外部,这个时候外部如果有现成的数据最好了,直接join过来,但是有时候是需要自己获取的,例如搞个爬虫爬取网页的数据,有时候单台机器搞爬虫可能还爬不完,这个时候可能就开始考虑单机多线程爬取或者分布式多线程爬取数据,中间涉及到一个步骤,就是在线的业务数据,需要每天晚上导入到离线的系统中,之后才可以进行分析。
3、有了数据,咋分析呢?
先将数据量小的情况下,可能一个复杂的SQL就可以搞出来,之后搞个web 服务器,页面请求的时候,执行这个SQL,然后展示数据,好了,一个最简单的数据分析,严格意义上讲是统计的分析。
这种情况下,分析的数据源小,分析的脚本就是在线执行的SQL,分析的结果不用传输,结果的展示就在页面上,
整个流程一条龙。
4、数据量大了,无法在线分析了,咋办呢?
这个时候,数据量已经大的无法用在线执行SQL的形式进行统计分析了。
这个时候顺应时代的东西产生了(当然还有其他的,我就知道这个呵呵),数据离线数据工具hadoop出来了。
这个时候,你的数据以文件的形式存在,可能各个属性是逗号分隔的,数据条数有十几个亿。
这时候你可能需要构建一个hadoop
集群,然后把自己的文件导入到集群上面去,上了集群之后,文件就是HDFS 的格式了,然后如果要做统计分析,需要写mapreduce程序,所谓的
mapreduce程序,就是实现map和reduce的接口,按照自己的业务逻辑写分析流程,之后把程序打成jar包上传到集群,之后开始执行。
分析后的结果还
是文件的形式产生。
5、分析个数据还要写java代码是不是效率低了点
这个确实是,mapreduce的程序,本身的可测性没有执行一个简单的单元测试来的爽,所以效率确实不高。
这个时候,hive出现了,hive是一个数据仓库分析的语言,语法类似于数据库的SQL,但是有几个地方是不同的。
有了hive之后,数据分析就好之前写SQL一样了,按照逻辑编写hive SQL,然后控制台执行。
可能最大的感觉是,数据库的sql很快就能有结果,但是hive的,即使很小的一个数据分析,也需要几分钟时间。
构建hive,需要在hadoop的集群上,原理很简单,就是把文件构建成表的形式(有一个数据库或者内存数据库维护表的schema信息),之后提交写好的hive sql的时候,hadoop集群里面的程序把hive脚本转换成对应的mapreduce程序执行。
这个时候,做离线的数据分析简单写脚本就行了,不用再搞java代码,然后上传执行了。
6、数据产生的结果,怎么搞到线上提供服务的数据库中呢?
这个时候分析的结果有了,可能是一个很宽很长的excel表格,需要导入到线上的数据库中,可能你想到了,如果我的数据库是mysql,我直接执行load 命
令就搞进去了,哪有那么麻烦。
但是数据源可能有多了,
mysql/oracle/hbase/hdfs 按照笛卡尔积的形式,这样搞要搞死程序员了。
这个时候datax(已经开源)出现了,能够实现异构数据源的导入和导出,采用插
件的形式设计,能够支持未来的数据源。
如果需要导数据,配置一下datax的xml文件或者在web页面上点击下就可以实现了。
7、离线分析有时间差,实时的话怎么搞呢?
要构建实时的分析系统,其实在结果数据出来之前,架构和离线是截然不同的。
数据时流动的,如果在大并发海量数据流动过程中,进行自己的业务分析呢?这里其实说简单也简单,说复杂也复杂。
目前我接触过的,方案是这样的,业务数据在写入数据库的时候,这里的数据库mysql,在数据库的机器上安装一个程
序,类似JMS的系统,用于监听binlog的变更,收到日志信息,将日志信息转换为具体的数据,然后以消息的形式发送出来。
这个时候实现了解耦,这样的处理并不影响正常的业务流程。
这个时候需要有个Storm集群,storm集群干啥事情呢?就一件事情,分析数据,这个集群来接收刚才提到的JMS系统发送
出来的消息,然后按照指定的规则进行逻辑合并等计算,把计算的结果保存在数据库中,这样的话,流动的数据就可以过一遍筛子了。
8、分析的结果数据特别大,在线请求这些结果数据数据扛不住了,咋搞?
一般的结果数据,数据量没有那么大,也就几十万的样子,这样的数据级别,对于mysql这样的数据库没有任何压力,但是这个数据量如果增加到千万或者亿级别,同时有复杂的SQL查询,这个时候mysql肯定就扛不住了。
这个时候,可能需要构建索引(例如通过lucene来对于要检索的字段添加索引),或者用
分布式的内存服务器来完成查询。
总之,两套思路,一个是用文件索引的形式,说白来就是空间换时间,另外一种是用内存,就是用更快的存储来抗请求。
9、在线的数据库,除了mysql、oracle之外,还有其他选择不?
其实目前大家的思维定势,往往第一个选择就是oracle或者mysql,其实完全可以根据场景来进行选择,mysql和oracle是传统的关系型数据库,目前nosql 类的数据库也很多,例如HBase就是其中一个重要的代表。
如果数据离散分布比较强,且根据特定的key来查询,这个时候HBase其实是一个不错的选择。
10、空间的数据怎么分析
上面的分析大都是统计维度的,其实最简单的描述就是求和或者平均值等,这个时候问题来了,大数据量的空间数据如何分析呢?对于我们电子商务而言,空间数据可能就是海量的收货地址数据了。
需要做分析,第一步就是先要把经纬度添加到数据中(如果添加经纬度,这个可以搞http的请求来通过地图服务提供商来或者,或者是根据测绘公司的基础数据来进行文本切割分析),之后空间数据是二维的,但是我们常见的代数是一维的,这个时候一个重要的算法出现了,geohash算法,一种将经纬度数据转换为一个可比较,可排序的字符串的算法。
然后,这样就可以再空间距离方面进行分析了,例如远近,例如方圆周边等数据的分析。
11、上面这些仅仅是统计,如果想搞算法或者挖掘之类的,怎么搞呢
上述的分析,大多数是统计分析,这个时候如果想高一点高级的,例如添加一个算法,咋搞呢?其他复杂的算法我没咋接触过。
将拿一个我练过手的算法来讲吧。
逻辑回归,如果样本数据量不是很大,可以采用weka来做了个回归,获得一个表达式,然后在线上系统中应用这个表达式,这种类似的表达式获取对于实时性要求不是很高,所以公式每天跑一次就行了。
如果数据量比较大,单机的weka 无法满足需求了,可以将weka的jar包集成在系统中分析,当然也可以通过hadoop中的mahout来进行离线分析,获取这个表达式。
12、我就是想离线分析数据,但是受不了hive或者hadoop的速度,咋搞
其实搞过一段时间hadoop的人肯定有一点不爽,就是离线分析的速度太慢了,可能需要等很久,这个时候spark出现了,他和hadoop类似,不过由于是内存中计算,所以速度快了很多,底层可以介入HDFS的文件系统,具体我没有使用过,但是公司内部一个团队目前已经用spark来进行分析了。
13、这就是搞大数据了?
有了这些工具就是搞大数据了?答案肯定不是,这个仅仅是工具罢了。
真正搞大数据的可能在于思维的变化,用数据来思考,用数据来做决定。
目前的无线和大
数据啥关系?我觉得无线的终端是数据的来源和消费端,中间需要大数据的分析,两者密不可分啊。