大数据时代的数据管理
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得尤为重要。
随着数据量的急剧增长,数据的准确性、一致性、完整性和及时性等方面的问题也日益突出。
因此,有效的数据质量管理成为企业在数据驱动决策和业务发展中的关键一环。
本文将从数据质量管理的重要性、数据质量管理的挑战、数据质量管理的策略、数据质量管理的工具和技术以及数据质量管理的未来发展五个方面展开讨论。
一、数据质量管理的重要性1.1 数据质量对企业决策的影响:数据质量直接影响企业的决策质量,低质量的数据可能导致企业做出错误的决策,进而影响业务发展。
1.2 数据质量对客户关系的影响:数据质量不佳可能导致客户信息错误或遗漏,从而影响企业与客户的关系和服务质量。
1.3 数据质量对业务流程的影响:数据质量不良会影响业务流程的顺畅性和效率,增加企业成本和风险。
二、数据质量管理的挑战2.1 数据来源的多样性:大数据时代数据来源多样,包括结构化数据、半结构化数据和非结构化数据,数据质量管理面临的挑战也更加复杂。
2.2 数据质量标准的制定:不同业务部门对数据质量标准的理解和要求有所不同,如何统一标准成为数据质量管理的难题。
2.3 数据质量监控的难度:数据量大、变化快,实时监控数据质量变得困难,需要更加智能化的监控工具和技术。
三、数据质量管理的策略3.1 制定数据质量管理策略:企业需要明确数据质量管理的目标和策略,包括数据质量标准、数据质量监控和数据质量改进等方面。
3.2 建立数据治理机制:建立数据治理机制,明确数据的责任人和流程,保证数据质量管理的有效实施。
3.3 引入数据质量管理工具:利用数据质量管理工具和技术,提高数据质量管理的效率和准确性,如数据质量检测工具、数据清洗工具等。
四、数据质量管理的工具和技术4.1 数据质量检测工具:数据质量检测工具可以帮助企业实时监控数据质量,发现数据质量问题并及时处理。
4.2 数据清洗工具:数据清洗工具可以帮助企业清洗数据中的错误、重复或不一致的信息,提高数据的准确性和完整性。
如何有效管理和利用大数据

如何有效管理和利用大数据大数据时代的到来,为企业经营和决策提供了巨大的机遇和挑战。
如何有效地管理和利用大数据成为了企业追求竞争优势的关键。
本文将从以下几个方面探讨如何有效管理和利用大数据。
一、建立完善的数据收集和存储系统要有效管理和利用大数据,首先需要建立完善的数据收集和存储系统。
数据收集的方式可以包括传感器、互联网、社交媒体等多种渠道。
在数据存储方面,可以采用云计算技术,将海量的数据存储在云端,提高数据的可靠性和可用性。
二、进行数据清洗和加工大数据往往包含大量的噪声数据和冗余数据,需要进行数据清洗和加工。
数据清洗可以通过清除异常值、填补缺失值等方式来实现,确保数据的准确性和完整性。
数据加工则可以通过数据挖掘、数据建模等手段来提取数据中的有用信息。
三、建立有效的数据分析模型有效的数据分析模型是利用大数据的关键。
可以借助机器学习、人工智能等技术,建立预测模型、分类模型等来分析和挖掘数据中的价值。
利用这些模型可以对市场趋势进行分析预测,对客户行为进行分析等,为决策提供科学依据。
四、保护数据的安全和隐私大数据涵盖了大量的个人和企业机密信息,保护数据的安全和隐私至关重要。
可以通过加密技术、权限管理等手段来保护数据的安全性。
同时,需要遵守相关的法律法规,保障用户的隐私权。
五、加强团队建设和培训要有效管理和利用大数据,需要加强团队建设和培训。
团队成员需要具备一定的数据分析和技术能力,能够熟练运用数据工具和算法进行数据分析。
同时,培训可以帮助团队成员不断更新知识和技能,适应技术的快速发展。
六、建立数据共享和合作机制在大数据的管理和利用过程中,建立数据共享和合作机制可以提高数据的价值。
企业可以与其他企业、研究机构等建立合作关系,共享数据资源,共同开展研究和创新。
通过数据的共享和合作,可以实现数据的互补和优化,提升数据的利用效率。
七、不断创新和优化数据管理和利用模式大数据的管理和利用是一个不断创新和优化的过程。
随着技术的不断进步和商业模式的变革,企业需要不断地调整和优化数据管理和利用模式,以适应市场的需求和变化。
大数据中心信息数据管理规章制度

大数据中心信息数据管理规章制度引言概述:随着大数据时代的到来,大数据中心的信息数据管理变得尤为重要。
为了确保大数据中心的运行顺利和数据安全,制定一套完善的信息数据管理规章制度是必不可少的。
本文将从六个大点入手,详细阐述大数据中心信息数据管理规章制度的重要性和具体内容。
正文内容:1. 数据收集与存储管理1.1 定义数据收集和存储的标准和流程,确保数据的准确性和一致性。
1.2 制定数据备份和恢复策略,保障数据的可靠性和可用性。
1.3 设立数据访问权限,限制不同用户对数据的访问和修改权限,确保数据的安全性。
1.4 定期对数据进行清理和归档,保持数据的整洁和高效性。
1.5 建立数据质量监控机制,及时发现和纠正数据质量问题。
2. 数据处理和分析规范2.1 制定数据处理和分析的方法和流程,确保数据的准确性和可信度。
2.2 设立数据处理的时效性要求,及时处理数据并提供分析结果。
2.3 建立数据分析报告的编制标准,确保报告的准确性和可读性。
2.4 设立数据分析结果的保密机制,防止数据泄露和滥用。
3. 数据共享与合作管理3.1 确定数据共享的范围和条件,明确数据的所有权和使用权。
3.2 建立数据共享的流程和机制,确保数据的安全传输和使用。
3.3 制定数据共享的合作协议,明确各方的权责和义务。
3.4 设立数据共享的监控和追踪机制,防止数据的非法使用和滥用。
4. 数据隐私和安全管理4.1 制定数据隐私保护的政策和措施,保护用户的个人隐私。
4.2 建立数据安全的防护体系,包括网络安全、物理安全等方面。
4.3 设立数据安全审计机制,定期对数据安全进行审计和评估。
4.4 建立数据安全事件的应急预案,及时应对和处理数据安全事件。
5. 数据治理和合规管理5.1 设立数据治理的组织架构和职责,明确数据管理的责任和权限。
5.2 制定数据管理的流程和规范,确保数据的合规性和规范性。
5.3 建立数据管理的监督和评估机制,对数据管理进行监督和评估。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得尤为重要。
数据质量管理是指通过一系列的措施和方法,确保数据的准确性、完整性、一致性和可靠性,以提高数据的价值和可信度。
本文将从数据质量的定义、数据质量管理的重要性、数据质量管理的原则和方法以及数据质量管理的挑战等方面进行详细阐述。
一、数据质量的定义数据质量是指数据的适用性和可信度。
适用性是指数据能够满足特定的使用需求,包括数据的正确性、完整性、一致性和准确性等方面;可信度是指数据的可靠性和可信度,包括数据的来源、采集过程、处理过程和存储过程等方面。
二、数据质量管理的重要性1. 提高决策的准确性:数据质量管理能够确保决策所依赖的数据是准确、完整和可靠的,从而提高决策的准确性和可信度。
2. 提高业务流程的效率:数据质量管理能够减少数据错误和重复工作,提高业务流程的效率和效益。
3. 降低风险和成本:数据质量管理能够减少数据错误和不一致性带来的风险,降低业务成本和损失。
4. 提升客户满意度:数据质量管理能够确保客户所获得的数据是准确、完整和可靠的,提升客户的满意度和忠诚度。
三、数据质量管理的原则1. 数据质量管理的责任原则:数据质量管理是全员参与的责任,每个人都应该对数据质量负责。
2. 数据质量管理的全过程原则:数据质量管理应该贯穿数据的整个生命周期,包括数据的采集、处理、存储和使用等环节。
3. 数据质量管理的持续改进原则:数据质量管理应该是一个持续改进的过程,通过不断的监控和评估,提高数据质量管理的效果和效益。
四、数据质量管理的方法1. 数据质量评估:通过对数据进行评估,了解数据的质量状况,包括数据的准确性、完整性、一致性和可靠性等方面。
2. 数据质量监控:通过对数据进行监控,及时发现数据错误和不一致性,采取相应的纠正措施。
3. 数据质量改进:通过对数据质量问题的分析和处理,采取相应的改进措施,提高数据的质量和价值。
4. 数据质量培训:通过对员工进行数据质量培训,提高员工的数据质量意识和能力,确保数据质量管理的有效实施。
2024版大数据时代的数据治理ppt课件

2023REPORTING 大数据时代的数据治理ppt课件•数据治理概述•大数据时代下的数据挑战•数据治理的关键技术•数据治理的实施步骤•数据治理的实践案例•数据治理的未来展望目录20232023REPORTINGPART01数据治理概述数据治理的定义与重要性定义数据治理是一种组织范围内的数据管理策略,旨在确保数据质量、安全性和有效利用,以满足组织战略和业务目标。
重要性随着大数据时代的到来,数据已成为企业核心竞争力的重要组成部分。
数据治理能够确保数据的准确性、一致性和可靠性,提高数据价值,降低数据风险,从而为企业创造更多商业机会。
以数据管理为主,关注数据存储、备份和恢复等基础设施层面的问题。
初级阶段数据管理逐渐演变为数据治理,关注数据的全生命周期管理,包括数据质量、安全、隐私等方面。
发展阶段数据治理成为企业战略层面的重要议题,与业务战略紧密结合,实现数据驱动的企业决策和优化。
成熟阶段确保数据质量保障数据安全促进数据利用遵守法规要求通过建立数据质量标准和检测机制,确保数据的准确性、完整性、一致性和及时性。
通过合理的数据共享和交换机制,推动数据在组织内部的充分利用,提高数据价值。
制定和执行数据安全策略,防止数据泄露、篡改和损坏,确保数据的机密性、完整性和可用性。
确保数据处理活动符合相关法律法规和行业标准的要求,降低合规风险。
2023REPORTINGPART02大数据时代下的数据挑战随着互联网、物联网等技术的普及,数据产生速度呈指数级增长,给数据存储和处理带来巨大压力。
数据产生速度加快数据存储成本上升数据管理难度增加大规模数据的存储需要庞大的存储空间,导致存储成本不断攀升。
海量数据的管理和维护变得异常复杂,需要高效的数据管理技术和工具。
030201数据量的爆炸式增长03数据语义丰富数据的含义和背景信息千差万别,需要深入挖掘和理解数据的内在含义。
01结构化数据与非结构化数据并存除了传统的结构化数据外,非结构化数据如文本、图片、视频等日益增多,给数据处理和分析带来挑战。
大数据中的五种管理方法

大数据中的五种管理方法在大数据时代,企业面对的挑战日益增加,如何管理大数据成为企业急需解决的问题。
大数据中的管理方法主要包含五种,本文将对这五种方法进行详细探讨。
一、数据质量管理数据质量是大数据管理的核心,数据质量的好坏关系到企业的决策和业务流程的顺畅。
数据质量管理可以从数据源头开始,制定数据采集标准和规范,对数据进行清洗、去重、格式化等操作,确保数据的准确性和完整性。
此外,数据质量管理还需要建立数据质量监控机制,对数据质量进行持续跟踪和监测,及时发现问题并进行纠正。
二、数据安全管理数据安全是大数据管理的重要一环,随着企业数据规模的不断扩大,数据安全越来越得到关注。
数据安全管理包括数据加密、访问控制、审计跟踪等,以避免敏感数据的泄露和非法访问。
同时,需要建立完善的数据备份和恢复机制,以备不时之需。
三、数据治理管理数据治理是指企业利用大数据进行资源分配的一种管理方式,它将数据作为一种资源,采用全新的方式进行数据分配。
在数据治理过程中,需要对数据进行分类和标签化,以方便企业进行数据管理和利用。
同时,还需要建立数据管理委员会,对于数据的分配和管理进行统一协调。
四、数据分析管理大数据管理的重点是数据分析,利用数据分析可以对企业进行更加精细化的管理。
数据分析管理需要建立完善的数据统计和分析系统,对数据进行整合和分析,以提供有效的决策支持和业务流程优化方案。
同时,还需要建立数据挖掘和机器学习系统,以提高数据分析的效率和准确性。
五、数据可视化管理数据可视化是指利用图像、表格、地图等方式对数据进行展示和呈现,以便企业更加直观、清晰地了解数据。
数据可视化管理需要建立完善的数据展示系统,对于数据的展示进行统一规划和设计,避免信息冗余和重复,提高信息的可读性和可视化效果。
综上所述,大数据中的管理方法包括数据质量管理、数据安全管理、数据治理管理、数据分析管理和数据可视化管理。
企业需要综合考虑这五个方面,针对性地制定相应的管理策略和机制,以实现更加高效的大数据管理和利用。
关于数据管理的十条措施

关于数据管理的十条措施数据管理是指对组织或企业的数据进行有效的采集、存储、处理和利用的过程。
在当今大数据时代,数据管理对于组织的成功非常重要。
以下是关于数据管理的十条措施:1.制定数据管理策略:组织应该明确数据管理的目标和战略,包括数据采集、存储、处理和利用的规划。
这有助于确保数据管理与组织目标相一致,并提供明确的指导。
2.数据分类与标准化:组织应该对数据进行分类和标准化,以便更好地组织和管理数据。
通过定义统一的数据标准和格式,可以确保数据的一致性和可比性,以便更好地进行数据分析和决策。
3.数据安全和隐私保护:组织应该采取适当的措施来保护数据的安全和隐私。
这包括采用数据加密技术、访问控制和数据备份等措施,以防止数据泄露和滥用。
4.数据质量管理:组织应该建立数据质量管理机制,包括数据采集、清洗、校验和修复等环节,以确保数据的准确性、完整性和一致性。
只有高质量的数据才能有效支撑组织的决策和业务活动。
5.数据存储与备份:组织应该选择合适的数据存储技术和设备,确保数据的安全存储和快速检索。
同时,应该定期进行数据备份,以防止数据丢失和灾难恢复。
6.数据访问和共享:组织应该建立合理的数据访问和共享机制,以便不同部门和人员能够方便地获取和使用数据。
这需要平衡数据安全和便利性,确保数据使用的合规性和可控性。
7.数据分析与挖掘:组织应该利用各种数据分析和挖掘技术,从数据中发现有价值的信息和趋势,以支持决策和业务创新。
这需要建立合适的数据分析平台和团队,培养数据分析和挖掘的能力。
8.数据治理和合规性:组织应该建立数据治理机制,确保数据的合规性和合理使用。
这包括制定数据管理的政策、规程和流程,建立数据所有权和责任制度,确保数据的合法、合规和透明。
9.数据培训与意识:组织应该为员工提供合适的数据培训和意识教育,提高他们对数据管理重要性的认识和理解。
只有员工具备了数据管理的基本知识和技能,才能更好地参与到数据管理活动中。
用户数据管理知识:大数据时代的数据管理与分析

用户数据管理知识:大数据时代的数据管理与分析大数据时代已经来临了,数据增长速度越来越快,数据量越来越大。
随着企业对数据分析的要求越来越高,如何管理和分析数据成为了一个重要的议题。
在本文中,我们将探讨大数据时代的数据管理与分析知识。
一、数据管理数据管理是指对数据进行规划、组织、控制和保护的过程。
在大数据时代,数据管理变得更加重要了。
数据管理可以帮助企业更好地管理数据,并保证数据的安全和完整性。
以下是一些数据管理的最佳实践:1.数据分类对于企业来说,首先要做的就是将数据进行分类。
数据分类可以帮助企业更好地管理数据。
企业可以将数据分为结构化数据和非结构化数据。
结构化数据是指可以被存储在关系型数据库中的数据,如订单数据、客户数据等。
而非结构化数据则是指不能被存储在关系型数据库中的数据,如文本数据、音频数据、视频数据等。
2.数据清洗数据清洗是指将数据中的重复、缺失、错误等问题进行清理和修正的过程。
数据清洗可以帮助企业提高数据质量,从而更好地进行数据分析。
数据清洗可以通过自动化工具和人工干预来完成。
3.数据备份数据备份是指将数据复制到另一个地方进行保存的过程。
数据备份可以帮助企业保护数据免受丢失和损坏的威胁。
企业可以通过内部硬盘、云备份等方式进行数据备份。
4.数据安全数据安全是指保护数据免受未经授权的访问和其他威胁。
在大数据时代,数据安全变得尤为重要。
企业可以采用多种安全措施来保护数据,如加密、访问控制等。
二、数据分析数据分析是指使用各种技术和工具对数据进行分析的过程。
在大数据时代,数据分析变得越来越重要。
以下是一些数据分析的最佳实践:1.数据可视化数据可视化是指使用图表、图形等可视化方式呈现数据。
数据可视化可以帮助企业更好地了解数据,从而做出更明智的决策。
企业可以使用各种可视化工具,如Tableau、Power BI等。
2.数据建模数据建模是指通过对数据进行建模和分析,得到与业务相关的结果。
数据建模可以帮助企业预测未来的趋势和变化,并做出相应的决策。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的数据管理作者刘庆发布于 2011年10月24日处理大数据惯常是属于商业智能(BI)的事情。
抽取数据、挖掘数据,制成报表、OLAP、仪表盘、挖掘模型,作为辅助决策之用。
不过在BI领域都不这么叫法,大伙儿都说海量数据,Large-scale Data。
这听起来还是略显学术气,不如Big Data来的通俗——大数据。
这大概是因为如今随处可见的数据,一种爆炸效应带来的结果,已经脱离某种专业的范畴,人们需要用更简单的术语来命名这种数据爆炸。
这给不温不火的BI带来一些新的刺激,让BI人看到一些希望。
以前,不说国内,就算是国外,做BI也大多是局限在几个大行当,电信、金融、零售、政府,他们需要数据来帮助自己理性决策。
在国内很长一段时间里,更是仅限于电信和金融两个行当。
可是尴尬的地方在于,决策者有时候更愿意相信自己的直觉,而非数据。
这种意识虽然逐渐在变化,可从来没有发生过根本的变化。
意识的变化是艰难的。
当一些新兴行业的介入,他们对数据的利用方式,价值的榨取,让人看到数据分析不仅仅用于辅助决策,而是可以从数据中获得收益了,它已经不再是一种锦上添花的东西了,那正是因为大数据时代的到来。
这得感谢互联网以及还未兴起的物联网,在这些行当里面,数据在爆发,不断增长。
他们不甘心只是如报表、OLAP、仪表盘之类的分析应用。
数据分析部门可以按照推荐系统的点击效果利润分成;交易的数据可以包装成分析服务销售给商户,让他们自己去洞察市场商机;根据用户的点击流行为和上网内容,个性化广告布放等等。
就在刚过去的9月,TDWI(数据仓库学院)发布了2011年第四季度最佳实践报告,而这份最佳实践的主题正是大数据分析。
TDWI会通过调查问卷的方式,对全球范围的企业调查,目标对象既有IT人,有业务单位的人,也有咨询顾问。
问卷的问题一般都会询问企业应用BI技术的实际情况,现在如何,计划如何。
所以,这类最佳实践报告可以反映出当下某项技术的现状和趋势。
报告的内容也遵循一定结构,一下定义,二看现状,三分长短,四谈趋势,最后再来个厂商介绍。
同样,这份大数据分析的最佳实践报告也是如此结构。
其中关于“大数据”的定义,值得关注。
如果我们仅仅从字面上看,大数据似乎跟海量数据差别不大,仅仅是变得更加通俗?并非如此,这份报告给出一些区别,TDWI赋予这个术语更多的含义,更多符合目前数据爆炸时代的含义。
大数据的3VBig Data的3V。
大数据有3V的特性。
Volume、Variety、Velocity。
这3V表明大数据的三方面特质:量大、多样、实时。
对,不光是数据量大了。
对TB、PB数据级的处理,已经成为基本配置。
还能处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。
实时。
以前的决策支持时代,可以用批量处理的方式,隔夜处理数据,等决策者第二天上班,可以看到昨天的经营数据。
但现在的互联网时运营,决策已经不是第二天上班才做出,而是在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。
这个定义非常完美,形式上也很漂亮,3个V。
可细细想想,这每个方面的V,难道不是传统BI一直在试图征服的嘛?也许所谓大数据时代,是新瓶装旧酒。
只是换了一个称呼,而具体要解决的问题,仍是那些存在已久的问题。
可毕竟大数据时代轰轰烈烈地,踏着旧的海量数据浪潮而来,而且这将是更高一浪。
平常人站在下面,是否会腿脚发软,或是识破浪头的力度,来个漂亮的转身冲浪呢?大数据管理的需求与挑战在这样的大数据时代,数据仍然是最关键的。
如何将大数据管理好,仍然是对企业的考验。
无处不数据。
手机通话、移动在产生数据,ATM在产生数据,商品上的RFID在产生数据,包裹从一个城市到另一个城市在产生数据。
就算是一个小小的店铺,当它销售出去一瓶水,也可能会记录到Excel里面,产生了数据。
数据记录这世界的存在和变化。
当企业的某项资产非常重要,数量巨大时,就需要有效管理。
如今,数据已经成为这种资产。
以前人们还不会将它看做是资产,而是一种附属物。
客户来办理业务,在系统中产生了这种附属物。
而现在,发现在客户办理业务这条信息中,蕴含这一些客户的需求,成千上万条这类信息累积下来,就能洞察客户所需,为设计新产品,为客户个性化营销产生新的价值。
数据变成一种资产了,需要被管理起来。
数据仓库是管理数据的工具。
在近二三十年里,以某种类似蜗牛的速度爬行,它始终还是贵族家的玩具。
只有那些多金的买主才会为它买单。
这让数据管理变得高高在上,数据当做资产只是停留在理念层面。
人们还在争论着,数据仓库能够给我们带来什么?我自己曾总结过一句话,体现数据仓库的六项价值——“能快速、及时、方便、准确而安全地访问整合过的数据。
”现在看看,发现这个描述还蛮符合大数据时代,对数据管理的需求。
而这六方面价值也对应了不同的技术领域。
∙数据仓库硬件、软件、模型要保障对数据的快速访问。
比如专用设备,按照数据温度选择数据是否高速存储,采用特殊存储技术;∙DW模型确保数据的整合性,当你需要企业视图的数据,需要以年为周期的数据,需要数据模型的支持;∙ETL保障数据及时性。
批量的ETL已经不足够,需要准实时,甚至是数据流式处理;∙元数据管理让数据访问更方便,不仅仅将数据以表、字段的方式管理,要将数据切分地更小,可管理;∙数据质量管理保障数据的准确一致,让数据可信;∙数据仓库架构、权限管理保障数据访问安全。
大数据时代对六项价值之一——快速访问数据的性能,有明显推动。
人们最迫切的希望还是从无到有,从慢到快吧。
让数据唾手可得。
数据库技术在变化传统数据库并未专为数据分析而设计,数据仓库专用设备的兴起(Data Warehouse Appliance),如Teradata、Netezza、Greeplum、Sybase IQ等等,正表明面向事务性处理的传统数据库和面向分析的分析型数据库走向分离,泾渭分明。
数据仓库专用设备,一般都会采用软硬一体,以提供最佳性能。
这类数据库会采用更适于数据查询的技术,以列式存储或MPP(大规模并行处理)两大成熟技术为代表。
另外,新兴的互联网企业也在尝试一些新技术,比如MapReduce 技术(这得感谢Google将它发扬光大),Yahoo的开源小组开发出Hadoop,就是一种基于MapReduce技术的并行计算框架。
在2008年之前,Facebook就在Hadoop基础上开发出类似数据仓库的Hive,用来分析点击流和日志文件。
几年下来,基于Hadoop的整套数据仓库解决方案已日臻成熟。
目前在国内也有不少应用,尤其在互联网行业的数据分析,很多就是基于这个开源方案,比如淘宝的数据魔方。
而在一些商业性的产品中,也已经融入MapReduce技术,如AsterData。
低廉的数据仓库解决方案降低了数据管理的门槛,长尾的中小企业不一定非得去跟Oracle、IBM这样的大公司去谈高高在上的价格。
开源的产品,配置足够的硬件存储,有一支专业的服务团队,就可以架构一个数据仓库平台。
在去年,就曾有多位朋友向我咨询的数据仓库方案,他们有一个不约而同的期望,价格不要太高。
他们有服务团队。
我没有其他推荐,只有推荐Hadoop。
还有一些其他的技术可以让数据访问性能提高,比如数据温度技术,可以区分经常被访问和很少被访问的数据,经常访问的就是高温数据,这类数据将存储在高速存储区,访问路径会非常直接,而低温数据则可以放在非高速存储区,访问路径也可一些相对复杂一些。
近两年,存储访问的技术也在变化着,比如Teradata 前几年推出固态硬盘数据仓库,用接近闪存的性能访问数据,比原来在磁盘上顺序读取数据快很多。
后来又兴起一批内存数据库产品,这类产品在DBMS软件上进行优化,规避传统数据库(数据仓库)读取数据时的磁盘IO操作,再次大大节省访问时间。
比如SAP的HanaBI、Oracle的TimesTen、SolidDB、extremeDB、Altibase。
文本、语音、图像、社交网络、地理位置…大数据时代的数据类型如此丰富。
用关系型数据库存储这类数据,再深入去分析挖掘这些数据,开始有些负累。
于是,越来越多的NoSQL数据库涌现出来,其中很大一部分是用于分析用途。
比如西班牙有个小厂商,叫illumnate,他们拥有一个叫Correlation DBMS的数据库产品。
它不像关系数据库那样按照表、字段存储,那样冗余很大。
CDBMS的做法是,针对每个不同的值,只有一个地方存储,而所有对这个值的引用,都在索引中记录。
比如有个客户的姓名叫“张三”,而还有一个公司名字也叫“张三”,那么在CDBMS里面,只存有一个“张三”这个值,但在索引里面记录了有两个地方引用它。
这种数据库是专门为分析而设计的。
因为不存储冗余数据,所以它对于海量数据,非常节省空间。
如果说这个有点不太吸引人的话,另一个据称的优点就是做ad-hoc查询非常快捷。
社交网络很火热,Facebook、Twitter、QQ、MSN,甚至是普通的电信通话、邮件,都构成社交网络。
人们决策的一个重要依据其实就跟社交群体相关,周围人的决策会带动你的决策,用社交网络理论来做决策支持是一个重大方向。
用关系型数据库来存储社交数据有点吃力。
我跟你打电话,“我”是一个“用户”的实体,“你”是另一个“用户”的实体,我们之间存在了“通话”的关系;“你”还可能跟“她”发生了关系。
但社交网络的分析还需要关注圈子、关系紧密度…… 人们想从中找到人与人之间的关系、圈子,是不是一个家庭的,是不是一个公司的,是不是情侣关系。
甚至还要去发现一个人的重要程度,是否具备某种影响力。
用实体关系来表述这种社交网络需要绕些弯路转换。
所以,自然出现了一种图数据库(Graph DBMS)。
数据按照节点、关系和属性键值存储。
开源产品Neo4j就是这类GDBMS。
基本上这也是一种键值数据库,也就是说其最底层数据存储都是按照key-value存放的,这种存储方式是比较适合并行处理,适用于分析。
而graph database的重要特点就是内置了常见的graph算法,它的存储结构让这类算法性能倍增。
可想,未来也许会出现专为图像分析而出的数据库,专为视频分析的,等等。
数据的量越来越大,种类越来越丰富,大数据时代需要新的数据管理手段。
列式、MPP的关系型数据仓库在改变着,NoSQL的CDBMS、GDBMS也试图在改变着。
关系型数据库是企业IT建设时代的数据管理基石,而在Big Data时代,也许需要一种新的,正在探索中的数据管理基石。
作者简介刘庆(网名:Q),定居合肥,BI独立顾问,兼职于Teradata,从事电信业的BI咨询服务工作,入BI一行10余年,早期研究BI架构,近些年偏重业务分析。