浅谈大数据时代下数据质量的重要性及提高数据质量的方法
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得尤为重要。
随着数据量的急剧增长,数据的准确性、一致性、完整性和及时性等方面的问题也日益突出。
因此,有效的数据质量管理成为企业在数据驱动决策和业务发展中的关键一环。
本文将从数据质量管理的重要性、数据质量管理的挑战、数据质量管理的策略、数据质量管理的工具和技术以及数据质量管理的未来发展五个方面展开讨论。
一、数据质量管理的重要性1.1 数据质量对企业决策的影响:数据质量直接影响企业的决策质量,低质量的数据可能导致企业做出错误的决策,进而影响业务发展。
1.2 数据质量对客户关系的影响:数据质量不佳可能导致客户信息错误或遗漏,从而影响企业与客户的关系和服务质量。
1.3 数据质量对业务流程的影响:数据质量不良会影响业务流程的顺畅性和效率,增加企业成本和风险。
二、数据质量管理的挑战2.1 数据来源的多样性:大数据时代数据来源多样,包括结构化数据、半结构化数据和非结构化数据,数据质量管理面临的挑战也更加复杂。
2.2 数据质量标准的制定:不同业务部门对数据质量标准的理解和要求有所不同,如何统一标准成为数据质量管理的难题。
2.3 数据质量监控的难度:数据量大、变化快,实时监控数据质量变得困难,需要更加智能化的监控工具和技术。
三、数据质量管理的策略3.1 制定数据质量管理策略:企业需要明确数据质量管理的目标和策略,包括数据质量标准、数据质量监控和数据质量改进等方面。
3.2 建立数据治理机制:建立数据治理机制,明确数据的责任人和流程,保证数据质量管理的有效实施。
3.3 引入数据质量管理工具:利用数据质量管理工具和技术,提高数据质量管理的效率和准确性,如数据质量检测工具、数据清洗工具等。
四、数据质量管理的工具和技术4.1 数据质量检测工具:数据质量检测工具可以帮助企业实时监控数据质量,发现数据质量问题并及时处理。
4.2 数据清洗工具:数据清洗工具可以帮助企业清洗数据中的错误、重复或不一致的信息,提高数据的准确性和完整性。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得至关重要。
数据质量管理是指确保数据在采集、存储、处理和分析过程中保持准确、完整、一致和可靠的过程。
只有保证数据质量,才能确保数据分析的准确性和决策的有效性。
本文将从数据质量管理的重要性、数据质量管理的挑战、数据质量管理的方法、数据质量管理的工具和数据质量管理的未来发展五个方面进行详细阐述。
一、数据质量管理的重要性1.1 数据质量直接影响决策效果数据质量差劣将导致决策者基于错误或不完整的数据做出错误的决策,从而影响企业的发展方向和竞争力。
1.2 数据质量关乎企业声誉数据质量不佳会导致客户对企业的信任度下降,影响企业形象和品牌价值。
1.3 数据质量是数据分析的基础数据质量好坏直接影响数据分析的准确性和可信度,进而影响企业的竞争力和市场地位。
二、数据质量管理的挑战2.1 数据来源多样化数据来源多样化导致数据质量难以统一管理和控制,容易出现数据不一致和冲突。
2.2 数据量庞大大数据时代数据量庞大,数据质量管理的难度和复杂度也随之增加,需要更加高效的管理方法和工具。
2.3 数据更新频繁数据更新频繁会导致数据质量难以及时维护和管理,容易出现数据过时和失效的情况。
三、数据质量管理的方法3.1 数据质量评估通过数据质量评估方法,对数据进行全面的质量检查和评估,发现数据质量问题并及时修复。
3.2 数据质量监控建立数据质量监控机制,实时监测数据质量变化,及时发现和解决数据质量问题,确保数据质量稳定。
3.3 数据质量治理建立数据质量治理机制,明确数据质量管理责任和流程,确保数据质量管理的有效实施和持续改进。
四、数据质量管理的工具4.1 数据质量管理平台数据质量管理平台可以帮助企业实现数据质量评估、监控和治理,提高数据质量管理的效率和效果。
4.2 数据质量检测工具数据质量检测工具可以帮助企业对数据进行自动化检测和修复,提高数据质量管理的自动化水平和效率。
4.3 数据质量分析工具数据质量分析工具可以帮助企业对数据质量进行深入分析和挖掘,发现潜在的数据质量问题并提出改进方案。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得尤为重要。
随着数据量的不断增长和多样化的数据源,保证数据的准确性、完整性和一致性成为了组织和企业的首要任务。
本文将详细介绍大数据时代的数据质量管理,并提供一些实用的方法和策略。
一、数据质量管理的重要性数据质量管理是指通过一系列的控制措施和标准,确保数据的准确性、完整性、一致性和可靠性。
在大数据时代,数据质量管理的重要性体现在以下几个方面:1.决策支持:数据质量的好坏直接影响到决策的准确性。
如果数据质量不高,决策者可能会基于错误或不完整的数据做出错误的决策,导致损失或错失商机。
2.业务流程优化:数据质量的提升可以帮助企业发现和解决业务流程中的问题和瓶颈,提高效率和准确性。
3.客户满意度:数据质量的好坏直接影响到客户的满意度。
如果企业提供的数据不准确或不完整,客户可能会失去信任,影响企业形象和声誉。
4.合规要求:许多行业都有严格的数据合规要求,如金融、医疗等。
数据质量管理可以帮助企业满足这些合规要求,避免法律风险和罚款。
二、数据质量管理的方法和策略为了确保数据质量的高标准,以下是一些常用的数据质量管理方法和策略:1.数据清洗:数据清洗是指通过一系列的技术手段和算法,发现并纠正数据中的错误、缺失和重复。
这可以通过数据清洗工具和自动化算法来实现。
2.数据标准化:数据标准化是指将不同来源的数据转化为统一的格式和结构,以确保数据的一致性和可比性。
这可以通过定义和应用数据标准化规则来实现。
3.数据验证:数据验证是指通过一系列的验证规则和算法,检查数据的准确性和完整性。
这可以通过数据验证工具和算法来实现,如数据校验和逻辑验证。
4.数据监控:数据监控是指实时监控数据的质量,并及时发现和解决数据质量问题。
这可以通过数据质量监控工具和仪表盘来实现,以及制定数据监控策略和流程。
5.数据治理:数据治理是指通过一系列的规则和流程,确保数据质量的持续改进和管理。
这包括制定数据质量指标、建立数据质量责任制和培训计划等。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得尤为重要。
数据质量管理是指通过一系列的措施和方法,确保数据的准确性、完整性、一致性和可靠性,以提高数据的价值和可信度。
本文将从数据质量的定义、数据质量管理的重要性、数据质量管理的原则和方法以及数据质量管理的挑战等方面进行详细阐述。
一、数据质量的定义数据质量是指数据的适用性和可信度。
适用性是指数据能够满足特定的使用需求,包括数据的正确性、完整性、一致性和准确性等方面;可信度是指数据的可靠性和可信度,包括数据的来源、采集过程、处理过程和存储过程等方面。
二、数据质量管理的重要性1. 提高决策的准确性:数据质量管理能够确保决策所依赖的数据是准确、完整和可靠的,从而提高决策的准确性和可信度。
2. 提高业务流程的效率:数据质量管理能够减少数据错误和重复工作,提高业务流程的效率和效益。
3. 降低风险和成本:数据质量管理能够减少数据错误和不一致性带来的风险,降低业务成本和损失。
4. 提升客户满意度:数据质量管理能够确保客户所获得的数据是准确、完整和可靠的,提升客户的满意度和忠诚度。
三、数据质量管理的原则1. 数据质量管理的责任原则:数据质量管理是全员参与的责任,每个人都应该对数据质量负责。
2. 数据质量管理的全过程原则:数据质量管理应该贯穿数据的整个生命周期,包括数据的采集、处理、存储和使用等环节。
3. 数据质量管理的持续改进原则:数据质量管理应该是一个持续改进的过程,通过不断的监控和评估,提高数据质量管理的效果和效益。
四、数据质量管理的方法1. 数据质量评估:通过对数据进行评估,了解数据的质量状况,包括数据的准确性、完整性、一致性和可靠性等方面。
2. 数据质量监控:通过对数据进行监控,及时发现数据错误和不一致性,采取相应的纠正措施。
3. 数据质量改进:通过对数据质量问题的分析和处理,采取相应的改进措施,提高数据的质量和价值。
4. 数据质量培训:通过对员工进行数据质量培训,提高员工的数据质量意识和能力,确保数据质量管理的有效实施。
大数据时代的数据质量管理

大数据时代的数据质量管理随着大数据时代的到来,数据质量管理变得越来越重要。
数据质量管理是指通过一系列的措施和方法,确保数据的准确性、完整性、一致性和可靠性。
本文将详细介绍大数据时代的数据质量管理,并提供一些实用的方法和技巧。
1. 数据质量管理的重要性在大数据时代,数据成为企业决策的重要依据。
然而,如果数据质量不好,企业的决策可能会浮现偏差,影响企业的发展。
因此,数据质量管理变得至关重要。
2. 数据质量管理的指标数据质量管理的指标包括准确性、完整性、一致性和可靠性。
准确性指数据的正确性和真实性;完整性指数据的完整程度;一致性指数据在不同系统和应用之间的一致性;可靠性指数据的可信度和可靠性。
3. 数据质量管理的方法和技巧(1)数据采集阶段:在数据采集阶段,需要确保数据源的质量。
可以通过设立数据采集规范和标准,对数据进行验证和清洗,确保数据的准确性和完整性。
(2)数据存储和处理阶段:在数据存储和处理阶段,需要确保数据的一致性和可靠性。
可以通过建立数据模型和数据字典,对数据进行标准化和规范化,确保数据的一致性。
同时,可以使用数据备份和容灾技术,确保数据的可靠性。
(3)数据分析和应用阶段:在数据分析和应用阶段,需要确保数据的准确性和可靠性。
可以通过数据验证和数据挖掘技术,对数据进行验证和分析,确保数据的准确性。
同时,可以建立数据监控和报警机制,及时发现数据异常和错误,确保数据的可靠性。
4. 数据质量管理的挑战和解决方法在大数据时代,数据质量管理面临一些挑战。
例如,数据量大、数据类型多样、数据来源复杂等。
为了解决这些挑战,可以采用以下方法:(1)建立数据质量管理团队:建立专门的数据质量管理团队,负责数据质量管理工作,包括数据采集、数据存储和处理、数据分析和应用等方面。
(2)使用数据质量管理工具:使用数据质量管理工具,可以自动化地进行数据质量管理工作,提高工作效率和准确性。
(3)建立数据质量管理流程:建立数据质量管理流程,明确每一个环节的责任和流程,确保数据质量管理工作的顺利进行。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理是一个至关重要的任务。
随着数据的快速增长和多样化,保证数据的准确性、完整性和一致性变得越来越具有挑战性。
数据质量管理的目标是通过采取一系列的措施和策略,确保数据的高质量,以支持企业的决策和业务流程。
一、数据质量管理的重要性数据质量管理对于企业的成功至关重要。
以下是数据质量管理的几个重要方面:1. 准确性:数据的准确性是数据质量管理的核心要素之一。
准确的数据能够提供正确的信息,帮助企业做出准确的决策。
数据质量管理需要确保数据的来源可靠、采集过程准确、处理方法正确。
2. 完整性:完整的数据是指包含了所有必要的信息,没有遗漏或缺失。
数据质量管理需要确保数据的完整性,防止数据的丢失和遗漏,以保证数据的完整性和可靠性。
3. 一致性:数据一致性是指数据在不同的系统、应用和时间点上的一致性。
数据质量管理需要确保数据在不同系统之间的一致性,以避免数据冲突和不一致的情况。
4. 可用性:数据质量管理需要确保数据的可用性,即数据能够及时、准确地提供给需要的人员使用。
数据质量管理需要确保数据的存储、检索和传输的可用性,以满足企业的需求。
二、数据质量管理的方法和策略为了确保数据的高质量,企业可以采取以下方法和策略:1. 数据清洗:数据清洗是指通过一系列的处理和转换,去除数据中的错误、缺失和重复等问题,以提高数据的质量。
数据清洗可以通过数据验证、数据校验和数据修复等方式进行。
2. 数据标准化:数据标准化是指将数据转换为统一的格式和规范,以确保数据的一致性和可比性。
数据标准化可以通过定义数据模型、数据字典和数据规范等方式进行。
3. 数据质量度量:数据质量度量是指通过一系列的指标和方法,对数据质量进行评估和度量。
数据质量度量可以通过衡量数据的准确性、完整性、一致性和可用性等方面进行。
4. 数据质量监控:数据质量监控是指对数据质量进行实时监控和管理。
数据质量监控可以通过建立数据质量指标、定期检查和报告等方式进行。
大数据时代的数据质量管理

大数据时代的数据质量管理在大数据时代,数据质量管理变得至关重要。
随着数据的快速增长和多样化,保证数据的准确性、完整性和一致性成为组织的首要任务之一。
本文将详细介绍大数据时代的数据质量管理,包括定义、重要性、挑战和最佳实践。
一、定义数据质量管理是指通过一系列的策略、流程和技术手段,确保数据的准确性、完整性、一致性和时效性,以满足组织的业务需求和决策支持。
二、重要性1. 决策支持:高质量的数据可以为组织提供准确的信息,帮助管理层做出正确的决策。
2. 业务流程优化:数据质量管理可以帮助发现和解决数据问题,提高业务流程的效率和准确性。
3. 客户满意度:数据质量管理可以确保客户信息的准确性和保密性,提升客户满意度和信任度。
4. 风险管理:数据质量管理可以减少数据错误和失误带来的风险,保护组织的利益和声誉。
三、挑战1. 数据来源多样化:大数据时代数据来源多样化,包括传感器、社交媒体、互联网等,如何保证数据质量成为一个挑战。
2. 数据量大:大数据时代数据量庞大,如何高效地处理和管理数据成为一个挑战。
3. 数据复杂性:大数据时代数据复杂多样,包括结构化数据、非结构化数据、半结构化数据等,如何处理和分析这些复杂数据成为一个挑战。
4. 数据一致性:大数据时代数据来源多样化,数据一致性成为一个挑战,如何确保不同数据源的数据一致性是一个难题。
四、最佳实践1. 数据质量评估:通过建立数据质量评估指标体系,评估数据的准确性、完整性、一致性和时效性,及时发现数据问题。
2. 数据清洗:通过数据清洗技术,清除数据中的重复、缺失、错误和不一致等问题,提高数据的质量。
3. 数据标准化:建立数据标准化规范,对数据进行统一的命名、格式和编码,提高数据的一致性和可比性。
4. 数据治理:建立数据治理机制,明确数据的责任人和流程,确保数据的质量管理工作得到有效执行。
5. 数据质量监控:通过数据质量监控系统,实时监测数据的质量指标,及时发现和解决数据问题。
数据治理与数据质量管理在大数据时代的重要性

数据治理与数据质量管理在大数据时代的重要性随着信息技术的快速发展和互联网的普及,大数据已经成为了当今社会的热门话题。
大数据的出现给企业和组织带来了巨大的机遇和挑战。
然而,大数据的价值和意义并不仅仅在于数据的规模和速度,更重要的是数据的质量和治理。
数据治理与数据质量管理在大数据时代的重要性不可忽视。
一、数据治理的重要性数据治理是指对数据进行全面管理和控制的过程,旨在确保数据的准确性、一致性、完整性和安全性。
在大数据时代,数据量庞大且多样化,数据来源复杂,数据质量难以保证。
数据治理的重要性主要体现在以下几个方面:1. 提高数据的可信度:数据治理可以确保数据的准确性和一致性,避免数据的错误和冲突。
只有数据可信,才能够为企业和组织提供可靠的决策依据。
2. 保护数据的安全性:数据治理可以确保数据的安全性,防止数据泄露和滥用。
在大数据时代,数据的价值非常高,一旦数据泄露,将给企业和组织带来巨大的损失。
3. 提高数据的可用性:数据治理可以提高数据的可用性,使数据能够被及时、准确地获取和利用。
只有数据可用,才能够为企业和组织提供更好的服务和产品。
4. 降低数据管理的成本:数据治理可以对数据进行规范化管理,减少数据冗余和重复,降低数据管理的成本。
同时,数据治理还可以提高数据的利用效率,提高企业和组织的竞争力。
二、数据质量管理的重要性数据质量管理是指对数据质量进行监控和改进的过程,旨在提高数据的准确性、完整性、一致性和时效性。
在大数据时代,数据质量管理的重要性主要体现在以下几个方面:1. 提高决策的准确性:数据质量管理可以确保数据的准确性和一致性,提高决策的准确性。
只有准确的数据,才能够为决策者提供可靠的信息和指导。
2. 提高业务流程的效率:数据质量管理可以提高数据的完整性和时效性,减少数据的错误和延迟。
只有及时、完整的数据,才能够为业务流程提供支持和保障。
3. 提高客户满意度:数据质量管理可以确保数据的一致性和可靠性,提高客户满意度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据即未来
——浅谈大数据时代下数据质量的重要性及提高数据质量的方法
数据即未来——浅谈大数据时代下数据质量的重要性及提高数据质量的方法
摘要:数据是联系现实世界和虚拟模型重要的桥梁,也是我们探索和预测世界的重要指标。
几十年以来,人们都在强调数据质量中正确性的重要性,但是当我们身处大数据时代,数据由仓库变成了海洋,数据质量的含义发生了什么变化?相对应的提高数据质量的方法或手段又有了哪些改变?本文首先解释了传统数据质量的定义,然后给出了大数据时代下数据质量的新定义。
同时简要的介绍了传统数据质量提高手段和大数据时代下新的数据质量的提高手段。
1.数据质量的定义
数据质量在不同的时期有着不同的定义。
在几十年前,数据质量就是意味着数据的准确性。
确切的说是数据的一致性、正确性、完整性和最小性这4个指标在信息系统中得到的满足程度[1]。
国内学者陈远等认为[2]数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述。
但是随着信息系统的发展,数据的来源越来越多样化,数据体量越来越大,数据涵盖的面也越来越广,对于数据质量的定义也从狭义走向了广义。
准确性不再是衡量数据质量的唯一标准,当数据量增大,数据格式多样,数据适合使用的程度成为了数据质量中更加关键的因素[3]。
虽然众多的学者对于数据质量的定义不同,但是在大体上都涵盖了以上的指标。
笔者认为在大数据时代下,衡量数据质量的指标中,数据的可读性应该放在首位。
在大数据时代背景下,我们不缺少分析大数据的方法,也不缺少分布式计算的硬件,准确性对于大数据而言,单个或少部分不准确的数据在庞大的数据量面前的影响也微乎其微。
现今的目标更多追求的是数据分析的效率,所以数据质量中数据的可读性便成为了影响数据质量极其重要的一环。
对于格式化和非格式化数据,其不仅仅在存储空间占用大小上,相差甚远,更多消耗的是对于非格式化数据的读取、分析的时间。
数据的可读性差,不仅仅造成数据分析时间长,更重要的是在当今庞大的信息系统下,难以满足各个子系统海量数据交互的需求。
所以在当今大数据时代的背景下,我们在注重传统的数据质量的指标的同时,更加
应该注意数据的可读性。
2.数据质量的重要性
对于传统的数据质量的定义,如准确性、完整性等,人们认识世界都是通过建立虚拟模型,如定理、公式、法则等,通过采集现实世界数据输入至虚拟模型中,进行预测,之后再与现实世界采集数据对比,不断改进模型,从而达到预测及认识世界的目的。
如图1-1所示,在这个过程中,数据是连接现实世界和虚拟世界的桥梁,如果数据质量出现问题,无法真实的反映现实世界的状况,那么建立起来的虚拟模型就会出现较大的偏差,从而预测出有偏差甚至完全相反的结果,这便是在计算机和数学中广为人知的“垃圾进,垃圾出(garbage in, garbage out)”。
如果是一个企业对于未来市场的判断,那么这种后果将是及其严重的,传统数据质量的重要性不言而喻。
图1-1
但是在大数据时代下,数据量得到了爆炸式的增长,数据的准确性由于量变而轻易实现,人们更加关心数据分析的效率及数据在各个子系统中周转的速度,数据的可读性便成为了数据质量指标中至关重要的一环。
无论是在过去还是现在以及未来,可以预见的是无论数据质量的衡量指标改变了多少,数据质量永远是人们锲而不舍追求的目标。
3.提高数据质量的手段
3.1传统手段
针对传统数据质量的定义,在不同的信息系统中提高数据质量所采取的方法是特定的,但是在大体上提高数据质量的手段主要在数据获取、数据清洗等阶段。
在数据获取阶段,所针对的目标主要是为了提高数据的一致性、完整性及正确性,所采取的手段主要针对硬件设备,如:采取更加先进的传感器、传感器布置更加全面、提高传感器数量等。
此阶段对于数据质量的提高主要体现在收集的数据量的增加上,这么做的原因是防止因数据量过少而产生的偶然结果对数据分析产生不利的影响。
在数据清洗阶段,所针对的目标主要是为了提高数据的最小性和正确性。
由于在数据获取阶段,为了保证数据完整性而过多地收集数据,使得数据量增加,影响数据分析效率,所以在数据清洗阶段,提高数据质量的方法主要是针对数据分析所需要的相应的指标,去除无关指标及空值、残缺值等。
同时可以利用专家知识或相应的公式、经验、法则等,制定特定的识别模块(如工程APP)[4],达到自动化去除数据中的错值,进一步提高数据质量,减少对数据分析的不利影响。
3.2现代手段
与传统手段不同,当今的时代对于数据质量的定义发生了变化,所以提高数据质量的方法也发生了变化。
在数据获取上,不仅仅增加了数据获取的数量和粒度,更多的是增加了数据获取的维度,如从时域上获取数据的同时也从空域上获取数据,不仅仅有雷达获取的数据,也有卫星获取的数据。
在数据清洗上,更加注重数据的最小性,针对特定的分析目的给予特定的数据序列,针对数据质量,此时更加注重其可读性。
在大数据时代背景下的数据预处理阶段,提高数据质量主要手段为针对非结构化数据的结构化模型表示与多源多尺度数据的融合。
3.2.1非结构化数据的结构化模型表示
目前,在非结构化数据的结构化模型表示方面有一些相关研究,主要侧重于文本数据的结构化处理方面,对图像、视频等其他非结构化数据的处理仍有不足;
在数据科学与网络科学的结合方面,目前已经有了一些理论研究,虽然还未有实际的应用,但是基础理论已经较为成熟。
国内在数据集成方面的研究主要侧重于公共模型构建、元数据模型、语义Web技术等方面,如早期东南大学俞本权研制基于CORBA的Versatile[5],通过OIM数据集成公共模型,和OIQL查询语言,对分布式异构数据源进行集成,实现不同的数据源数据的“即插即用”;复旦大学陈彤兵等人提出了基于元数据模型和数据源能力的,针对分布式自治数据源的联合查询方法[6]。
南京航空航天大学王艳敏提出基于本体和WebService的数据集成[7],充分利用了本体和WebService的优点,在一定程度上解决了异构数据集成的问题,然而国内学者在数据源类型的通用性和本体映射的局部性方面还有所不足,需要进一步的提高。
3.2.2多元多尺度数据融合
在现今庞大的信息系统中,不同数据来源的数据类型、结构、粒度等各不相同,虽然通过数据集成,可以提供给不同的设计评估应用中,但是,由于各种应用场景对于数据的要求也各有不同,如时间粒度、空间粒度以及时间效率等,必须从实际需求、数据内容和特征出发,综合考虑分析精度和分析效率等多种因素,进行数据融合,才能使数据得到充分利用。
针对数据量大,数据结构复杂的多源多尺度的数据进行集成,需要考虑应用中的各种需求、数据现状和算法实现的可能性及效率等问题。
融合一词最早出现在美国军事C3I(Command、Control、Communication and Intelligence)系统中,随着应用系统的复杂化和智能化以及传感技术的发展,收集的数据的种类、数量、尺度等有了质的飞跃,对于数据融合提出了越来越高的要求。
近年来,国外对于数据融合的研究已经深入到多个领域,如智能识别、自动探测等诸多领域应用,且将现代算法应用到数据融合中。
美国DARPA在2012年开始支持在军事方面的大数据集成、融合和可视化技术研究。
国内在数据融合方面的研究主要在针对多源、多传感器的有线或无线网络,采取的数据融合算法由之前的传统算法,如加权平均法、经典推理法等过渡到神经网络、遗传算法等现代算法中。
4.总结
随着网络技术的发展,现实世界中各个系统连接越来越紧密,信息系统越来越大,交互的数据不仅在量上有了飞跃,同时对数据处理速度也提出了更高的要求。
传统的数据质量的定义在海量数据面前不再适用,一致性、完整性、准确性等指标在数据质量衡量中权重都下降了,因为在海量数据面前这些指标都可以被很简单地完成。
人们不再局促在单个指标中,而是用系统的眼光去看待问题,需要的不是单个指标的好坏,而是整个系统的快速交互。
如果把整个系统看做一个人,那么数据就是人体里流动的血液。
传统提高数据质量的方法相当于提高血液的质量,但是当血液的流量急剧增大,不需要很好的质量也可以提供远远超过我们需要的能量的时候,我们需要做的是增大血管,就是增加数据的可读性,让海量的数据可以在各个系统中流转,从而整体提高系统性能,也提高了我们对于未来的预测的准确性。
参考文献
[1] Aebi Daniel, Perrochon Louis, Towards Improving Data Quality.[M], 1993: 273-281.
[2] 陈远, 罗琳, 沈祥兴. 信息系统中的数据质量问题研究[J]. 中国图书馆学报, 2004, 30(1): 48-50.
[3] Huang K. T., Lee Y. W., Wang R. Y. Quality Information and Knowledge Management[J]. Proceedings of the, 1999, 22(2): 99-136.
[4] 郝佳, 杨海成, 阎艳等. 面向产品设计任务的可配置知识组件技术[J]. 计算机集成制造系统, 2012, 18(4): 705-712.
[5] 俞本权. 一个基于CORBA的异构多数据集成系统Versatile及其关系数据库包装器的研究与实现[D]: 东南大学, 1997.
[6] 陈彤兵, 胡金化, 汪保友等. 分布式自治数据源的联合查询[J]. 计算机研究与发展, 2004, 41(4): 601-607.
[7] 王艳敏, 谢强, 丁秋林. 基于本体和Web Services的数据交换平台[J]. 计算机技术与发展, 2010, 20(5): 112-116.。