大数据的一个重要方面_数据可用性_李建中
大数据质量的关键要素:数据收集、处理、存储、管理和应用

大数据质量的关键要素:数据收集、处理、存储、管理和应用大数据质量的关键要素:确保数据的有效性与准确性在大数据时代,数据的规模和复杂性不断增加,如何确保数据的质量成为了一个重要的问题。
本文将从数据收集、数据处理、数据存储、数据管理和数据应用五个方面探讨大数据质量的关键要素,以确保数据的有效性和准确性。
1.数据收集在数据收集阶段,首先要明确数据来源的可靠性和准确性。
对于企业而言,需要确定数据的来源,并了解数据的产生背景和特点。
同时,要制定合理的采集策略,包括数据采集的范围、采集频率、采集方式等方面,以保证数据的全面性和实时性。
此外,对于不同类型的数据,需要采取不同的采集方法。
例如,对于结构化数据,可以使用数据库进行采集;对于非结构化数据,可以通过网络爬虫、API接口等方式进行采集。
2.数据处理数据处理是保证大数据质量的重要环节。
在数据处理阶段,需要对数据进行预处理、加工和质检,以提高数据的完整性和准确性。
数据预处理主要包括数据清洗、缺失值处理、异常值处理等方面,目的是去除无效和错误的数据,补充缺失的数据,使数据更加规范化和准确化。
数据加工主要包括数据汇总、数据分类、数据压缩等方面,以提高数据的可读性和可用性。
数据质检是指在数据处理过程中对数据进行检查和验证,确保数据的准确性和完整性。
3.数据存储在数据存储阶段,需要选择合适的存储媒体和格式,以确保数据的长期存储和方便以后的检索。
对于大规模的数据,需要考虑使用分布式存储系统,如Hadoop、HDFS 等,以提高数据的存储容量和访问效率。
同时,对于不同类型的数据,需要选择不同的存储格式,如文本文件、CSV文件、JSON文件、HBase、Redis等。
此外,还需要建立索引机制,以便快速检索和查询数据。
4.数据管理数据管理是保障大数据质量的关键要素之一。
在数据管理阶段,需要建立完善的数据管理制度,包括数据备份、保密措施、人员培训等方面。
首先,要建立完善的数据备份机制,以确保数据的安全性和完整性。
APA格式参考文献示例

APA格式参考文献示例期刊文章1. 一位作者写的文章Hu, L. X.[胡莲香].(2014).走向大数据知识服务:大数据时代图书馆服务模式创新.农业图书情报学刊(2): 173-177.Olsher, D. (2014). Sema ntically-based priors and nuan ced kno wledge core for Big Data, Social Al, and Ian guage un dersta ndin gNeural Networks, 58 131-147.2. 两位作者写的文章Li, J. Z., & Liu, X. M.[李建中,刘显敏].(2013).大数据的一个重要方面:数据可用性.计算机研究与发展(6): 1147-1162.Men del, J. M., & Korja ni, M. M. (2014). On establishi ng non li near comb in atio ns of variables from small to big data for use in later process ingln formati on Scie nces, 280, 98-110.3. 三位及以上的作者写的文章Weichselbraun, A. et al. (2014). Enriching semantic knowledge bases for opinion mi ning in big data applicati ons. Kno wledge-Based Systems, 6978-85.Zhang, P. et al.张鹏等].(2013).云计算环境下适于工作流的数据布局方法.计算机研究与发展(3): 636-647.专著1. 一位作者写的书籍Rossi, P. H. (1989).Dow n and out in America: The origi ns of homeless nessChicago: Uni versity of Chicago Press.Wang, B. B.[王彬彬].(2002).文坛三户:金庸王朔余秋雨一一当代三大文学论争辨析.郑州:大象出版社.2. 两位作者写的书籍Plant, R., & Hoover, K. (2014). Conservative capitalism in Britain and the United States: A critical appraisal. London: Routledge.Yin, D., & Shang, H.[隐地,尚海].(2001).到绿光咖啡屋听巴赫读余秋雨.上海: 上海世界图书出版公司.3. 三位作者写的书籍Chen, W.乙et al.陈维政等].(2006).人力资源管理.大连:大连理工大学出版社. Hall, S. et al. (1991). Culture, media, language: Working papers in cultural studies, 1972-79 (Cultural studies Birm in gham ). Lo ndo n: Routledge.4. 新版书Kail, R. (1990). Memory developme nt in childre n(3rd ed.). New York: Freema n.编著1. 一位主编编撰的书籍Loshi n, D. (Ed.). (2013a). Big data an alytics. Bost on: Morga n Kaufma nn.Zhong, L. F.[钟兰凤](编).(2014).英文科技学术话语研究.镇江:江苏大学出版社.2. 两位主编编撰的书籍Hyland, K., & Diani, G. (Eds.). (2009). Academic evaluation: Review genres in uni versity setti ngs London: Palgrave Macmilla n.Zhang, D. L., & Zhang, G.[张德禄,张国](编).(2011).英语文体学教程.北京:高等教育出版社.3. 三位及以上主编编撰的书籍Zhang, K. D. et al.[张克定等](编).(2007).系统评价功能.北京:高等教育出版社. Campbell, C. M. et al. (Eds.). (2003). Groups St An drews 2001 in Oxford: Volume 2 New York: Cambridge Un iversity Press.4. 书中的文章De la Rosa Algar n, A L, & Demurjia n, S. A. (2014). An approach to facilitate security assurancefor information sharing and exchange in big-data applications. In B.Akhgar & H. R. Arabnia (Eds.), Emerging trends in ICT security (pp. 65-83). Bost on: Morga n Kaufma nn.He, J. M., & Yu, J. P.何建敏,于建平].(2007).学术论文引言部分的经验功能分析张克定等.(编).系统功能评价(pp. 93-101).北京:高等教育出版社.翻译的书籍Bakhtin, M. M. (1981). The dialogic imagination: Four essays(C. Emerson & M. Holquist, Tran s.). Austi n: Uni versity of Texas Press.Le, D. L.[勒代雷].(2001).释意学派口笔译理论(刘和平译).北京:中国对外翻译出版公司.Kontra, M. et al. (2014).语言:权利和资源(李君,满文静译).北京:外语教学与研究出版社.Wang, R. D., & Yu, Q. Y.[王仁定,余秋雨].(2001).吴越之间一一余秋雨眼里的中国文化(彩图本)(梁实秋,董乐天译).上海:上海文化出版社.硕博士论文Huan, C. P. (2015). Journalistic stanee in Chinese and Australian hard news. Un published doctorial dissertati on, Macquarie Uni versity, Sydn ey.Wang, X. Z.[王璇子].(2014).功能对等视角下的英语长句翻译.南京大学硕士学位论文.注:1. APA格式参考文献中的文章标题、书籍名称,冒号后第一个单词,括号里第一个单词和专有名词的首字母大写,其余单词首字母均小写。
协同过滤算法的研究

协同过滤算法的研究作者:吴经纬来源:《电脑知识与技术》2019年第03期摘要:互联网的快速发展,每天都产生了大量的信息,信息过载[1-2]十分严重,解决该问题的常用方法有两个,通过搜索引擎查询自己所需要的信息,这种方式有一个很大的缺点是,很多可能会使得引发人们兴趣的信息被埋沒了,而推荐系统是能很好解决该问题的有效方法,推荐系统常用的方法是协同过滤算法,本文对协同过滤算法常见问题做了一些研究。
关键词:推荐系统;协同过滤 ;个性化中图分类号:TP311; ; ; ; 文献标识码:A; ; ; ; 文章编号:1009-3044(2019)03-0020-021前言我们所处时代的显著特征是信息大爆炸,每天所产生新的信息量非常惊人,毋庸置疑,身处其中人们跟以前相比更能够找到自己需要的信息,比如想购买的商品,想观看的电影等,然而跟不上信息增长的速度。
有些用户喜欢看一些评分高的,还有就是热门的电影,遗憾的是这些电影是非常有限的,而有很多类似的精彩电影未能呈现在用户的眼前,既是资源的一种严重浪费,又没能给用户更好的享受。
推荐系统是解决信息过载的很有用的方法,它最大的特点莫过于个性化,根据用户产生的历史数据,进而分析这些数据,挖掘出有用的东西,从而给用户带来更好的体验。
时常当我们在亚马逊购物的时候,可能我们买了一本专业书,过一段时间你会发现,跟这本书相似的书籍,该作者的其他作品也可能会出现,还有就是买过这本书的人还买过什么,这方方面面无疑更有可能出现用户想买的商品,极大地提高了用户体验。
当我们观看YouTube视频的时候也会发生类似的情况,推荐系统具备发现用户隐藏兴趣的能力,既能给相关公司带来巨大的收入,更能丰富人们的生活。
本文主要对协同过滤算法的关键技术做了介绍以及其中的一些问题做了相应的分析。
2 基于用户与物品的协同过滤算法基于用户的协同过滤算法利用用户的相关信息,给用户推荐相关内容或物品,比如当你在YouTube上观看一些视频的时候,它会给你推荐与你有相同兴趣爱好的用户他们喜欢的而你未曾看过的内容。
大数据的一个重要方面:数据可用性

大数据的一个重要方面:数据可用性摘要:本文主要简单的介绍了大数据的相关概念,通过对现阶段大数据可用性中存在的研究问题进行分析,来探讨当下大数据可用性的研究现状,以推动大数据可用性的发展。
据此,有利于提高对大数据可用性研究的重视程度,能够充分发挥大数据的可用性,以推动大数据的可持续发展,不断地完善现代信息技术体系,建立健全的信息系统,以研究大数据可用性的影响和作用,从而加强对大数据可用性的研究。
关键词:大数据;可用性;信息系统;影响作用随着社会经济的不断发展,科学技术日新月异,不断地创新和改进,尤其是计算机信息技术更是成为人们生活和生产过程中不可分割的重要组成部分,为人们的生活、生产方式带来了巨大的改变,受到各界人士的广泛关注。
近年来,社会已经朝着信息化的方向发展,一系列信息技术都取得了不错的成绩,无论是互联网或是物理信息系统技术都得到了充分的发展,受到各界人士的广泛关注。
鉴于这种状况,大数据的发展规模逐渐扩大,所涵盖的内容面积也越来也多,涉及的范围逐渐扩展。
在这种环境下,许多领域都开始纷纷试用大数据,无论是制造业、交通行业还是服务业和医疗业等都充分应用了大数据的作用,取得了有效的成功。
信息数据的使用已经成为我国社会经济的重要内容。
1 大数据的相关概念大数据是一个数的几何体,其具有以下几个性质:第一,大数据具有一致性,在数据几何中所包含的各类信息保持相同性,对于一些无法与大数据信息相符合或是出现错误的信息则不属于数据集合中。
当大数据中的信息出现不一致的现象,则说明其存在一定的危险性,可进行有效的审查。
比如说,某一张信用卡同时在两个城市消费,而消费的数据不一致,则说明信用卡的使用出现了问题;第二,大数据具有准确性。
在大数据中的每一个数据都代表着一个实体,能够准确地反映出某一事件的具体情况和数据;第三,大数据具有一定的完整性。
数据集合中的数据应当包含各方面的数据内容,要予以人们查询和计算,比如说在医院的数据库中,为保障医疗工作的顺利开展,则必须确保数据库信息的完整性,不可遗失任何重要的数据,以防止影响医疗工作者的判断;第四,大数据具有时效性。
对大数据安全的认识和理解

对大数据安全的认识和理解大数据安全是指在大数据环境下保护数据的完整性、可用性和机密性,防止数据泄露、滥用和损坏的一系列安全措施。
随着大数据技术的迅猛发展,大数据安全问题日益引起人们的关注。
本文将从以下几个方面来探讨大数据安全的认识和理解。
一、大数据安全的重要性大数据在各行各业的应用越来越广泛,其中包含了大量的个人隐私、商业机密和敏感信息。
一旦这些数据泄露或被滥用,将给个人和组织带来巨大的损失。
因此,保护大数据的安全至关重要。
二、大数据安全面临的挑战1.数据规模:大数据的规模庞大,传统的安全技术和方法往往无法胜任。
大数据的存储、传输和处理需要更高效、更智能的安全解决方案。
2.数据多样性:大数据包含结构化数据和非结构化数据,涉及多个来源和形式。
数据多样性给安全管理带来了复杂性,需要综合使用多种技术手段来保护数据安全。
3.数据价值:大数据中蕴含着巨大的商业价值,黑客和犯罪分子往往会盯上这些有价值的数据。
因此,大数据安全面临来自内部和外部的威胁,如黑客攻击、数据泄露等。
三、大数据安全的解决方案1.加密技术:通过对大数据进行加密,可以确保数据在存储和传输过程中不被窃取和篡改。
同时,对于敏感数据,可以采用细粒度的加密策略,保证只有授权的人员可以访问。
2.权限管理:建立严格的权限控制机制,对大数据进行细致的权限划分和管理。
只有经过授权的用户才能访问、操作和修改数据,从而减少数据被非法获取的风险。
3.监控和审计:通过实时监控和审计数据的访问和使用情况,及时发现异常行为和安全事件。
同时,建立完善的安全日志系统,记录数据的访问、修改和删除等操作,为后续的审计和追责提供依据。
4.风险评估和漏洞修复:定期进行风险评估,及时发现和修复系统和应用中的漏洞和安全隐患。
同时,建立应急响应机制,对安全事件进行及时处置,减少损失和影响。
5.人员培训和意识提高:加强对大数据安全的培训和教育,提高员工的安全意识和安全素养。
只有人人都参与到大数据安全中来,才能形成全员防御的态势。
mla格式参考文献示例

MLA格式参考文献示例期刊文章1. 一位作者写的文章Stewart, Donald C. "What is an English Major, and What Should It be?"College Composition and Communication 40 (1989): 188-202.Yu, Yongding. [余永定]. 财政稳定问题研究的一个理论框架. 世界经济, 2005(7): 25-29.2. 两位作者写的文章Brownell, Hiram H., and Heather H. Potter. "Inference Deficits in Right-Brain Damaged Patients." Brain and Language 27 (1986): 310-21.Li, Jianzhong, and Liu, Xianmin. [李建中, 刘显敏]. 大数据的一个重要方面:数据可用性. 计算机研究与发展, 2013 (6): 1147-62.3. 三位及以上的作者写的文章Mascia-Lees, Frances E., et al. "Double Liminality and the Black Woman Writer." American Behavioral Scientist 31 (1987): 101-14.Zhang, Peng, et al. [张鹏等]. 云计算环境下适于工作流的数据布局方法. 计算机研究与发展, 2013 (3): 636-47.专著1.一位作者写的书籍Graff, Gerald. Professing Literature: An Institutional History. Chicago: U of Chicago P, 1987.Zhang, Zhijian. [张志健]. 严复思想研究. 桂林: 广西师大出版社, 1989.2.两位作者写的书籍Plant, Raymond, and Kenneth Hoover. Conservative Capitalism in Britain and the United States: A Critical Appraisal. London: Routledge, 2014.Yin, Di, and Shang, Hai. [隐地, 尚海]. 到绿光咖啡屋听巴赫读余秋雨. 上海: 上海世界图书出版公司, 2001.3.三位作者写的书籍Chen, Weizheng, et al. [陈维政等]. 人力资源管理. 大连: 大连理大学出版社, 2006.Hall, Stuart, et al. Culture, Media, Language: Working Papers in Cultural Studies, 1972-79 (Cultural Studies Birmingham). London: Routledge, 1991.4. 新版书Erikson, Erik. Childhood and Society. 2nd ed. New York: Norton, 1963.编著1. 一位主编编撰的书籍Loshin, David, ed. Big Data Analytics. Boston: Morgan Kaufmann, 2013. Zhong, Lanfeng. [钟兰凤] (编). 英文科技学术话语研究. 镇江: 江苏大学出版社, 2014.2. 两位主编编撰的书籍Kerckhove, Derrick De, and Charles J. Lumsden, eds. The Alphabet and the Brain: The Lateralization of Writing. Berlin: Springer-Verlag, 1988. Zhang, Delu, and Zhang, Guo. [张德禄, 张国] (编). 英语文体学教程. 北京: 高等教育出版社, 2011.3. 三位及以上主编编撰的书籍Campbell, Colin. M., et al, eds. Groups St Andrews 2001 inOxford: Volume 2.New York: Cambridge UP, 2003.Zhang, Keding, et al. [张克定等] (编). 系统评价功能. 北京: 高等教育出版社, 2007.4. 书中的文章Glover, David. "The Stuff that Dreams are Made of: Masculinity, Femininity, and the Thriller." Gender, Genre and Narrative Pleasure. Ed. Derek Longhurst. London: Unwin Hyman, 1989. 67-83.He, Jianmin, and Yu, Jianping. [何建敏, 于建平]. 学术论文引言部分的经验功能分析. 张克定等(编). 系统功能评价. 北京: 高等教育出版社, 2007, 93-101.Miao, Xingwei. [苗兴伟]. 英语的评价型强势主位结构. 张克定, 王振华(编). 系统功能评价. 北京: 高等教育出版社, 2007, 163-69.翻译的书籍(Translated book)Lacan, Jacques. Ecrits: A Selection. Trans. Alan Sheridan. New York: Norton, 1977.Le, Dailei. [勒代雷]. 释意学派口笔译理论. (刘和平译). 北京: 中国对外翻译出版公司, 2001.Kontra, Miklos, et al. 语言: 权利和资源. (李君, 满文静译). 北京: 外语教学与研究出版社, 2014.Wang, Rending, and Yu, Qiuyu. [王仁定, 余秋雨]. 吴越之间——余秋雨眼里的中国文化(彩图本). (梁实秋, 董乐天译). 上海: 上海文化出版社, 2001.硕博士论文Hubert, Henry Allan. "The Development of English Studies in Nineteenth-Century Anglo- Canadian Colleges." Diss. U of British Columbia, 1988.Wang, Xuanzi. [王璇子]. 功能对等视角下的英语长句翻译. 南京大学硕士学位论文, 2014.注:1.出版社名称须使用缩写。
APA格式参考文献示例

APA格式参考文献示例期刊文章1. 一位作者写的文章Hu, L. X. [胡莲香]. (2014). 走向大数据知识服务: 大数据时代图书馆服务模式创新. 农业图书情报学刊(2): 173-177.Olsher, D. (2014). Semantically-based priors and nuanced knowledge core for Big Data, Social AI, and language understanding. Neural Networks, 58, 131-147.2. 两位作者写的文章Li, J. Z., & Liu, X. M. [李建中, 刘显敏]. (2013). 大数据的一个重要方面: 数据可用性. 计算机研究与发展(6): 1147-1162.Mendel, J. M., & Korjani, M. M. (2014). On establishing nonlinear combinations of variables from small to big data for use in later processing. Information Sciences, 280, 98-110.3. 三位及以上的作者写的文章Weichselbraun, A. et al. (2014). Enriching semantic knowledge bases for opinion mining in big data applications. Knowledge-Based Systems, 69, 78-85.Zhang, P. et al. [张鹏等]. (2013). 云计算环境下适于工作流的数据布局方法. 计算机研究与发展(3): 636-647.专著1. 一位作者写的书籍Rossi, P. H. (1989). Down and out in America: The origins of homelessness.Chicago: University of Chicago Press.Wang, B. B. [王彬彬]. (2002).文坛三户:金庸·王朔·余秋雨——当代三大文学论争辨析. 郑州: 大象出版社.2. 两位作者写的书籍Plant, R., & Hoover, K. (2014). Conservative capitalism in Britain and theUnited States: A critical appraisal. London: Routledge.Yin, D., & Shang, H. [隐地, 尚海]. (2001).到绿光咖啡屋听巴赫读余秋雨.上海: 上海世界图书出版公司.3. 三位作者写的书籍Chen, W. Z. et al. [陈维政等]. (2006).人力资源管理. 大连: 大连理工大学出版社.Hall, S. et al. (1991). Culture, media, language: Working papers in cultural studies, 1972-79 (Cultural studies Birmingham ). London: Routledge. 4. 新版书Kail, R. (1990). Memory development in children(3rd ed.). New York: Freeman.编著1. 一位主编编撰的书籍Loshin, D. (Ed.). (2013a). Big data analytics. Boston: Morgan Kaufmann. Zhong, L. F. [钟兰凤] (编). (2014). 英文科技学术话语研究. 镇江: 江苏大学出版社.2. 两位主编编撰的书籍Hyland, K., & Diani, G. (Eds.). (2009). Academic evaluation: Review genres in university settings. London: Palgrave Macmillan.Zhang, D. L., & Zhang, G. [张德禄, 张国] (编). (2011). 英语文体学教程. 北京: 高等教育出版社.3. 三位及以上主编编撰的书籍Zhang, K. D. et al. [张克定等] (编). (2007). 系统评价功能. 北京: 高等教育出版社.Campbell, C. M. et al. (Eds.). (2003). Groups St Andrews 2001 in Oxford: Volume 2. New York: Cambridge University Press.4. 书中的文章De la Rosa Algarín, A., & Demurjian, S. A. (2014). An approach to facilitatesecurity assurance for information sharing and exchange in big-data applications. In B. Akhgar & H. R. Arabnia (Eds.), Emerging trends in ICT security (pp. 65-83). Boston: Morgan Kaufmann.He, J. M., & Yu, J. P. [何建敏, 于建平]. (2007). 学术论文引言部分的经验功能分析. 张克定等. (编). 系统功能评价 (pp. 93-101). 北京: 高等教育出版社.翻译的书籍Bakhtin, M. M. (1981). The dialogic imagination: Four essays (C. Emerson & M. Holquist, Trans.). Austin: University of Texas Press.Le, D. L. [勒代雷]. (2001).释意学派口笔译理论 (刘和平译). 北京: 中国对外翻译出版公司.Kontra, M. et al. (2014).语言: 权利和资源 (李君, 满文静译). 北京: 外语教学与研究出版社.Wang, R. D., & Yu, Q. Y. [王仁定, 余秋雨]. (2001).吴越之间——余秋雨眼里的中国文化(彩图本)(梁实秋, 董乐天译). 上海: 上海文化出版社.硕博士论文Huan, C. P. (2015). Journalistic stance in Chinese and Australian hard news.Unpublished doctorial dissertation, Macquarie University, Sydney. Wang, X. Z. [王璇子]. (2014). 功能对等视角下的英语长句翻译.南京大学硕士学位论文.注:1. APA格式参考文献中的文章标题、书籍名称,冒号后第一个单词,括号里第一个单词和专有名词的首字母大写,其余单词首字母均小写。
大数据的一个重要方面:数据可用性

大数据的一个重要方面:数据可用性在当今信息时代,大数据已经成为各行各业的重要资源,而数据可用性作为大数据的一个重要方面,对于企业的发展起着至关重要的作用。
本文将从数据可用性的定义、重要性、影响因素、提高方法和未来发展趋势等方面进行详细探讨。
一、数据可用性的定义1.1 数据可用性是指数据能够被及时、准确地获取和利用的能力。
1.2 数据可用性包括数据的完整性、可靠性、易用性和安全性等方面。
1.3 数据可用性是衡量数据价值的重要指标,直接影响企业的决策和发展。
二、数据可用性的重要性2.1 数据可用性能够提高企业的决策效率和准确性。
2.2 数据可用性可以匡助企业更好地了解市场和客户需求。
2.3 数据可用性是企业实现数字化转型和创新发展的基础。
三、影响数据可用性的因素3.1 数据质量是影响数据可用性的重要因素,包括数据的准确性、完整性和一致性等。
3.2 数据管理能力是影响数据可用性的关键因素,包括数据采集、存储、处理和分析等。
3.3 数据安全性是影响数据可用性的重要保障,包括数据的保护、备份和恢复等。
四、提高数据可用性的方法4.1 建立完善的数据管理体系,包括数据采集、存储、清洗、分析和应用等环节。
4.2 提升数据质量,采取数据清洗、去重、校验等措施,确保数据的准确性和完整性。
4.3 强化数据安全措施,建立完善的数据权限管理、备份和恢复机制,保障数据的安全可靠性。
五、数据可用性的未来发展趋势5.1 数据可用性将成为企业数字化转型的关键驱动力,促进企业创新和发展。
5.2 随着大数据技术的不断发展,数据可用性将更加智能化和自动化,提升数据处理效率和精度。
5.3 数据可用性将与人工智能、区块链等新兴技术结合,开创数据管理和应用的新局面。
综上所述,数据可用性作为大数据的一个重要方面,对于企业的发展至关重要。
企业应重视数据可用性的提升,建立完善的数据管理体系,提高数据质量和安全性,以应对日益激烈的市场竞争,实现持续创新和发展。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
$ 1 2 0 $ & 3 4 $ N * : * : + , 8 N H H + I + D 5 F + ) * 5 E N ) E 5 , F 8 * N 5 ) * + G : ) 5 D 5 + 9 + G N 8 D D * : + , + 8 * , 5 , + 9 9 + 9 5 E !’ ! ! ! ! ! ! ! ! ! 6 6 M Q 6 Q M 6 M ! $ $ ( ) * + , ) + * G R + , : 9 N G 8 D 9 9 * + F$ ( ) * + , ) + * 5 E * : N ) 9 G D 5 C H G 5 F C * N ) 8 ) H 9 5 G N 8 D ) + * S 5 , T$R N H 8 * 8 ! ! ! ! ! ! ! Q 6 Q Q M 6 M M ! ! C R N C N * 5 C 9 ! = N H 8 * 8 R , N ) 9 ) 5 * 5 ) D , + 8 * R + ) + E N * 9 R C * 8 D 9 5 G , C G N 8 D G : 8 D D + ) + 9 ! ( F , 5 I N ) * : + R + G 5 F + 9 ! ! ! ! ! ! ! ! ! X M M Q M M 6 M ! ! ! H 8 * 8 C 9 8 R N D N * N 9 5 ) + 5 E * : + F 5 9 * 9 N ) N E N G 8 ) * G : 8 D D + ) + 9 !0 N , * H 8 * 8 8 G G 5 F 8 ) N + 9 * : + * , + F + ) H 5 C 9 ! ! ! ! ! ! ! ! ! ! Q M M Q 6 ! ! $ $ N ) G , + 8 9 + 5 E H 8 * 8 I 5 D C F + H + , 8 H + 9 * : + H 8 * 8 C 8 D N * 8 ) H H 8 * 8 C 9 8 R N D N * 8 ) H R , N ) 9 9 + , N 5 C 9 : 8 , F * 5 * : + ! ! ! ! ! ! ! ! ! ! ! ! ! M X Q Q M ! $ N ) E 5 , F 8 * N 5 ) 9 5 G N + * N + 9 ! < 5 , * C ) 8 * + D * : + , + : 8 9 R + + ) S N H + 9 , + 8 H G 5 ) G + , ) 8 R 5 C * * : + H 8 * 8 C 9 8 R N D N * N ) R 5 * : ! ! ! ! ! ! ! ! ! ! Q 6 Q ! $ N ) H C 9 * , N 8 D 8 ) H 8 G 8 H + F N G G 5 FF C ) N * N + 9 8 ) H * : + , + G + ) * , + 9 + 8 , G : + E E 5 , * 9 5 ) H 8 * 8 C 9 8 R N D N * : 8 I + N + D H + H ! ! ! ! ! ! ! ! ! ! ! Q Q ! $ 9 5 F + N F , + 9 9 N I + , + 9 C D * 9 !7 5 S + I + , * : + , + 8 , + 5 ) D E + S! S 5 , T 9 E 5 G C 9 N ) 5 ) * : + C 9 8 R N D N * 5 E R N H 8 * 8 ! ( ) ! ! ! ! ! ! ! ! 6 Q M Q M ! ! ! ! $ $ 8 + , * : + G 5 ) G + * 9 5 E R N H 8 * 8 C 9 8 R N D N * 8 , + N ) * , 5 H C G + H E N , 9 * 8 ) H * : + ) * : + G : 8 D D + ) + 9 8 ) H , + 9 + 8 , G : * : N 9 ! ! ! ! ! ! ! ! ! ! ! ! 6 6 6 M Q M ! ! $ , 5 R D + F 9 5 E * : + R N H 8 * 8 C 9 8 R N D N * 8 , + H N 9 G C 9 9 + H ! < N ) 8 D D * : + S 5 , T 9 , + D 8 * + H * 5 * : + H 8 * 8 C 9 8 R N D N * 8 , + ! ! ! ! ! ! ! ! ! ! ! 6 M Q Q Q ! ! ! 9 C , I + + H ! Q ’H ’H ’H ’H ’H 5 % 7 ( & 8 0! R N H 8 * 8 8 * 8 C 9 8 R N D N * 8 * 8 G 5 ) 9 N 9 * + ) G 8 * 8 G 5 F D + * + ) + 9 9 8 * 8 8 G G C , 8 G 8 * 8 ! ! ! ! M Q Q 6 Q 6 ! ! ’ G C , , + ) G + ) * N * N H + ) * N * Q Q Q ! 特别是物理信息系统 " 互 联 网" 云计算和社交网络等技术的突飞猛进! 大 摘 ! 要 ! 随着信息技术的发展 ! 数据普遍存在 ! 正在成为信息社会的重要财富 ! 同时也带来了巨大的挑 战 ! 数据可用性问题就是大数据 的重要挑战之一 ! 随着数据的爆炸性增长 ! 劣质数据也随之而来 ! 数据可用性受到严重影响 ! 对信息社会 形成严重威胁 ! 引起了学术界和工业界的共同关注 ! 近年来 ! 学术界和工业界开始研究数据可用性问题 ! 取得了一些的研究成果 ! 但是针对大数据可用性问题的研究工作还很少 ! 介绍了大数据可用性的基本概 念! 讨论大数据可用性的挑战 ! 探讨大数据可用性方面的研究问题 ! 并综述数据可用性方面的研究成果 ! 数据可用性 # 数据一致性 # 数据完整性 # 数据精确性 # 数据时效性 # 实体同一性 关键词 ! 大数据 #
大数据的一个重要方面 ! 数据可用性
李建中 !!! 刘显敏
! " 哈尔滨工业大学计算机科学与技术学院 ! 哈尔滨 !$ 2 # # # $ ! " D N L :": N * ! + H C ! G ) O
# 1 # " ) ( & $ 3 # $ 1 0 % 4 $ ( + T . O 3 $ 3 O 3 $ 3 F 0 3 2 . > . $ ! ! ! ! ! @ @ / 6 !
-. 约占美国 [ 美国 & $ $ # 亿美元的损失 ! 0 . 的 &b 2 " ! 零售业每年因标价 数 据 错 误 而 导 致 " 亿 美 元 的 损 2 &. " 失在美国银行业 ! 由于数据不一致问题而失察 的 -. 信用卡欺诈在 " # # &年就造成J K亿美元的损失 A !
$. ! 各种错误和误差 美国医 疗 信 息 系 统 ! 在美国 ! 由于数据错误而引发的医疗事故! 每年导致约 ? 约占全部医疗事故 K # # #名 患 者 死 亡! !
-. 致死人数的 2 由于数 据 错 误 和 陈 旧 而 引 起 的 #b J "
生产事故和决策失 误 ! 每年给美国工业企业造成约
" # $ % # 2 # & ! 收稿日期 #
业( 科教文化 ( 医疗卫 生 等 领 域 都 积 累 了 3 = 级( . = 级乃至 V 这些数据已经开始造福于 = 级 的 大 数 据$ 人类 $ 成为信息社 会 的 重 要 财 富 ! 例 如$ 著名的全球 连锁超市沃尔玛每小时需要处理 $ # # 余万条的用户
中图法分类号 !3 . % $ $! $ %
信息技术的快速发展 $ 特别是信息获取 !! 近年来 $ 技术 ( 物理信息系统 ( 互联网 ( 物联网 ( 社交网络等技 术的突飞猛进 $ 引发了数据规模的爆炸式增长 $ 大数 据已 经 普 遍 存 在 $ 能 源( 制 造 业( 交 通 运 输 业( 服务
" ’ " 国家 % 九七三 & 重点基础研究发展计划基金项目 ! 国家自然科学基金重点项目 ! " # $ " @ = % $ & " # # & $ # % % # $ 2 ! 基金项目 #
$ $ J K
% ’ 计算机研究与发展 !" # $ %! 2 # &
请求 ! 维护着一个 超 过 "! 在高能物 2. = 的 数 据 库" 理实验中 ! " # # K 年开始投入使用 的 大 型 强 子 对 撞 机 每年产生超过 " 社交网络 < 2. = 的数据 " 8 G + R 5 5 T现 已存储超过 2 # # 亿张照片 ! 大数据蕴含 着 巨 大 的 价 值 ! 对 社 会# 经 济# 科学 研究等各个方面都 具 有 重 要 的 战 略 意 义 ! 为人们更 深入地感知 # 认识和 控 制 物 理 世 界 提 供 了 前 所 未 有 的丰富 信 息 ! 例 如! 著名国际咨询机构 [ 8 , * ) + ,在 " # $ "年 预 测 全 球 大 数 据 相 关 产 业 的 规 模 将 达 到 " % " # 亿美元 " " # $ #年时代杂志刊载的医学界年度 ! 十大突破 中 ! 医疗科技公司 @ 8 , H N 5 0 a 通过对$亿 个基因样本的分析 ! 最终识别出能够预测冠心病的 " % 个主要基因 " " # # ?年 [ 5 5 D +的 研 究 人 员 通 过 对 M 每日超过 % # 亿次搜索请求和网页数据的挖掘分析 ! 在7 通过对 $ 4 $ 流感爆发几 周 就 预 测 出 流 感 传 播 " 微博等网络大数据 的 挖 掘 分 析 能 够 发 现 社 会 动 态 ! 预警重大和突发性事件 ! 由于大数据的迅速涌现及其巨大价值! 大数据 已经引起国内外学 术 界 # 工业界和政府部门的广泛 关注 ! 美国等世界发 达 国 家 都 制 定 和 启 动 了 大 数 据 研究计划 ! 投入大量资金支持大数据研究 ! 我国对建 设大数据管理基础设施的需求已经提出了指导性的 $ 方针 ! 国家中长期科技发展规划纲要 % " # # && ’ ( * 指出 ) 信息领域要重点研究开发 ++ 海量存 " # " # $ 储和安全存储等关 键 技 术 , 国民经济和社会发展 ! * 第十二个五年规划 纲 要 ( 提 出) 重 点 研 究 ++ 海 量 信息处理及知识挖掘的理论与方法 ++, ! 虽然目前大数据研究已经蓬勃兴起! 但是工作 主要集中在大数 据 的 存 储 # 管 理# 挖 掘 分 析 等 方 面! 数据可用性问题没有得到足够重视 ! 随着 大 数 据的 爆 炸性增长! 劣质数据也随之而 来! 导致数 据 质 量 低 劣 ! 极大地降低了数据的可用 性! 事实表 明 ! 大数据在可用性方面存在严重问题 % 以下简称数据可 用 性 问 题 ’ 国外权威机构的统计 ! 表明 ! 美国企 业 信 息 系 统 中 $b #% #b 的 数 据 存 在