大数据相关分析综述

第39卷 第1期2016年1月计 算 机 学 报CHINESE JOURNALOF COMPUTERS Vol.39No.1Jan.2016

收稿日期:2015-04-17;在线出版日期:2015-09-25.本课题得到国家自然科学基金(61432011,U1435212,71301090)

、国家“九七三”重点基础研究发展规划项目基金(2013CB329404)、山西省高等学校创新人才支持计划(2013052006)资助.梁吉业,男,1962年生,博士,教授,中国计算机学会(CCF )理事,主要研究领域为粒计算、数据挖掘与机器学习.E -mail:ljy@sxu.edu.cn.冯晨娇,女,1977年生,博士研究生,讲师,主要研究方向为数据挖掘、统计学习方法、大数据相关分析.宋 鹏,男,1979年生,

博士,副教授,主要研究方向为智能决策、数据挖掘.大数据相关分析综述

梁吉业1)

冯晨娇1),2) 宋 鹏1),3)1)(山西大学计算智能与中文信息处理教育部重点实验室 太原 030006)2)(山西财经大学应用数学学院 太原 030006)

3)(山西大学经济与管理学院

太原 030006)摘 要 大数据时代,相关分析因其具有可以快捷、高效地发现事物间内在关联的优势而受到广泛的关注,并有效地应用于推荐系统、商业分析、公共管理、医疗诊断等领域.面向非线性、高维性等大数据的复杂特征,结合现有相关分析方法的语义分析,文中从统计相关分析、互信息、矩阵计算、距离4个方面对大数据相关分析的现有研究成果进行了梳理.在对统计学中的经典相关分析理论进行归纳、总结的基础上,文中从大规模数据的通用性和均等性视角阐述了基于互信息的两个变量间非线性相关分析理论,从高维数据可计算的角度分析了基于矩阵计算的相关系数,从非线性、高维性数据的复杂结构方面解析了基于距离的相关系数.进一步地,该文在对已有相关分析方法进行分析与比较的基础上,围绕高维数据、多变量数据、大规模数据、增长性数据及其可计算方面探讨了大数据相关分析的研究挑战.

关键词 大数据;相关分析;相关系数;信息熵

中图法分类号TP18 DOI 号10.11897/SP.J.1016.2016.00001

A Surve y on Correlation Anal y sis of Bi g Data

LIANGJi-Ye1) FENGChen-Jiao1

),2) SONGPeng1),3)1)(Ke y Laborator y o f Com p utational Intelli g ence and Chinese In f ormation Processin g o f Ministr y o f Education ,

Shanxi Universit y ,Tai y uan 030006)

2)(School o f A pp lied Mathematics ,Shanxi Universit y o f Finance &Economics ,Tai y uan 030006)

3)(School o f Economics and Mana g ement ,Shanxi Universit y ,Tai y uan 030006)

Abstract Inthebigdatatime,correlationanalysishasattractedmuchattentionforitshigh-efficiencyinanalyzinginherentrelationofthings,andbeeneffectivelyappliedtomanyfieldsincludingrecommendersystem,businessanalytics,publicadministrationandmedicaldiagnosis.Bigdataisusuallynonlinearandhigh-dimensional.Ontheconsiderationofthesecomplexcharac-teristicsandthesemanticanalysisforexistingcorrelationanalysisapproaches,thispapergivesadiscussionofexistingresearchfindingsofcorrelationanalysisforbigdata.Thediscussionisanalyzedfromfouraspectsincludingstatisticalcorrelationanalysis,mutualinformation,matrixcalculationanddistance.Basedonsummarizingclassicalcorrelationanalysistheoryinstatistics,thispaperfirstlyelaboratesthenonlinearcorrelationanalysisapproachesbetweentwostochasticvariablesinducedbymutualinformationfromtheviewofgeneralityandequitability.Then,thecorrelationcoefficientbasedonmatrixcalculationisanalyzedintermofcomputabilityofhigh-dimensionaldata;andthedistancecorrelationisanalyzedfromthepointofcomplicatedformationofnonlinearandhigh-dimensionaldata.Furthermore,ontheaccountofanalyzingandcomparing

相关文档
最新文档