点得分平行坐标可视化分析方法
高维数据可视化策略:图表结合分析

高维数据可视化策略:图表结合分析结合其他图表来展示高维数据是一种有效的数据可视化策略,它可以帮助我们更全面地理解数据中的复杂关系和模式。
以下是一些常见的结合其他图表来展示高维数据的方法:1. 散点图与箱线图结合●散点图:用于展示两个变量之间的关系,通常选择最重要的两个维度进行绘制。
●箱线图:提供数据分布的统计概览,包括中位数、四分位数和异常值等信息。
●结合方式:将散点图与箱线图并列展示,或在散点图中添加箱线图的统计摘要(如中位数线或四分位数线),以同时观察数据点的具体分布和整体统计特性。
2. 平行坐标图与条形图结合●平行坐标图:用于展示高维数据的多个维度,每个维度表示为坐标轴上的一条平行线。
●条形图:适用于展示分类数据的比较或排序。
●结合方式:在平行坐标图的基础上,为某些关键维度添加条形图,以更直观地展示这些维度上数据的差异和变化。
例如,可以用条形图的长度表示某个分类数据在不同维度上的得分或排名。
3. 雷达图与热力图结合●雷达图:用于展示多个变量的相对大小和变化,每个变量表示为图表上的一个轴。
●热力图:通过颜色的深浅来表示数据的密集程度或大小关系。
●结合方式:将雷达图与热力图结合,可以在雷达图的基础上添加颜色信息,以表示数据点在不同维度上的密集程度或变化强度。
这样不仅可以观察数据的整体结构,还可以发现数据中的局部热点或异常值。
4. 散点图与直方图结合●散点图:如前所述,用于展示两个变量的关系。
●直方图:展示单变量数据的分布情况。
●结合方式:对于散点图中的某个维度,可以绘制其对应的直方图,以展示该维度上数据的分布情况。
这种方法有助于理解散点图中数据点的背景分布,以及它们如何与整体数据分布相关联。
5. 多维数据立方体与切片图结合●多维数据立方体:在数据仓库和OLAP系统中,用于存储和查询高维数据。
●切片图:从多维数据立方体中选取特定维度组合的数据切片进行展示。
●结合方式:通过多维数据立方体提供的数据结构,用户可以选择不同的维度组合来生成切片图。
基于平行坐标轴的BP网络可视化技术探析

Absr c :n o d rt lu tae t etan n a l so e r ln t r n e e lt e p t n illw , t a t I r e o il sr t h r i i g s mp e fBP n u a ewo k a d r v a h oe t a a
基 于平行 坐 标轴 的 B P网络 可 视 化 技 术 探 析
赵 敬
( 山东 女 子 学 院 文 化 艺 术 学 院 , 东 济 南 2 00 ) 山 5 0 2 摘 要 : 于 平 行坐 标 轴 的 B 基 P网 络 可 视化 技 术 能够 将 B P网络 的 多 维 训 练 样 本 以 合 理 、 读 的 方 式 展 现 出来 , 易 并 揭 示其 中 的潜 在 规 律 。根 据 B P网络 中的输 人 节 点 , 出 节 点 信 息 构 造 相 应 的 平 行 坐 标 轴 , 合 聚 类 方 法 和 颜 输 结
0 引 言
B ( akPo aao ) 经 网络 是 神 经 网络 的 P B c r gt n 神 p i
精华 部分 , 自产生 以来 , 被广 泛 地 应用 于模 式 识 别 、
样 本具 有维数 多 、 据量 大 的特 点 , 统 的表格等显 数 传
示 方法 已经不 能满 足 实 际需 求 , 以有 效发 掘 信息 难
cutr c lr l se s’ oo s,sz ie,d n iy a te e tr s a e u e o i r v h a a llc o d n tst ra e e st nd oh rfau e r s d t mp o e t e p r l o r i ae o c e t e
基于平行坐标轴的BP网络可视化技术探析

基于平行坐标轴的BP网络可视化技术探析第25卷2010正第5期10月山东建筑大学JOURNALOFSHANDONGJIANZHUUNIVERSITYV01.25No.50ct.2010文章编号:1673—7644(2010)05—0508—05基于平行坐标轴的BP网络可视化技术探析赵敬(山东女子学院文化艺术学院,山东济南250002)摘要:基于平行坐标轴的BP网络可视化技术能够将BP网络的多维训练样本以合理,易读的方式展现出来,并揭示其中的潜在规律.根据BP网络中的输人节点,输出节点信息构造相应的平行坐标轴,结合聚类方法和颜色,密度,大小等图形属性,得到清晰,易于理解的视图.实验结果表明:该方法简单有效,可以帮助挖掘数据背后隐藏的关系,规律及模式.关键词:BP网络;信息可视化;平行坐标轴;技术中图分类号:TP391文献标识码:A ResearchonvisualizatiOnOfBPneuralnetworkbasedonparallelcoordinatesZHA0Jing(SchoolofCultureandArts,ShandongWomen'sUniversity,Jinan250002,China) Abstract:InordertoillustratethetrainingsamplesofBPneuralnetworkandrevealthepotentiallaw,aparallelcoordinates—basedBPnetworkvisualizationtechniqueisproposed.Inthisapproach,the parallelcoordinatesareconstructedaccordingtothemodelofBPneuralnetwork.Inparticular ,theclusters'colors,size,densityandotherfeaturesareusedtoimprovetheparallelcoordinatestoc reateclearintelligiblevisualization.Theresultsshowthattheparallelcoordinates—basedBPnetworkvisual-izationissimple,effectiveandsuitabletorevealthehiddenrelationships,regularityandmode intrainingsamples.Keywords:BPneuralnetwork;informationvisualization;parallelcoordinates;technique0引言BP(BackPropagation)神经网络是神经网络的精华部分,自产生以来,被广泛地应用于模式识别,图像处理,系统辨识,函数拟合,优化计算,最优预测和自适应控制等领域.目前对BP网络的研究主要集中在训练效率和精度上,很少涉及样本分析.样本是BP网络中一个重要的组成部分,通过对大量标准样本的学习,BP网络才具备预测能力.由于样本具有维数多,数据量大的特点,传统的表格等显示方法已经不能满足实际需求,难以有效发掘信息中潜在的特征.BP网络正在面临挑战,迫切需要提出一种新的可视化方法展示其中的关键信息,辅助人们快速获取知识,加深对BP网络的理解.信息可视化技术是近年来新兴的一个研究领域,是图形学的一个重要分支.信息可视化主要研究如何把抽象信息用计算机支持的,可视的,交互的方法表示出来以增加认知.其目的是辅助人收稿日期:2010—06—12作者简介:赵敬(1970一),女,山东临邑人,副教授,硕士,研究方向:图形图像处理与多媒体技术.E-mail:******************第5期赵敬:基于平行坐标轴的BP网络可视化技术探析509们快速地掌握信息背后隐藏的关系,规律,模式.在2000年提出的计算机图形学十大尚未解决的问题中,可视化技术被列为第三位,受到的关注程度越来越高.当前的信息可视化还停留在理论研究的层面,在实际领域中的应用还有待进一步的拓展.本文的意义在于将可视化技术的研究成果用于解决BP网络中的认知问题,将理论与实践有机结合,既扩展了可视化技术的应用领域又解决了实际问题.本文将多维信息可视化技术应用于BP网络训练样本的展现,提出基于平行坐标轴的BP网络可视化技术.根据实际的BP网络模型构造相应的坐标轴,利用聚类方法减少待绘制的图形标记,结合颜色,密度,大小等图形属性区分不同的样本信息.对BP网络可视化技术的研究有两个方面的意义.从理论上来讲,它可以帮助快速学习发现信息中潜在的特征与规律,加速认知过程.从实际意义上来讲,它可以帮助查看,分析BP网络中的样本信息,从细节上更好地理解和把握BP网络.1平行坐标轴技术平行坐标轴技术以简单直观的优点被广泛地应用于各个领域.平行坐标轴技术的基本思想是以几何画法或几何投影的方式将高维数据映射到低维空间中,以折线来表示多维信息对象,适用于数据量不大但是维数较多的数据集,比较容易观察多维数据的分布并发现其中的歧异点-6].平行坐标轴技术的工作原理是用多个水平或者垂直的坐标轴代替多维信息中的一维,这些坐标轴以统一的样式映射到二维空问.多维数据集中的一条数据按照其在各个维上的取值被线性映射到相应坐标轴上的正确位置,并以折线连接起来,由此完成单条数据的绘制.213P网络的可视化2.1构造平行坐标系在Bt'神经网络领域,人们往往关注网络的模型,具体的训练算法,训练精度,而忽略了样本信息的展示.样本信息是BP网络的重要组成部分,对于人们更好地理解,分析BP网络具有重要的现实意义.然而,BP网络的样本信息一般具有维数多,数据量大的特点,传统的展现方式无法在有限空间内显示这些海量信息.为了利用平行坐标轴技术表现这些样本信息,揭示信息中的规律,需要根据具体的BP网络模型构造相应的平行坐标系,并对传统的坐标系进行改进,使其符合BP网络的实际情况. 设BP网络具有"个输入节点,n个输出节点,如图1(左)所示.则对应的平行坐标系应该有m+n个坐标轴,代表相应的r几个输入节点和几个输出节点,映射结果见图1(右),按照相应的顺序,输入节点坐标轴在前,输出节点的坐标轴在后.在传统的平行坐标中技术中,各维信息之间是一种平行关系,不存在依赖性.而将其应用到具体的BP网络领域中时,需要根据具体情况作出相应的更改,以符合实际需要.在BP神经网络中,输入节点和输出节点之间并不是一种平行关系,而是一种依赖关系,即输出节点的取值依赖于输入节点的取值.为了标识这种依赖关系,我们需要对传统的平行坐标系作一些更改,用不同的颜色标识不同类型的坐标,例如,在图1(右)中,用绿色坐标轴表示输入节点(左起1—3条坐标轴),用红色坐标轴表示输出节点(左起4—5 条坐标轴),以此说明依赖关系.输入层(rn节点)隐层输l1j层(,7节点)图1BP网络模型及相应的平行坐标系山东建筑大学2.2可视聚类BP神经网络的样本信息一般包含多个字段,这些字段按照其性质又分为两类,即影响因素和待预测信息,分别对应2.1节中介绍的输入节点和输出节点.为了保证BP网络拥有准确的预测能力,必须对大量的样本进行学习.这些样本少则几百条,多则上万条,如果采用传统的平行坐标轴技术进行展示,会因线段之间的交叉重叠而无法分辨具体的内容,出现视觉混乱效果,不利于发掘信息规律.为解决这一问题,需要对这些样本信息进行聚类处理,将海量的样本信息分成有限的几类,减少待绘制的图形标记,产生清晰简洁的视图.事实上,基于聚类的可视化技术已经被广泛的采用,常用的聚类算法包括k-means,层次聚类法等.聚类算法并不是可视化技术的核心内容,任何一种聚类算法,只要能直到简化数据的目的,都可以用于可视化技术中,而不仅限于k-means和层次聚类法.考虑到k—means聚类算法简单有效,易于编码,本文采用此种算法对样本信息进行聚类操作.k.means算法的主要思想如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类; 然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止.2.3可视编码可视编码过程大体分为两个过程,一是设计可视化结构,二是根据聚类结果生成相应的可视化结构,将图形标记以合理的方式进行布局.2.3.1构造可视结构可视化结构包括三个内容:空问基,图形标记,和标记的图形属性.在本文算法中,采用二维空间基.利用梯形标记代替传统的直线标记,一个梯形是连接两个相邻坐标轴的多边形,它在两个坐标轴上的中心为相应聚类的中心,其在两个坐标轴上的上下边界表示相应聚类的取值范围.相对于直线, 梯形不但可以显示各个聚类的聚类中心,而且可以标识各聚类的取值范围.同时,由于各个聚类的密集程度是不同的,包含的数据量也不一样,为了分这种差别,本文引入颜色,密度,大小等图形属性记对梯形进行修饰,以区分各个聚类.可视结构仅仅是一种抽象的定义,其具体的取值还要依赖于实际的聚类结果.2.3.2设置图形标记的大小BP网络的可视化技术中,采用梯形作为主要的图形标记.梯形代表了相应的一个聚类,为了设置一个梯形在相邻坐标轴的中心和在每个坐标轴上的上下限,需要利用以下映射关系.设所有坐标轴在显示空间中的上下限为axisMax和axisMin.利用线性映射关系,将聚类中心值映射到显示空间坐标, 具体的映射公式如下:设d为第i维信息的第.个聚类中心值,为显示空问上与之相应的坐标值,则=(d一minltem) (axisMax—axisMin)/(maxltem—minltem),其中: maxltem和minltem是第i维信息的取值上限与下限.通过这种映射方式可以将所有的聚类中心映射至相应的屏幕坐标.同样基于线性映射关系和上述公式,可以将各聚类的上下限映射至显示空间,完成所有梯形标记的绘制.2.3.3基于颜色的编码前面的章节rfl对样本信息进行了聚类操作,产生的聚类是有差别的,有的聚类包含的数据量大,有的包含的数据量小.为了显示各个聚类之间的差别,本文用颜色信息对梯形进行标识.对于k个聚类结果,本文用C,个颜色对其进行标识,C<K.即,将k个聚类结果依据其聚类情况又划分成了c,个类别,每个类别以一种颜色标识. 综上,原始的样本数据集经过k-means算法产生聚类,而聚类又再次的划分重组,产生粒度更大的类别,配以颜色进行区分.为了完成基于颜色的编码过程,本文再次使用了k-means算法,将k个聚类结果依据各聚类包含的数据量大小组织成c个类别.每个类别以一种颜色标识.2.3.4基于密度的编码2.3.3节中的方法略显粗糙,利用聚类的方法对聚类结果再次划分,其结果是可能多个包含不同数据量的梯形对应同一种颜色,不利于区分相近的聚类.为了解决这一一问题,引入基于密度的绘制方法.设聚类结果,!,,…,属于颜色C.Num.,Num2,Num一,Num为相应聚类包含的信息量,则第.个聚类的密度opaque,=NumSmax第5期赵敬:基于平行坐标轴的BP网络可视化技术探析{NumI,Num一,Num},l≤.≤凡.利用这种方法可以计算得到同一颜色聚类中的各个图形标记的密度.另外,上述密度信息将会赋予图形标记的中心线,而标记的上下两个边界的密度设置为0,利用这种方法,可以产生颜色渐变的效果,中心线表示信息最为密集,具有最大的密度,而距离中心线越远,数据也散稀疏,其密度也越低.综合上述几个步骤,引入了颜色,透明度,大小等属性后,最终产生的结果如图2所示.图2使用多边形标记的视图结果2.4交互技术,为了便于控制视图结果,突出重要信息,过滤人们不感兴趣的数据,本文设计了一些交互技术.主要包括查询,过滤,上卷下钻,平移和缩放技术.这些技术的引入可以帮助动态的调整视图结果,观察BP网络样本信息的不同细节和不同信息侧面,加速认知过程.查询技术提供一个动态查询界面,用户输入查询条件,在视图上以高亮的方式显示符合条件的信息;过滤技术通过在过滤界面中输入过滤条件,用户可以过滤那些不感兴趣的数据信息,加速认知过程; 上卷下钻技术在本文设计的算法中具有重要的作用,通过将聚类粒度与滑动条绑定,用户可以方便地控制聚类粒度,既能显示概要,也可以显示更加详细的信息分布情况,有利于用户更好的理解信息;通过缩放技术,既可以看到整体的信息分布,也可以对局部放大,结合平移,用户可以集中精力观察感兴趣的信息.3实验3.1实验方法本次实验将平行坐标轴技术用于数据采用过程中不同条件及传输方式下的数据接收误码率的可视化.在数据采集过程中,数据的接收存在误差,这种误差与多种因素有关系,如接收信号幅值,信噪比, 主干扰噪声频率,传输方式等.为了揭示这些数据之间的相互关系,需要建立相应BP网络模型,对不同条件及传输方式下的数据接收误码率进行预测. 根据数据之间的依赖关系,相应的BP网络参数设置如下:该网络包括4个输入节点,分别是接收信号幅值(signalstrength),信噪比(SNR),主干扰噪声频率(noisefrequency),传输方式(transstyle),1个输出节点,误码率(BER).相应的,该网络模型训练样本是一个5维信息数据集,各维信息分别对应着4 个输入节点和1个输出节点.该数据集信包含了大量的训练数据,共有149条训练样本.本次实验的主要任务就是利用平行坐标轴技术在给定的空间内显示这些样本信息.3.2实验过程及结果本次实验的硬件环境为:CPU:p42.4G,内存:1G.软件环境为:WindowsXPsp2,OPENGL+visualstdio2005.首先根据样本数据集,样本中各维数据的依赖关系和相应的BP网络模型构造平行坐标系.利用k-means聚类方法对这149条样本数据进行聚类操作,以减少需要绘制的数据,简化视图.利用颜色信息对图形标记进行标识,以表现不同信息量的图形标记.结合密度,可以对同一颜色中的各个标记进一步的划分,同时可以产生渐变效果.另外,为了以不同的粒度观察这些样本,可以通过交互手段,如上卷下钻动态调整聚类粒度,观察不同详细程度的视图'.图3为利用交互技术产生的不同聚类粒度的结果,随着粒度越来越小,视图也越来越详细,从最抽象的视图过渡到详细的视图.5l2东建筑大学学4结语图3不同聚类粒度的样本可视化结果实验表明,本文提出的基于平行坐标轴的BP网络的可视化技术是切实可行的,有效解决了BP网络中因样本数据集过大难以展现的问题,有助于揭示训练样本中隐藏的关系,规律以及模式,结合BP网络模型,全面观察BP网络的所有信息细节,对于更好地理解和分析BP网络具有重要的意义,弥补了BP网络的一项不足.参考文献:[1]牟振华,李美玲,赵庆双.基于神经网络的山东省机动车保有量预测[J].山东建筑大学,2009,24(3):229—232.[2]侣同光,宋华平,刘加云.人工神经网络在绿色建筑评估中的2010钲应用[J].山东建筑大学,2008,23(4):355—360.[3]GeorgiaJF.Gettingthere:thetentopproblemsleft[J].IEEE ComputerGraphicsandApplications,2000,20(1):66—68. WegmanE.Hyperdimensionaldataanalysisusingparallelcoardi—nares[J].JournaloftheAmericanStatisticalAssociation.1990.411(85):1—11.InselbergA.Theplanewithparallelcoordinates[J].TheVisual Computer,1985,1(2):69—91.McDonnellKT,MuellerK.Illustrativeparallelcoordinates[J]. Eurographics/IEEE—VGTCSymposiumonVisualization,2008,27 (3):1—8.蒋晓敏,马宗正,许伯彦.进气管内LPG喷雾的可视化试验和数值模拟[J].山东建筑大学,2008,23(2):138—140.周定照,柳进,罗强,等.可视化技术在石油行业的应用[J].石油工业计算机应用,2010,65(I):2—5.]1J]1J1J。
篮球比赛中的比赛数据分析研究

篮球比赛中的比赛数据分析研究篮球是一项全面而具有技术性的运动项目,运动员们通过各种手段向对手施加巨大的压力,从而在比赛中获得胜利。
为了帮助球队更好地了解球员在比赛中的表现,现代篮球比赛中使用了各种各样的技术手段来收集和分析比赛数据,从而帮助教练和球员制定更有效的战术方案。
本文将从比赛数据采集、数据分析、数据可视化和数据应用四个方面,对篮球比赛中的比赛数据分析研究进行探讨。
一、比赛数据采集在现代比赛中,各种设备的使用使得比赛数据采集更加方便快捷。
比赛数据的收集可以用于包括场上队员位置、得分、篮板、助攻、抢断、盖帽、失误等多个方面。
这些数据可以通过摄像头、计算机视觉和深度学习等技术进行分析。
最常用的数据收集设备是摄像头,球场各角落都会设有摄像头进行高清录制。
通过摄像头记录视频,人们可以在视频上进行矢量化和轨迹跟踪,从而获取球员位置等信息。
使用计算机视觉技术,可以快速准确地对比赛视频进行处理。
计算机视觉技术通常采用模式匹配和物体识别等算法实现对比赛场景的分析,能够快速有效地提供比赛数据。
二、比赛数据分析经过数据采集后,需要对数据进行深入分析,发现其中的关键信息,为球队制定更好的战术方案提供基础数据。
篮球比赛中最常见的数据指标是得分、篮板球、助攻、抢断和盖帽等。
数据分析可以通过计算和描述统计学方法来进行,以此为参考制定下一场比赛的战术。
在得分方面,采用的指标通常是平均得分和进攻效率。
平均得分是指一个球员每场比赛得分的平均值;进攻效率是指由一个球员发起的进攻得分。
这些指标可以帮助教练了解哪些球员能够贡献更多进攻端攻击力。
在篮板球方面,常用的指标是篮板球率和进攻篮板球率。
篮板球率通常以每个球队的篮板球数除以比赛总共争夺的篮板球来计算,并表示成一百分比。
进攻篮板球率是指一个球队在进攻端的篮板球数量除以进攻篮板球的机会数。
这些指标可以帮助教练了解哪些球员更擅长篮板球争夺。
在助攻方面,通常采用平均助攻和助攻率来衡量一个球员对于进攻端的贡献。
基于平行坐标的关联规则挖掘技术可视化研究与实现

Abs r c Viu ldaa mi i g i o o i n t e fed ofd t i i g. ta t s a t n n sa h tt p c i h il a am n n Thi a e e e t n a v nc d sp p rpr s n sa d a e
m a, ar , a n d e , a nd e t foe m a, e t d i c n e vg cn e m a, rzn e l y
因此 将平 行 坐标 技 术 与 数 据 挖 掘算 法 结 合 , 于 用 解决 具体 的数 据 挖 掘 任 务 意 义 重 大 。3 文 提 出 _本 改 进方 法 , 方法 与传 统 的平 行 坐 标技 术 的 主要 该 区别在 于 , 文 所 提 出 的 方法 用 于解 决 具 体 的 关 本 联规则 挖掘 问题 。在表现形 式上 , 统 的平行坐 标 传 技 术 以 条平 行 轴之 间的 1条折 线 来表 示 1 数 条 据记录 , 各轴 间的线段数 目相等 , 线段 粗细相 同 ; 且 而本文所提 出的方法 , 间的线 段数 目不等且 粗 各轴 细不 同 , 所代表 的意义也 区别于传统 的平行坐标 。
表 1 示例 五维数 据 集
2 基 于 平 行 坐 标 的 关 联 规 则 挖 掘 过 程可 视 化 的 方 法 研 究
本文 提 出了一 种基 于平 行坐 标 的频繁 项集 可 视 化方法 , 该方 法 是对 平行 坐标方 法 的改 进 , 据 根
关联规则挖掘算法 的原理 , 以平行坐标 的每条 坐 标轴表示对数据库 的 1 次扫描 , 轴上均匀分 布的
p r l lc o di ae e h i ue t iu l e t epr c s fa s c ai n r l ni r c s O a o s v h n a a l o r n t st c n q o v s ai h o e so so ito u e m ng p o e sS st ole t e i — e z i
统计学中的数据可视化方法

统计学中的数据可视化方法数据可视化是统计学中一种重要的方法,它通过图表、图形等形式将数据转化为可视的形式,以便更直观地理解数据的特征和趋势。
在当今大数据时代,数据可视化的应用越来越广泛。
本文将介绍统计学中常用的数据可视化方法,包括条形图、折线图、饼图、散点图和箱线图。
1. 条形图条形图是一种常用的数据可视化方法,它适用于展示分类变量之间的数量关系和比较不同类别的数量。
条形图通常由横轴和纵轴构成,横轴表示类别,纵轴表示数量。
通过条形的高度可以直观地比较不同类别的数量大小。
例如,可以使用条形图来展示不同城市的人口数量或者不同产品的销售额。
2. 折线图折线图是一种用连续的折线表示数据变化趋势的方法,适用于展示随时间、空间或其他连续变量而变化的数据。
折线图由横轴和纵轴构成,横轴表示时间或其他变量,纵轴表示数量或百分比。
通过折线的形状和走势可以分析数据的增长、下降、波动等情况。
例如,可以使用折线图展示一年内某个城市的温度变化。
3. 饼图饼图是一种用扇形的面积表示数据比例的方法,适用于展示分类变量的比例关系。
饼图通常由一个圆和若干个扇形构成,每个扇形的面积表示该类别占总体的比例。
饼图可以直观地展示每个类别的重要性和占比。
例如,可以使用饼图展示一份调查结果中不同年龄段的人口比例。
4. 散点图散点图是一种用坐标点表示两个变量之间关系的方法,适用于展示两个连续变量之间的相关性。
散点图由横轴和纵轴构成,横轴表示一个变量,纵轴表示另一个变量。
通过坐标点的分布情况可以观察到两个变量之间的相关性。
例如,可以使用散点图展示一组学生的数学成绩和语文成绩之间的关系。
5. 箱线图箱线图是一种用箱体和线段表示数据分布情况的方法,适用于展示多组数据的中位数、最大值、最小值、上下四分位数等统计信息。
箱线图由一条横轴和一个或多个箱体构成,箱体表示数据的四分位数范围,线段表示数据的最大值和最小值。
箱线图可以直观地比较不同组数据的中位数和离散程度。
基于平行坐标的多维数据交互可视化方法——以日晷晷影位置数据为例

基于平行坐标的多维数据交互可视化方法——以日晷晷影位
置数据为例
谢妮;雷德龙
【期刊名称】《福建电脑》
【年(卷),期】2013(029)011
【摘要】本文基于平行坐标法对整点时刻的日晷晷影位置数据开展多维交互可视化分析,综合运用平行坐标、散点图、数据表格等可视化方法辅助解释或挖掘隐藏在整点时刻日晷晷影位置数据内部的模式、特征和规律.应用结果表明,平行坐标法对具有多维特征的整点时刻的日晷晷影位置数据具有良好的交互可视效果,对日晷建造过程中日晷晷影位置的合理确定有一定的辅助作用.
【总页数】4页(P11-14)
【作者】谢妮;雷德龙
【作者单位】福州大学福建省空间信息工程研究中心空间数据挖掘与信息共享教育部重点实验室福建福州350002;福州大学福建省空间信息工程研究中心空间数据挖掘与信息共享教育部重点实验室福建福州350002
【正文语种】中文
【相关文献】
1.基于平行坐标的多维复杂数据可视化方法研究 [J], 刘荷花;贾进文;史忠森;张泽春
2.一种基于平行坐标系的流转数据可视化方法 [J], 张元鸣;高亚琳;蒋建波;陆佳炜;
徐俊;肖刚
3.基于VaR技术的多维数据交互可视化研究 [J], 陈式座;樊明辉;关玉梅
4.基于平行坐标的可视化多维数据挖掘的研究 [J], 路燕梅
5.基于数据相似度的多维海洋数据交互式集成可视化 [J], 聂俊岚;陈贺敏;张继凯;郭栋梁
因版权原因,仅展示原文概要,查看原文内容请购买。
基于平行坐标技术的关联规则可视化模型

nq e .Thsp p rds u sst emo e a d meh d fvs a so it n b sd o h aall o r i iu s i a e i se h d l n t o so i l s ca i a n t ep rl c u a o e e c d
Ab ta t Viu l a in i a o tn ato aa miig sr c : s ai t s n i ra tp r fd t nn .W ec n u d rtn h eut ai n z o mp a n esa d t ers l esl a d s y ice s rdbl yo h m . P r l lc od n ts tc nq e i t e o eo mp ra tvs ai t n tc — n ra ece ii t ft e i aal o r iae e h iu s h n fi o tn iu l i eh e a z o
Z ANG H W . HU J n u
(co l f o ue n nomai eh o g , e i i tn ie i , e i 0 0 4 C ia Sho mp tr dIf oC a r t n Fe nl y B in J oogUn r t B in 10 4 , hn ) o o jg a v sy jg
n t eh iu .Fial ,i c mp rswiho h rc re ttc nq e fvs a so it n n ss o a etc nq e nl y t o ae t t e u r n eh iu so iu l s cai ,a d i h ws a o
术 在数据 挖 掘可视 化 中 的应 用 也就 不 同 .可视 化技
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
燕山大学学报 Journal of Yanshan University
Vol. 32 No. 5 Sept. 2008
点得分平行坐标可视化分析方法
徐永红 1,洪文学 1
(1. 燕山大学 电气工程学院,河北 秦皇岛 066004) 摘 要:提出了一种多元数据的点得分平行坐标表示及可视化分析方法。该方法利用简单贝叶斯公式计算各属
图 2 肝功能异常数据集的平行坐标
=
=1
log
> Then
Fig. 2 Parallel coordinates of the liver disorders data set
1
从图 2 的平行坐标中可以看出该数据集的可 log < Then
2
IF
1
=
=1
(10)
分性较差。两类样本混杂在一起,很难发现有用的 规则和知识。 2.3 肝功数据的点得分平行坐标 肝功能异常数据集中的数据按照第 7 个变量 被分成了两类, 一类表示肝功能异常,另一类表示 肝功能正常,现在构建点得分平行坐标, 并根据其 进行数据的可视化分类。 首先将数据各变量值域分
性值或属性值区间的频数和点得分,最后根据构建的点得分平行坐标即可进行数据集的可视化分析和未知样本 的分类。将该方法应用到一个肝功异常数据集的结果表明,利用该图表示可以有力地揭示数据内在结构和发现 知识,从而特别适合应用到疾病诊断等数据分析领域。 关键词:多元数据;平行坐标;简单贝叶斯;点得分 中图分类号:TP391 文献标识码:A
(7,17) (2,5)
(63,99) (31,35) (73,112) (13,24) (33,80) (9,16) (106,155) (64,64) (128,166) (90,100)
利用简单贝叶斯公式对表 1 的数据进行处理, 求出肝功能数据各变量值的点得分如表 2 所示。
表 2 肝功能数据点得分表 Tab. 2 Point scores of the liver disorder dataset
1 5 4 3 2 1 2 3 4 5 6
(17,23) (5,4)
(0,3)
(0,4) (1,3)
(0,1) (2,4)
(4,0) (2,3) (16,17)
(102,103) (18,21) (1,1) (25,61) (50,60) (7,6) (1,2) (0,1)
图 3 各变量值的点得分平行坐标 Fig. 3 Point scores parallel coordinates of various attributes level
1
,
=
1
,
2
,
,
1
(1)
间的一一对应关系。简而言之,建立了一个映射 2 (即 的子集被映射到 2的子集) 。 假设给出一个七维的数据点 0, 3, 2, 0, 3, 5, 若假定满足简单贝叶斯条件, 即各属性变量相 互独立,则
1 2
=
1
,
2
,
,
2
(2)
2 ,其平行坐标表示如图 1 所
1 5 4 3 2 1 2 3 4 5 6
根据图 3 所示结果可知, 变量 6 (每天饮酒量) 当级为 5(很高)的时候对肝功能异常呈现很大的 正贡献。 变量 4 的级别为 5 时对肝功能异常呈现很 大的负贡献。 当变量 3 级别为中等时对肝功能异常 呈现较大的正贡献。 根据不同属性等级对类别的点 得分(贡献度) ,可以观察属性变量变化对分类结 果的影响。例如对于变量 2,随着变量值的增大, 对肝功异常的贡献增加。 根据图 3 还可以观察同一 等级而不同属性时,对分类贡献的变化趋势。例如 对于级别 5,在属性 1、2 以及 6 上偏上,而对于 中间的属性 3 和 4,其贡献呈下降趋势。另外一个 有趣的是根据该数据集可以发现变量 6 的级别 2 (较低)对肝功能异常有较大负贡献, 而级别 1(很 低)对肝功能异常贡献居中。 说明适量饮酒对肝功 能没有不良影响,反而有益。 根据图 3 绘制的点得分平行坐标可以对未知 样本进行分类。 对于一个待分样本,若其属性向量 离散化为 ( 3,
0 引言
多元可视化是可视化技术的一个分支。 简要地 说,它就是利用各种图形方法来表达多元数据, 以 增强人对多元数据的认知 [1]。多元可视化技术最近 出现了一些值得注意的发展趋势, 它正在经历从数 据可视化、 结果可视化到数据挖掘与知识发现过程 可视化的转变 [2-3]。最近,国外学者提出了可视化 分析学的概念 [4],强调可视化的任务不仅仅是关注 数据,更应该服务于数据分析和知识获取,并建议 将其应用于国家安全和环境监测等重要领域。 目前 大多数的分类系统并没有与可视化技术集成, 人的 模式识别能力和领域知识很少得到利用, 但最近已 经出现更多地关注这种反馈机制的趋势。Ankerst 等提出了一种基于圆扇形(circle segments)可视 化技术的交互式决策树构建方法 [5]。他们在文献 [6] 中认为分类过程中更多的用户参与有助于:1) 在数据可视化的帮助下, 人发现有用模式的能力可 以得到很大提高;2)用户对分类过程的亲身体验 有助于增加对发现的模式的信任度;3)通过集成 领域知识而改进算法。 注意分类可视化并不仅仅是 分类结果的可视化, 关键的思想是用户可以操纵分 类过程,并从数据中发现知识。近几年国际上陆续 提出了几种可视化分类技术。除了 Ankerst 等人的 感知分类 (Perception Based Classification)[5],其
其中, 为待分样本, 为权系数,而 为判别点的 值。权系数可以简单地设置为等权, 或者根据专家 先验知识进行设置,以反映不同属性值的重要程 度。当然, 和 也可以通过 Fisher 线性判别算法 确定或者通过交叉验证选择。
第5期
徐永红 等 点得分平行坐标可视化分析方法
443
成 5 个等级,分别为 5、 4、 3、 2、 1,表示很 高、较高、中等、低、很低。然后计算各变量值在 各等级的频数,如表 1 所示。其中 1 ,
(9)
442
燕山大学学报
2008
所以将点得分与类概率相联系的是一个函数 关系
1
=
1
。 根据属性值点得分之和
2
肝功异常数据的可视化分析
下面将前面提出的点得分可视化分析方法应
就可以进行分类。 1.3 点得分平行坐标 根据简单贝叶斯分类原理, 利用求取的点得分 构建平行坐标图,可以概括原始数据的内在结构, 从而有利于模式识别规则建立和知识发现。 点得分 平行坐标的绘制步骤如下: 1)数据属性变量离散化。将连续属性变量离 散化为多个区间或者等级。 一般在区性变量的最大 值和最小值间采用等间隔或者等样本数划分区间; 2)计算属性变量各类训练样本在各等级的出 现次数(频数) ; 3)根据频数计算各属性值等级的点得分。 根据各属性值等级的点得分绘制平行坐标。 用 条平行轴表示 个属性,每个属性等级用穿过 条 平行轴的一条折线表示, 折线与平行轴的交点的纵 坐标对应属性值等级的点得分。 用不同颜色、线条 粗细、线条形状等区分不同的等级。 1.4 可视化分类 根据绘制的点得分平行坐标, 可以分析原始数 据集的模式特征。 根据不同属性等级对类别的点得 分(贡献度) ,可以观察属性变量变化对分类结果 的影响, 而且可以观察同一等级而不同属性时对分 类贡献的变化趋势。将待分类样本的 个属性等级 用点得分平行坐标中的 个点表示, 根据这 个点的 点得分,然后直接求和或者加权求和即可进行分 类。分类规则为: IF
=log
1 2
=log
+ log
=1
1 2
定义优势比(Odds Ratios)
1
=
1 2
=
2 1 2
(7)
表示的是第 个属性变量 对分类的贡献。 定义log 于是 log 定义 可得
1 1
=log
为点得分。
=log = log
=1
1
+ log
=1
(8)
1
,并称为点得分和。
= 1+e
log
1
/1
1
1
1
2
,
,
6
表
示数据的 6 个变量。 括号内整数分别表示属于两个 类别的样本数目。例如( 5, 6 )= 4, 0 ,表示当 6 很高时,肝功能异常者有 4 人, 而肝功能正常者为 0 人。
表 1 肝功能数据频数表 Tab. 1 Frequency numbers of the liver disorder dataset
=1
1
(3)
1
,
2
,
,
2
=
=1
2
(4)
定义优势 (Odds): =
1 2
(5)
并定义对数优势 ( log Odds):
图 1 七维数据点的平行坐标图 Fig. 1 Parallel coordinates of a 7-dimension point
log 则 log
1
=log
1
(6)
同理,若给出一个 维的数据点的坐标,用以 上方法可同样表示出该高维数据点的平行坐标图。 平行坐标图可以表示超高维数据。 平行坐标的一个 显著优点是具有良好的数学基础。 笛卡尔系统和平 行坐标系统间存在对偶性。 笛卡尔系统和平行坐标 系统间的点线对应是这两种系统间的基本对偶性。 笛卡尔系统和平行坐标系统平移和旋转间的对偶 性是其另一个基本特征。 平行坐标的对偶特性和投 影几何解释使它很适合用于可视化数据分析。 1.2 简单贝叶斯算法 简单贝叶斯算法指的是假设样本的各个属性 变量间相互独立, 从而将多个变量的联合概率密度 计算简化为计算单个变量概率密度之积。 利用对数 运算可以进一步简化为求取各变量对数概率密度 之和。 国内外有关文献以及实际的数据实验结果表 明, 简单贝叶斯算法不仅具有很好的分类精度以及 鲁棒性, 而且容易分析各属性变量对分类结果的不 同影响程度。 假定一个两类别分类问题, 包含两个类别 1和