箱线图(数据分布)分析

箱线图(数据分布)分析
箱线图(数据分布)分析

Excel-箱线图(数据分布)分析

标签:excel数据分析六西格玛箱线图数据分布

2014-01-18 11:13 25396人阅读评论(0) 收藏举报

分类:

Excel(14)网站分析(9)

版权声明:本文为博主原创文章,未经博主允许不得转载。

目录()[+]本文摘自作者《网站数据分析:数据驱动的网站管理、优化和运营》:箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。

1.什么是四分位数

箱线图需要用到统计学的四分位数(Quartile)的概念,所谓四分位数,就是把组中所有数据由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。

第一四分位数(Q1),又称“较小四分位数”或“下四分位数”,等于该

样本中所有数值由小到大排列后第25%的数字。

第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第

50%的数字。

第三四分位数(Q3),又称“较大四分位数”或“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位间距(InterQuartile Range,

IQR)。

计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):

Q1的位置=(n+1)/4

Q2的位置=(n+1)/2

Q3的位置=3(n+1)/4

对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:

Q1的位置=(11+1)/4=3,该位置的数字是15。

Q2的位置=(11+1)/2=6,该位置的数字是40。

Q3的位置=3(11+1)/4=9,该位置的数字是45。

而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:

Q1的位置=(6+1)/4=

Q2的位置=(6+1)/2=

Q3的位置=3(6+1)/4=

这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-38)×的小数部分,即38+1×=。该结果实际上是38和39的平均数。

同理,Q1、Q3的计算结果如下:

Q1 = 8+(17-8)×=

Q3 = 42+(44-42)×=

Excel为计算四分位数提供了QUARTILE(array,quart)函数,其中array参数用于指定要计算四分位数值的数组或数值型单元格区域,quart指定返回哪一个四分位值,可用值如下:

0,返回最小值;

1,返回第一个四分位数;

2,返回第二个四分位数,即中位数;

3,返回第三个四分位数;

4,返回最大值。

2.箱线图的结构

箱线图包括一个矩形箱体和上下两条竖线,箱体表示数据的集中范围,上下两条竖线分别表示数据向上和向下的延伸范围,结构如图9-51所示。

图9-51箱线图的结构

四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。则整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。

Whisker上限是延伸至距框顶部倍框高范围内的最大数据点,Whisker下限是延伸至距框底部倍框高范围内的最小数据点,超出Whisker上限或下限的数值将使用星号“*”表示。但是,在Excel中绘制箱线图需要借助股价图来实现,因此无法展现异常值,Whisker上限将延伸至数据最大值的位置,Whisker下限将延伸至数据最小值的位置。

3.绘制箱线图

图9-52中的A2:F8区域和H2:M8区域分别是华北和华南是某段时间客户订单收货天数的统计结果,C11:C15和J11:J15是利用QUARTILE函数计算的华北、华南收货天数的四分位数结果。

图9-52收货天数的四分位数计算结果

在Excel中绘制箱线图需要借助股价图的“开盘-盘高-盘底-收盘”图来实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1、Q0、Q2、Q4。下面是绘图步骤:

准备图表数据。根据对应关系,在表格的B18:E18区域分别输入华北客户的Q1、Q0、Q2、Q4统计数字,将Q3输入到最后的F18单元格中,在A18中输入一个日期型数据(注意,必须为日期型),如

“2013/1/1”。然后在第19行中输入华南客户的数据,A19中的日期递增1天,最终结果如图9-53所示。

图9-53准备图表数据

插入图表。选定A18:E19区域,在“插入”功能区的“图表”模块中单击“其他图表”,选择股价图部分的“开盘-盘高-盘底-收盘图”按钮,即可看到绘制的股价图,如图9-54所示。

图9-54插入股价图

添加Q3数据系列。由图9-54可以看出,四分位间距框的顶部线条使用的是Q4(最大值)位置,而是不是箱线图要求的Q3位置。右击绘图

区,在弹出的快捷菜单中选择“选择数据”命令,打开“选择数据源”

对话框。单击“添加”按钮打开“编辑数据系列”对话框,在“系列名称”折叠框中输入“Q3”,在系列值折叠框中选择F18:F19区域,单击

“确定”按钮即可看到股价图变成了箱线图,如图9-55所示。四分位间距框的高度小了很多,单击顶部线条与Whisker上限交汇处,可以看到

使用的是Q3数据。

图9-55 添加Q3数据系列

显示中位数线。至此,四分位间距框虽然已经绘制正确了,但是还缺少中位数线,即Q2。选择图例中的“系列3”标签,然后单击鼠标右键,在弹出的快捷菜单中选择“设置数据系列格式”命令,打开“设置数据系列格式”对话框。在“数据标记选项”中将标记类型设置为内置的“-”形状,单击“关闭”按钮即可看到中位线显示了出来,如图9-56所

示。

图9-56显示中位数线

美化图表。首先要修改分类轴(横轴)标签,由于插入股价图时的限制在A18和A19单元格中输入了日期型数据,但是在图表插入后,可以将

其修改为其他数据类型的值,因此在A18和A19单元格分别输入“华

北”、“华南”。其次是删除图例栏,对于箱线图而言这并不需要。最后,可以为图表添加一个标题。最终美化后结果如图9-57所示。

图9-57美化后的图表

由图9-57可以看出,华北和华南客户的中位数位置、四分位间距框的位置与高度基本相同,说明两区域的客户收货天数基本相同。但是,从Whisker上限和Whisker下限看,华南客户的收货天数范围小于华北客户,说明流程更加稳定。

全球各国疫情大数据分析

全球:疫情控制曙光初现 2020年已经过去了三分之一,我们所有人见证了一段历史,并还在见证着 “新冠病毒”这一自然界飞来的“黑天鹅”的肆虐全球。 所幸,在全人类的共同努力下,我们似乎已经看到了获取最终胜利的曙光,虽然每天的确诊病例数和各种其他负面的数字仍然在往上跳动,但是从各个国 家每日确诊病例的变化率来看,最坏的时刻或许正在过去。 图表1:绝大多数国家及地区确诊数变化率已显著下降 来源:ECDC,国金证券研究所创新数据中心。纵轴处全球外,自下而上按照累计确诊数字由高到低排列。 从数据看,大多数欧洲国家已经基本得到控制,最近呈现出较快增长趋势 的国家主要为俄罗斯、巴西、秘鲁、印度、沙特阿拉伯、墨西哥,等。 美国作为确诊数最多的国家,疫情基本传播到了全国所有的州(state)、 郡(county)、市(city),和特区,严重程度也创造了历史。 几个月来,市场上最关注的点依然还是疫情对经济的影响程度,没有欧美 等主要经济体的恢复正常,经济就始终还是处于极大的不确定性中,而仅就疫 情的发展情况看,曙光已经开始显现。

图表2:美国疫情分布(按郡和市) 来源:美国各州公开数据整理,国金证券研究所创新数据中心。确诊数经指数化处理。 全球:人的活动开始逐渐恢复 我们参照跟踪国内复工复产数据的方式,通过过去一段时间的数据收集与 整理,编制了一系列反应人的活动的指数,主要为两类: 1、出行指数,日频:基于大数据技术和人工智能算法,对各类公开数据 进行收集、整理、建模,编制了全球主要国家及地区的出行指数,且 横向纵向可比; 2、各类场所人流强度指数,日频:同样基于算法模型,对公开数据整理 建模后得到的不同类别场所的人流强度指数,主要包括居家、零售、 公园、办公区域等场所。 在肆虐的病毒面前,最终所有国家及地区都采用了唯一可行的办法:封锁。 也因此,当把所有国家及地区的出行指数放在同一张热力图中对比时,清晰的 冰火两重天的分割线基本发生在三月上旬。 四月底的最后一到两周,以欧洲主要国家为代表,多地的出行指数环比都 开始出现回升。

常见GIS地图数据分类及来源

常见GIS地图数据分类及来源 要明白地图的数据分类和来源,必须先理解一个概念,就是地图图层的概念,如下图,电子地图对我们实际空间的表达,事实上是通过不同的图层去描述,然后通过图层叠加显示来进行表达的过程。对于我们地图应用目标的不同,叠加的图层也是不同的,用以展示我们针对目标所需要信息内容。 引入一下矢量模型和栅格模型的概念,GIS(电子地图)采用两种不同的数学模型来对现实世界进行模拟: ?矢量模型:同多X,Y(或者X,Y,Z)坐标,把自然界的地物通过点,线,面的方式进行表达 ?栅格模型(瓦片模型):用方格来模拟实体

我们目前在互联网公开服务中,或者绝大多数手机APP里看到的,都是基于栅格(瓦片)模型的地图服务,比如大家看到的百度地图或者谷歌地图,其实对于某一块地方的描述,都是通过10多层乃是20多层不同分辨率的图片所组成,当用户进行缩放时,根据缩放的级数,选择不同分辨率的瓦片图拼接成一幅完整的地图(由于一般公开服务,瓦片图都是从服务器上下载的,当网速慢的时候,用户其实能够亲眼看到这种不同分辨率图片的切换和拼接的过程) 对于矢量模型的电子地图来说,由于所有的数据以矢量的方式存放管理,事实上图层是一个比较淡薄的概念,因为任何地图元素和数据都可以根据需要自由分类组成,或者划分成不同的图层。各种图层之间关系可以很复杂,例如可以将所有的道路数据做成一个图层,也可以将主干道做成一个图层,支路做成另外一个图层。图层中数据归类和组合比较自由。 而对于栅格模型(瓦片图)来看,图层的概念就很重要的,由于图层是生成制作出来,每个图层内包含的元素相对是固化的,因此要引入一个底图的概念。也就是说,这是一个包含了最基本,最常用的地图数据元素的图层,例如:道路,河流,桥梁,绿地,甚至有些底图会包含建筑物或者其他地物的轮廓。在底图的基础上,可以叠加各种我们需要的图层,以满足应用的需要,例如:道路堵车状况的图层,卫星图,POI图层等等。 底图通常是通过选取必要地图矢量数据项,然后通过地图美工的工作,设定颜色,字体,显示方式,显示规则等等,然后渲染得到了(通常会渲染出一整套不同分辨率的瓦片地图) 当然,即便在瓦片图的服务中,在瓦片底图之上,依然能够覆盖一些简单的矢量图层,例如道路走向(导航和线路规划必用),POI点图层(找个饭馆加油站之类的)。只不过瓦片引擎无法对所有地图数据构建在同一个空间数据引擎之中,比较难以进行复杂的地图分析和地图处理。 那么既然瓦片图引擎有那么多的限制和缺陷,为什么不都直接使用矢量引擎呢?因为瓦片图引擎有着重大的优势: 1. 能够负载起大规模并发用户,矢量引擎要耗费大量的服务器运算资源(因为有完整的空间数据引擎),哪怕只是几十上百的并发用户,都需要极其夸张的服务器运算能力了。矢量引擎是无法满足公众互联网服务的要求的。 2. 由于地图美工介入的渲染工作,瓦片图可以做得非常好看漂亮和易读,比较适合普通用户的浏览 附:一张矢量地图截图:

百度地图所用数据分析.(DOC)

鉴于在一些答案中评论区中的讨论,由于不能上图,我还是来写一下这个答案罢。 这个问题比较复杂,要真尽量说清楚的话需要费不少口舌,因此答案会比较长,请看官不妨耐心点。 要说数据来源,首先得对地图数据做一个分类,因为不同分类的数据,其来源,采集方法都是有大不同的。 并非想说上面高票答案的分类方式不对或者不可以,只是说,其分类方式对于完全说明这个问题,可能不是太合适和合理。里面的一些观点和描述也有一些小问题,所以做一些勘误和对问题更有针对性的补充,希望大家不要被一些谬误的概念所误导。 要明白地图的数据分类,必须先理解一个概念,就是地图图层的概念: 如上图,电子地图对我们实际空间的表达,事实上是通过不同的图层去描述,然后通过图层叠加显示来进行表达的过程。 对于我们地图应用目标的不同,叠加的图层也是不同的,用以展示我们针对目标所需要信息内容。 其次呢,我引入一下矢量模型和栅格模型的概念,GIS(电子地图)采用两种不同的数学模型来对现实世界进行模拟: 矢量模型:同多X,Y(或者X,Y,Z)坐标,把自然界的地物通过点,线,面的方式进行表达

栅格模型(瓦片模型):用方格来模拟实体 我们目前在互联网公开服务中,或者绝大多数手机APP里看到的,都是基于栅格(瓦片)模型的地图服务,比如大家看到的百度地图或者谷歌地图,其实对于某一块地方的描述,都是通过10多层乃是20多层不同分辨率的图片所组成,当用户进行缩放时,根据缩放的级数,选择不同分辨率的瓦片图拼接成一幅完整的地图(由于一般公开服务,瓦片图都是从服务器上下载的,当网速慢的时候,用户其实能够亲眼看到这种不同分辨率图片的切换和拼接的过程) 对于矢量模型的电子地图来说,由于所有的数据以矢量的方式存放管理,事实上图层是一个比较淡薄的概念,因为任何地图元素和数据都可以根据需要自由分类组成,或者划分成不同的图层。各种图层之间关系可以很复杂,例如可以将所有的道路数据做成一个图层,也可以将主干道做成一个图层,支路做成另外一个图层。图层中数据归类和组合比较自由。 而对于栅格模型(瓦片图)来看,图层的概念就很重要的,由于图层是生成制作出来,每个图层内包含的元素相对是固化的,因此要引入一个底图的概念。也就是说,这是一个包含了最基本,最常用的地图数据元素的图层,例如:道路,河流,桥梁,绿地,甚至有些底图会包含建筑物或者其他地物的轮廓。在底图的基础上,可以叠加各种我们需要的图层,以满足应用的需要,例如:道路堵车状况的图层,卫星图,POI图层等等。 底图通常是通过选取必要地图矢量数据项,然后通过地图美工的工作,设定颜色,字体,显示方式,显示规则等等,然后渲染得到了(通常会渲染出一整套不同分辨率的瓦片地图) 当然,即便在瓦片图的服务中,在瓦片底图之上,依然能够覆盖一些简单的矢量图层,例如道路走向(导航和线路规划必用),POI点图层(找个饭馆加油站之类的)。只不过瓦片引擎无法对所有地图数据构建在同一个空间数据引擎之中,比较难以进行复杂的地图分析和地图处理。 那么既然瓦片图引擎有那么多的限制和缺陷,为什么不都直接使用矢量引擎呢?因为瓦片图引擎有着重大的优势: 1. 能够负载起大规模并发用户,矢量引擎要耗费大量的服务器运算资源(因为有完整的空间数据引擎),哪怕只是几十上百的并发用户,都需要极其夸张的服务器运算能力了。矢量引擎是无

大数据地图

Microsoft Azrue Marketplace Datamarket: 是一个全球在线市场,其中ISV 和数据发布者可以发布和销售Microsoft Azure 应用程序、服务、构建块组件和高级数据集。 作为Windows Azure Marketplace的一部分,DataMarket是一种服务,提供一个一致的市场,并作为云服务的高品质的信息传递渠道。内容合作伙伴可以发布收集到的数据到DataMarket上,以提高它的可发现性以及实现高可用性的全球覆盖。任何从数据库、图像文件、报告和实时输入的数据都是通过Internet标准相一致的方式提供的。用户可以轻松地发现、探索、订阅和使用来自信任的公共领域和优质商业供应商的数据。 更多关于DataMarket的资料,请参考MSDN上的DataMarket概述以及主页Windows Azure Marketplace DataMarket。 信息工作者(最终用户) 那些需要数据用于业务分析和决策的最终用户可以方便直接地在Microsoft Office应用程序里消费和使用这些数据。这些Microsoft Office应用程序例如Microsoft Excel和Microsoft BI 工具(PowerPivot 和SQL Server 报表服务)。使用者以新的方式汇集不同的数据集以获得在业务表现和过程上的新见解。下载Excel 2010的DataMarket插件。 开发人员 应用程序开发人员可以使用数据订阅源来创建富内容解决方案,在特定领域上为最终用户提供最新的相关信息。开发人员可以使用Visual Studio内置的支持来消费DataMarket上的数据源,也可以使用任何支持HTTP的Web开发工具。DataMarket为所有数据集都提供了一个一致的基于REST的OData 应用程序接口,开发人员可以方便容易地在任何平台上进行开发。 信息发布者 通过使用集成微软的信息工作者软件,DataMarket使你能够扩大你的市场。利用微软的云计算平台用于扩展、发行、报告和结算。使用DataMarket来降低开发新客户、维持长期客户和减少开发人员的费用 账户费:“开店费用—发布数据审批费用”。“收费项目的分层”。 Factual 开放位置数据库

利用Google_Earth数据制作地形图

利用Google Earth高程数据制作地形图在地灾危险性评价、土地复垦实施方案等项目中,平面布置图需要地形基本数据,考虑到投成本控制和设计精度要求,可以利用软件提取Google Earth高程数据生成地形等高线代替实地测量地形。 提取Google Earth高程数据原理:Google Earth上每一个点的属性包括地理坐标和高程,投影椭球参数采用WGS84地理坐标系。通过采样所求范围内的坐标点,用三角网剖分的方法自动生成等高线。所以生成等高线的精度跟采样点的间距紧密相关,采样距离越小精度越高。 利用Google Earth数据制作地形图主要分两个步骤:1.地理坐标和高程数据的提取;2.根据提取的数据制作地形图。 一、地理坐标和高程数据的提取 所用软件:Google Earth ,谷地地理信息系统(GoodyGIS)或谷歌地球高程数据采集工具(GetGECoords) 下面分别以GoodyGIS和GetGECoords为例讲解数据提取过程:(1)GoodyGIS提取过程 首先需要安装Google Earth和GoodyGIS,由于GoodyGIS专业版需要付费,先暂用试用版。 启动软件后界面如下:

1.点击菜单栏的定位搜索,输入需要定位的经纬度坐标,点击前往,再重复定位搜索下一个点坐标。一般情况下如需得到一个区域的高程数据,只需确定左上角和右下角两个点坐标。

2.点击菜单栏绘制图形,下拉菜单选择矩形,根据提示点击右键在两个对角点,绘制成一个矩形,矩形范围要包括两个目标点所构成的区域。 3.点击左边工具栏高程提取,下面选择对象单个对象(点线面)左键单击绘制的矩形,可看到左边工具栏对象名称、对象类型、可否提取,对象数目有了相应变化。

基于大数据的地理信息与位置在地图编制中的应用分析

基于大数据的地理信息与位置在地图编制中的应用分析 摘要随着科技以及信息技术的进步,促进大数据的发展,大数据为人们的生活带来了一种全新的信息交流及传递网路空间,其在实际应用中使得各类信息数据的应用价值被得到充分发挥,同时提升了地图编制水平。基于此,本文概述了大数据,阐述了地理信息与位置数据种类及其特点,对基于大数据的地理信息与位置在地图编制中应用进行了探讨分析,旨在提高地图编制水平。 关键词大数据;地理信息:位置;种类;特点;问题;地图编制;应用 地图编制可以对地理信息进行更加准确的描绘及收集,其可以为土地空间的规划及利用提供良好的基础条件。因此在实际中必须要保证地图编制的精准性,这样才能对地理空间信息进行更加精准的编制,从而对土地空间、大小、权属边界等进行明确。而目前地理信息与位置大数据可以为地图编制提供更加全面的信息数据资源,因此在实际中必须掌握地理信息与位置大数据的应用方法,从而提升地图编制的精确度。以下就基于大数据的地理信息与位置在地图编制中应用进行了探讨分析。 1 大数据的概述 大数据是指数据量大、数据类别复杂的数据集,这些数据集具有V olume(数据量大)、Velocity(数据处理速度快)、Variety(数据具有多样性)和Value(数据价值密度低)的4V特点。大数据无法用传统的数据库进行存储、管理和处理,其需要新的处理模式才能具有更强的决策力、洞察力和流程优化能力,以及海量、高增长率和多样化的信息资产。大数据时代的到来颠覆了学术界对传统数据的认知,同时也引起数据获取、存储、分析、挖掘以及可视化等技术的变革。在信息技术的支持和普及性应用背景下,大数据成为当今时代数据信息的主要发展方向。而大数据时代数据量大、数据种类多、数据处理速度快、数据价值密度低等特点,使其在应用过程中对社会各行各业的发展产生一定影响[1]。 2 地理信息与位置数据种类及其特点的分析 地理空间信息与位置大数据包括地理数据、轨迹数据、空间媒体数据等。其中地理数据可以分为地图数据、遥感数据、大地基准数据,其特点是体量大、较规则化、变化缓慢。遥感数据包括光学影像数据、雷达激光扫描数据等,其特点是数据量大,种类多,数据增长规律不同,数据更新频度不同,安全性要求高。大地基准数据包括时间基准数据、重力基准数据等。轨迹数据是通过GNSS、RFID 等测量手段以及网络签到等方法获得的用户活动数据,包括个人轨迹数据、群体的轨迹数据、交通轨迹数据、物流数据等。特点是数据体量大、信息碎片化、准确性低,可以用文本模式描述,有半结构化的轨迹数据,附带其他的用户信息和社会语义。空间媒体数据,包含空间位置与时间因标记的数字化文字图像图形、声音、视频影响和动画等媒体数据,主要来源于移动社交网络、微博、微信等新興互联网应用。特点是数据来源混杂、非结构化为主,数据异构性大,实时性非

初中世界地理必背知识点:世界地图

初中世界地理必背知识点:世界地图 地图的基本要素 地图的基本要素是比例尺;方向和图例。打开各种地图,尽管它们所表示的内容不同,却都具备方向、比例尺、图例和注记等要素.地图上的方向有不同的表示方式.有的地图用指向标指示方向,指向标箭头的指向一般为北向.使用这种地图,要根据指向标来确定方向。 比例尺定义 比例尺是表示图上一条线段的长度与地面相应线段的实际长度之比。公式为:比例尺=图上距离与实际距离的比。比例尺有三种表示方法:数字式比例尺、图示比例尺和文字比例尺。一般讲,大比例尺地图,内容详细,几何精度高,可用于图上测量。小比例尺地图,内容概括性强,不宜于进行图上测量。 比例尺的表示方法 用公式表示为:比例尺=图上距离/实际距离。比例尺通常有三种表示方法。 (1)数字式,用数字的比例式或分数式表示比例尺的大小。例如地图上1厘米代表实地距离500千米,可写成:1∶50,000,000或写成:1/50,000,000。 (2)线段式,在地图上画一条线段,并注明地图上1厘米所代表的实际距离。 (3)文字式,在地图上用文字直接写出地图上1厘米代表实地距离多少米,如:图上1厘米相当于地面距离500米,或五万分之一。 三种表示方法可以互换。必须化单位。

在绘制地图和其他平面图的时候,需要把实际距离按一定的比缩小(或扩大),再画在图纸上。这时,就要确定图上距离和相对应的实际距离的比。一幅图的图上距离和实际距离的比,叫做这幅图的比例尺。 比例尺公式:图上距离=实际距离×比例尺实际距离=图上距离÷比例尺比例尺=图上距离÷实际距离.(在比例尺计算中要注意单位间的换算) (1公里=1千米=1×1000米=1×100000厘米) 单位换算:图上用厘米,实地用千米,厘米换千米,去五个零;千米换厘米,在千的基础上再加两个零。 比例尺大小判断 判断方法 比例尺是个分数值,且分子是1,因此比例尺的大小,应根据分母的大小判断,分母越大,比例尺越小。 比例尺大小与地图内容详略、范围大小的关系 图例

莫言作品的世界影响地图_基于全球图书馆收藏数据的视角_何明星

莫言作品的世界影响地图 ——基于全球图书馆收藏数据的视角 文/何明星 莫言获得2012年诺贝尔文学奖,无疑是中国文 学出版的一件大事,对于中国出版走出去,更具有标志性的意义,此时认真研究莫言作品的世界影响因素,梳理其逐步获得广泛知名度的路径,对于推出更多的中国文学、艺术名家,对于中国出版走出去具有实实在在的借鉴意义。 图书馆的馆藏对于图书的文化影响、思想价值的衡量是严格的,也是检验出版机构知名度、知识生产能力等诸项要素最好的一个标尺。世界图书馆界通常采用某一学科划定若干个核心出版社的评价办法来采购图书,这个办法也被中国图书馆界所广泛采用。因此采用莫言中外文作品的全球图书馆收藏数据来衡量其世界影响力,是一个经得起推敲的评估标准。 目前能够提供全球图书馆收藏数据的OCLC (Online Computer Library Center,Inc),即联机计算机图书馆中心,属于覆盖范围相对较大的公益性组织之一,总部设在美国的俄亥俄州,成立于1967年。截至2011年年底,加盟图书馆数量已达23815家(公共图书馆5051家,大学图书馆4833家,中小学校图书馆8897家,各类政府图书馆1604家,职业学院、社区学院图书馆1074家,企业图书馆1296家,协会机构图书馆661家,其他图书馆297家),涉及全世界112个国家和地区,470多种语言。从图书馆国家分布来看,OCLC的数据还不能做到100%全部覆盖,但可以基本衡量出莫言作品在当今世界的影响范围。本文分别就莫言中外文作品的馆藏数量、出版时间、国家分布等数据给予分析,力争勾画出莫言作品的世界影响地图。 一、莫言作品英译本世界馆藏最多 本文根据OCLC提供的书目数据检索(检索时间为2012年8月11日至18日),再结合其他学者的研究,[1]发现莫言的中外文作品出版已有355种,其中中文作品超过了250种,外文品种超过了105种。目前比较确切的数字是法语27种, 越南语20种,英语17种,日语11种,韩语7种,德语7种,西班牙语、瑞典语各3种,意大利语5种,挪威语、波兰语各2种,希伯来语1种。 本文按照收藏图书馆数量在30家以上的品种进行筛选,这样在355种中共有64种符合条件。限于篇幅,本文只给出了前30种的明细,见表1。 由表1可以发现三个问题。 1.莫言英文版的作品馆藏量最多,意味着其影响力超过了其他品种。表中排名前7的均是英文版,分别是英文版《红高粱》《生死疲劳》《天堂蒜薹之歌》《丰乳肥臀》《酒国》《师傅越来越幽默》《红高粱家族》,收藏图书馆数量分别是644家、618家、504家、472家、398家、357家、265家,分别由企鹅集团和它所属美国维京出版社(New York: Viking)、美国纽约阿卡德出版社(New York: Arcade Pub.)出版,译者均是葛浩文。中文作品只有一本进入前8名,为作家出版社2006年出版的《生死疲劳》,收藏图书馆数量在146家。中国大陆的上海文艺出版社、春风文艺出版社、江苏文艺出版社、南海出版公司、中国工人出版社分列第10名、第16名、第24名、第25名、第28名,位列第23名的是作家出版社的另外一

相关文档
最新文档