分布式气象元数据同步系统的探索研究
省级气象科学数据共享系统设计与实现

省级气象科学数据共享系统设计与实现
杨青军
【期刊名称】《中国西部科技》
【年(卷),期】2008(007)007
【摘要】省级气象科学数据共事系统旨在气象资料共事,实现元数据的统一发布,数据分级管理,为用户提供基于Web的数据访问服务.本文阐述了该系统的设计与技术实现.
【总页数】2页(P27-28)
【作者】杨青军
【作者单位】电子科技大学,通信与信息工程学院,四川,成都,610054
【正文语种】中文
【中图分类】P4
【相关文献】
1.基于SOA架构建立气象科学数据共享系统方法研究 [J], 孙周军;何惠仪;徐美红;黄金灿
2.广西气象科学数据共享平台建设 [J], 李涛;王丽玫;张薇
3.陕西省级气象科学数据共享数据库设计与实现 [J], 夏巧利;陈高峰;邸永强;高宇
4.气象科学数据共享服务 [J], 董国平
5.气象科学数据共享助成青藏铁路圆满开通 [J],
因版权原因,仅展示原文概要,查看原文内容请购买。
分布式存储系统中元数据系统的研究与设计

Th s a c n sg f M DS i srb t d S o a e S se e Re e r h a d De i n o n Dit i u e t r g y t m
S n Zh u Jn l Ja g M i g u Li n u Yo g ・ o i gi in n h a・ u Ga g
mea a a s Ie , a y e p n ii t d S n td t ' r e x a sb l y a O o . ev s i n
Ke w r s y od :me dt,ir u d s rg yt L O jc- ae tr e t a ds i t t aess m,H, betB sd Soa a a tb e o e g
操 作吞 吐 量和 减 少 了元 数 据 服 务 器 之 间 元数 据 移 动 及 易扩展 等 特 性 。 关键词 元数据 分 布 式存 储 系统 L z y r ay H b d 对 象存 储 i
文 章 编号 1 0 — 3 1 ( 0 6 2 - 1 5 3 文 献标 识 码 A 0 2 8 3 一 2 0 )0 0 0 - 0 中图分类号 T 33 F 9
摘 要 在 分 布 式 存储 系统 中 , 元数 据 服 务 系统 是 一 个 潜在 的访 问瓶 颈 。 章 提 出 了一 种基 于分 布 式 哈 希 函数 和共 享存 文
储 器 思 想 的 元数 据 服 务 器 系 统 , 且 与 Lz y r (H) 法进 行 了对 比研 究 , 过 仿 真 测 试 表 明其 具 有 较 高 的 元 数 据 并 ay H b d L 方 i 通
( e at n fC m ue ce c , ah n nv r t o c n e ad T c n l y Wu a 3 0 4 D pr meto o p t S i e Huzo g U ies y fS i c n eh oo , h n 4 0 7 ) r n i e g ( eat n o o p trS in eWu a nvri fS in ea d E gn eig Wu a 3 0 3 D pr me t fC m ue c c , hn U iesy o ce c n n ier , h n 4 0 7 ) e t n
[doc]NASA地球科学数据分布式数据存档中心的数据和数据管理
![[doc]NASA地球科学数据分布式数据存档中心的数据和数据管理](https://img.taocdn.com/s3/m/b22934a8970590c69ec3d5bbfd0a79563c1ed44b.png)
NASA地球科学数据分布式数据存档中心的数据和数据管理气象科技合作动态2009年第1期NASA地球科学数据分布式数据存档中心的数据和数据管理国家气象信息中心王曼燕臧海佳邓莉地球观测系统EOS(EarthOb—servingSystem)是美国航空航天局(NASA)制定的一项综合性地球观测计划,是以增进对全球变化的认识,预测地球系统变迁为科学目的,对陆地,海洋,大气层,冰雪圈以及生物之间的相互作用进行系统化的综合观测.这个”星一地”一体计划包括EOS科学研究计划,EOS空间系统,EOS地面系统3个方面,NASA地球观测系统数据信息系统EOSDIS(DataandInfor~mationSystem)属于EOS地面系统范畴,主要负责地球科学数据存档,产品制作和分发.EOSDIS的设计宗旨是有利于EOS研究机构对EOS资料的充分利用,向用户长期提供可信度高的观测资料,通过NASA的9个下属的分布式数据存档中心实现数据共享. EOSDIS一方面对观测平台进行操作指控,并以提供科学运算,计算机网络设备来支持EOS的科学研究活动,另一方面进行数据的获取,保存,处理,分发,负责信息管理,网络建设,算法交换和产品发布等.EOSDIS同时也是NASA地球科学事业ESE(Earth ScienceEnterprise)的主要数据系统, 2006年5月的统计数据表明,NASA ESE已存有超过4.9PB(1PB一1024 TB)的各类数据,包括9个航天器及外场试验中的22个仪器观’?贝0数据,产品类型多达1786个,每天新增4.5TB的数据,每天分发2.5TB数据给各类用户.科学数据与科学研究的结合是科学数据发展的动力.我国2001年由国家科技部组织开展地球科学和生命科学等领域的科学数据共享工作,近年取得丰硕成果_2的同时仍然存在缺乏国家层次的宏观管理与协调,缺乏经费支持渠道,缺乏有效的科学数据处理加工和共享技术平台,大量科学数据资源未发挥应有作用等问题_3]. 从美国全球变化数据共享的经历,可以得到我国公益性科学数据共享决策的启示_4J:美国对国家投资获取的科学数据采取”完全与开放”的共享政策,这一政策是侧重于NASA的数据中心建设,侧重于法规和网络共享建设而落实的.本文系统介绍了NASA 的地球科学数据分布式数据存档中心,数据接收/处理/分发/存储管理,共享服务方式等,对我国建立和提高公益性科学数据共享系统具有一定的借鉴作用.1NASA的9个分布式数据存档中心NASA庞大的地球观i贝0系统数据信息系统EOSDIS有9个下属的分布式数据存档中心DAAC(Distributed 2气象科技合作动态2009年第1期ActiveAchievedCenter)_5,分别负责制作地球观测系统观测得到的各类各级数据产品,并进行存档管理,为不同研究领域的用户提供各具特色的数据产品,数据信息和数据使用工具等方面的服务.之所以称为”分布式(distributed)”,是因为各数据存档中心分布于不同地点,但所有数据通过EOS元数据信息交换站(ECHO)进行统一管理.(1)阿拉斯加卫星研究室分布式存档中心(ASFDAAC,http://www. ),位于阿拉斯加大学地理物理学院(Fiarbanks),主要负责接收,处理,存档和分发来自极轨卫星的合成孔径雷达,海冰,卫星轨道处理,地球物理学方面的数据.(2)Goddard航天飞行中心地球科学数据和信息服务部分布式存档中心(GESDISCDAAC,http://daac.),位于马里兰Goddard 航天飞行中心(Greenbelt),旨在通过提供数据及相关服务来使用户能够全面了解全球气候资料的科学性,教育性及应用潜力,负责高层大气,大气动力学,全球降水,全球生物圈,海洋生物圈,海洋动力,太阳辐射等方面数据的接收,处理,存档,共享和服务. (3)全球水资源中心(GHRC,ht—tp://),位于阿拉巴马全球水文学和气候中心(GHCC, Huntsville),提供由天基,空基和地基仪器观测的历史与当前的地球科学数据,信息和产品,包括水循环,恶劣天气过程,闪电,对流等方面的数据.这里的数据源非常广泛,既接收基础资料,也制作反演产品.(4)陆面过程分布式存档中心(LP DAAC,/),位于南达科他美国地质勘探局(USGS) 的地球资源观测和科学中心(Sioux Falls),负责接收,处理,分发和存档EOS对陆地观测的相关传感器的各种资料,如地表各类参数数据,为生物学,地质学,水文学,生态学和相关环境与过程的研究,评定和监测提供资料,以此来提高跨学科研究能力和对地球综合系统的理解.(5)NASALangley大气科学资料中心ASDC分布式存档中心(LaRC DAAC,http://eosweb.1arc.nasa.gov/),位于弗吉尼亚NASALangley中心(Hampton),存档和分发辐射收支,云,气溶胶,对流层化学等方面的数据集1700多个,这些数据集既有卫星探测资料,也有外场试验数据和模式产品.(6)国家冰雪资料中心分布式存档中心(NSIDCDAAC,http:// /daac/),位于克罗拉多大学环境科学研究学院(CooperativeInsti—tuteforResearchinEnvironmental Sciences,Boulder),提供雪,冰,大气和海洋间相互作用及与冰雪过程有关的各种数据和信息,这些资料可以用于全球变化检测和模式验证.NSIDC还为低温层与极地过程研究提供一般性资料信息服务.(7)橡树岭国家实验室分布式存档中心(ORNLDAAC,http://www. /),位于田纳西NASA地球科学事业项目环境科学分部气象科技合作动态2009年第1期3 (ESD,OakRidge),提供生物学,生物地球化学动力学,生态学,地质学和化学相互作用等方面的动态资料,用于研究生物体及其周围的土壤,地质沉积物,水和空气等自然环境等的相互影响.(8)NASA喷气推进实验室(JPL)物理海洋学分布式存档中心(PO DAAC,http://podaac.ip1.nasa.gov/),位于加利福尼亚理工学院喷气推进实验室(Pasadena),提供由空基仪器观测的全球海洋过程,海洋一大气相互作用等方面的数据,并产生高级别的数据产品,核心资料是洋面高度, 洋面风和海表温度资料,另外还存档有浪高,电离层电子含量,大气湿度, 热通量和卫星相关的站点资料等. (9)社会经济学资料与应用中心(SEDACDAAC,http://sedac.cie—/),位于纽约哥伦比亚大学地球学院国际地球科学信息网络中心(Palisades),该中心的任务是综合地球科学和社会经济学资料,以为用户提供更广泛的决策范围,建立社会经济学与地球科学数据的信息通道,存档和分发人口,可持续性发展, 地理空间,多国环境条约等方面的数据.截止2004年9月30日,这9个分布式数据存档中心所存储的数据口分别有ASFDAAC256TB,GESDAACl334TB,GHRC4TB,LPDAACl143TB,ASDC—IaRC340TB(2007年6月前已有1PB),NSIDC67TB (2008年5月30日已有125TB),ORNI1TB,PODAAC6TB,SEDAC0.1lB.NASA另外还有以下3个数据分发中心(http://nasadaacs.eos.nasa.gov/about.htm1),以弥补上述9个分布式数据存档中心无法存档和分发的地壳动力数据,MODIS的1级和大气产品数据,海洋水色数据的不足. (1)地壳动力数据信息系统(CD—DIS,/),作为NASA的空间测地学数据存档中心,负责存档和分发全球定位系统(GPS),全球导航卫星系统(GLO—NASS),激光测距,甚长基线干涉测量(VLBI)及星载多普勒定轨和无线电定位组合系统(DORIS)等数据.(2)L1级大气产品存档和分发系统(MODAPS,http://ladsweb.na—/),提供Terra和Aqua平台中分辨率成像光谱仪(MODIS)的1级辐射率及2级和3级大气产品.(3)海洋生物过程组(OBPG,ht—tp://oceancolor.gs{/),负责存档和分发多个传感器的海洋水色资料,包括中分辨率成像光谱仪(M0一DIS/Aqua),宽视场海洋观测传感器(SeaWiF),海洋水色水温扫描仪(OC—TS),海岸带水色扫描仪(CZCS)及Terra和Aqua平台上的海表温度数据.2GESDISCDAAC及数据团队和服务团队的分工合作NASAGoddard航天飞行中心(GSFC:GoddardSpaceFlightCenter)的Goddard地球科学数据和信息服务部分布式数据存档中心(GESDISC4气象科技合作动态2009年第1期DAAC:GoddardEarthSciencesData andInformationServicesCenterDis- tributedActiveAchievedCenter),是NASA的9个分布式数据存档中心的排头兵,数据存储量最大,提供的用户服务最多.其使命和目标就是要通过向公众提供数据和服务,充分发挥全球气候数据的科学,教育,应用潜能,将地球科学事业的效益最大化.简言之,就是要推动影响地球气候的自然和人类活动研究的发展.近l0多年来,GESDISCDAAC已为美国各大学和研究机构,全球大气,海洋,地表, 水文,航空,农林,生态等研究领域的研究人员提供了大量的数据,是世界领先的数据共享发布中心之一.GES DISCDAAC位于美国马里兰州God~dard航天飞行中心内,毗邻首都华盛顿(NASA总部所在地),与邻近地区的美国国家海洋和大气管理局国家环境卫星数据和信息服务部NOAA/ NESDIS,马里兰大学,形成产,学,研连带网,互相促进,合作密切. GESDISCDAAC负责对所存储的NASA历史和现有的科研卫星和外场项目的资料进行处理,归档,编写文档及分发.概括而言,GESDISC DAAC为用户提供的服务主要包括: 帮助用户选择和获取资料,为用户提供资料处理和可视化工具,发布数据相关信息,提供指导和技术支持,这由两个团队进行合作而实现.第1是产品和服务团队,负责向用户提出各类技术指导,协助进行用户调查,监管各类科学数据产品的接收,保证元数据的完整性,提供整套的各类数据文档(详细的用户指南,总结性指南,自述文件等).第2是数据团队,负责科学数据集类型(ESDT: EarthScienceDataType)的定义,开发和维护EOS数据搜索和数据定购平台(EDG:EOSDataGateway),向公用网站提供全面的各类信息,如数据集整体介绍,图像,各类文档,数据产品特性描述文档,数据获取方式,数据使用工具说明,相关链接和参考文献等,并进行特殊产品的开发(例如按用户要求的通道/地理范围进行预切分, 地理信息系统GIS产品应用等),向NOAA/NCEP/NESDIS提供卫星产品分析,提供文件格式解码工具和服务,提供存储在匿名服务器上数据的在线分析和可视化工具,向外场试验提供1周7天/1天24h项目计划所需的辅助文件及外场试验项目产品的存档和分发.GESDISCDAAC的主要技术性业务包括:数据搜索,如基于数据内容的搜索,检索结果滤除,检索浏览;数据切分,如按时间,空间或参数等要素进行切分;数据挖掘,指科学算法集成,利用气象图形显示和分析系统软件GRADS或交互式数据语言IDL等进行在线分析;数据压缩.根据不同的卫星数据类型,GES DISCDAAC的数据团队分为以下6 个小组,各个小组提供不同类型卫星数据产品的科学数据处理,数据存档, 共享和服务.(1)土地生态产品小组:A VHRR Pathfinder系列产品,Triana产品. (2)海洋水色产品小组:CZCS产气象科技合作动态2009年第1期品,SeaWiFS产品,MODIS部分产品.(3)大气动力学产品小组:TOVS Pathfinder系列产品,数据同化产品, MODIS产品和AIRS/AMSU/HSB 产品(大气红外探测仪AIRS相关产品).(4)MODIS产品小组:MODIS产品.(5)水文地理学产品小组:降水气候学产品,卫星/地面雨量观测仪器的降水联合观测产品,TRMM卫星产品,TRMM外场试验观测产品. (6)大气化学产品小组:后续TOMS产品,后续SBUV产品,Earth Probe卫星的TOMS产品,Quik—TOMS产品,Triana产品,UARS产品,Aura卫星HIRDLS产品,Aura卫星MLS产品,Aura卫星OMI产品. 3数据的接收,处理和共享数据的接收建立在数据产品记录明细表(PDR:ProductDeliveryRe—cord)基础上.这个表是指数据提供方(如数据研制小组)所做的对数据产品的基本说明和类型明细表,包括数据量,文件名,数据文件存放的位置.基于此表,分布于不同地点的科学数据存档中心进行各类数据的接收,核查, 归档,相关文档建立等工作.数据质量由数据提供方负责,一般情况下通过设定质量控制码,相对误差或提供评估报告进行说明.NASA地球观测系统数据信息系统(EOSDIS)的9个分布式数据存档中心都有科学数据处理系统,由于所属领域和规模不同,科学数据处理系统略有差别,但基本功能均包括:接收,处理,存档和管理EOS仪器探测数据,EOSDIS算法所需的辅助数据; 为地球科学团体提供EOS数据及其研究产品;对EOSDIS各类接收,处理,存档和管理相关算法进行测试和验收,为研究开发新算法和改进现有软件提供软硬件环境. GESDISCDAAC的科学数据处理系统自2001年后由Christopher Lynnes博士等人在简单,可升级的基于脚本的科学数据处理系统S4P (Simple,Scalable,Scrjpt—basedSci—enceProcessingSystem)E8]的基础上进行深入开发,以仅两万余行的Perl Script的脚本程序行编写,首先形成S4PM(S4PforMeasurements),而后发展为目前正在使用的S4PA(Sim—pie,Scalable,Script—basedScience ProcessingArchive)l9],即简单,可升级的基于脚本的科学数据处理存档系统.该系统于2007年3月启动,2007年11月正式代替S4P_1.5.6.2版本的S4PM自2005年4月起已能从ht—tp:///projeets/s4pm/获得源代码,目前亦有5.26.0版本可获取,而5.27.0版本的S4PM则可于2008年夏获取.取代了以往商业化EOS数据和信息系统核心系统(ECS: EOSDISCoreSystem)的S4PA不再使用数据库进行数据管理,而是采取分级式的目录结构将文件存入文件系统,由对象进行导向;不再以使用IRIXSGI大型工作站为主,而是使用Linux系统的PC机集群以降低成本;通过基于”80—20法则”(花20的力气6气象科技合作动态2009年第1期完成8DIs存档产晶I的分发服务,及进~MODIs较低级别的产晶生I【提供部qua[j…-j擞据集产品服务--_--..____成_一-.数据和信息提供给科杈应朋,教育领域的l{j户一一仁>I图1GESDISCDAAC的基本数据流程GESDISCDAAC的数据分发任务由底层的基于网络的分级数据定购系统WHOM(Web-basedHierarchical OrderingMechanism)和数据仓库目录搜索工具WIST(WarehouseInven—torySearchToo1)共同完成.GES DISCDAAC接收数据后,经由数据处理存档系统S4PA,通过WHOM, WIST对外发布.基于网络的分级数据定购系统WHOM是由GESDAAC开发的用于搜索和提交定购任务的用户界面系统.WHOM模块的设计及分级体系使其成为独特的,用户界面友好的,使用方便有效的数据搜索和定购系统. WHOM的主要原则是向用户提供现有数据产品信息.其中的多种搜索模块算法具有动态时空搜索能力,将搜索结果返回并以CGI脚本生成html 页面文件.另外,系统提供日历页面, 显示每天的景(granule)文件数据,用户利用交互式地理空间选择功能,选定某一天的某些景.定购模块利用购物筐技术提供用户所选数据的详细信息.熟练的用户可以绕过各类数据导航页面,直接进入所谓的”无装饰性”页面,即只显示DAAC中所存储的如MODIS等产品清单的页面中,直接进行数据定购的操作.2007年以前,数据搜索和定购主要是由EOS数据搜索和数据定购平台(EDG,http://edeimswww.cr. /pub/imswelcome/)完成的,这是一个获取存档在各个分布式数据存档中心和几个国际数据中心主要数据的系统平台,目的是让用户在线获取存档的资料.通过EDG的资料检索与定购工具,用户可以获得各数据气象科技合作动态2009年第1期中心21oo多个数据集,具有资料查询,数据集详细描述,图像浏览和数据产品排序等功能.EDG资料检索与定购系统具有3个特点:①数据浏览功能:通过对数据集的时间范围,空间范围,属性(元数据),相关文档和图像浏览等项目进行检索后,用户可以以数据集或景列表的形式来浏览检索结果.②资料定购功能:用户可以通过该系统来挑选待订资料,选择包装,输入定购信息(运送地址等),提交订单. ③提供EOS系统及相关资料的检索和获取工具,提供检索和获取EOS及相关资料数据源的链接.数据仓库目录搜索工具(WIST, /wist/api/imswelcome)是进行NASA及其附属机构地球科学数据搜索和定购的代理服务网络体系,WIST1.0版本在EOS元数据信息交换站ECHO9.0版本正式运行后于2007年4月投入使用l】川,2008年取代EOS数据搜索和数据定购平台EDG.目前WIST和EDG仍在并行运行,并共用同一套WHOM搜索和定购系统以及所有资料的数据库.4数据的存储管理NASA地球观测系统数据信息系统EOSDIS的科学数据共有3类,即产品,辅助数据和元数据.产品是指所有EOS卫星的产品;辅助数据是产品的属性数据,用作产品描述和加工;元数据是关于数据的数据,在此用于产品和辅助数据的目录,清单描述.各个分布式数据存档中心遵从统一的元数据标准,进行元数据交换和管理.数据提供方有义务按所签订的合同将元数据提交到基于网络的分级数据定购系统WHOM,元数据信息交换站ECHO,全球变化主目录GCMD 等子系统中,实现美国甚至全球资料的共享.各类产品和辅助数据存放于不同地理位置的分布式数据存档中心.元数据信息交换站(ECHO:EOS ClearingHOuse,httpf|.echo/)l_12_是1998年建立的NASAEOS项目之一,主要目的是通过中央集成数据库,把NASA分布式数据存档中心所有数据的元数据信息进行集中管理,只存放元数据而不存放数据,面向用户提供统一的元数据信息查询,帮助用户定位所需资料.ECHO以基于可扩展标识语言(XML:eXtensibleMarkupLan—guage),远程方法调用(RMI:Remote MethodInvocation),简单对象访问协议(SOAP:SimpleObjectAccessPro—toco1)及Web服务的API为驱动,基于组件复用分架构(1ayeredarchitec—tureofreusablecomponents),实现新增数据提供方/数据代理机构/数据类型/数据属性的可扩展性.NASA的全球变化主目录(GC—MD:GlobalChangeMasterDirectory, /),是一份极其完整的资料所存储或获取位置的示意图/信息表,或者说是一个与全球变化研究有关的数据集描述的综合目录,包含有美国政府,大学,外国机构, 研究所,公司和个人建立的几千个数8气象科技合作动态2009年第1期据集,涉及气候变化,生物圈,水圈与海洋,地质学,地理学及全球变化中的人类等.用户使用数据前,仅通过GCMD与ECHO就可对各个数据集的基本情况有大致了解.除经营数据的商业性公司制作的数据以外,政府拥有,产生和政府资助产生的数据均在美国政府的支持下,按1991年6月美国总统事务办公厅关于全球变化研究发布的数据管理政策,实行”完全与开放”的科学数据共享[1¨],以确保美国21世纪国家发展和科技发展战略目标的实现.GESDISCDAAC通过科学数据处理存档系统S4PA将数据以分级结构存储于磁盘阵列中,与匿名FTP服务器相连的所有资料均实现了自动化的,安全的,无缝隙的,有效的数据在线存储[1引.分级结构的最上层是数据产品组Datagroup,然后是数据集Dataset,最后是以数据文件按观测时间存储于不同的目录中,如”Group/ Dataset.version/YYYY/DDD”.与我国自主研制的数据产品仅有数据集层次的元数据文件不同_1,NASA的每个数据产品层Group及Dataset都有对应的版本或collection级的XML元数据文件,而且每个数据文件也有相应的元数据文件.5数据的共享服务方式用户通过以下5种服务方式自NASAGoddard航天飞行中心地球科学数据和信息服务部分布式数据存档中心GESDISCDAAC获得数据和相关服务.(1)Mirador搜索,使用Mirador网站的搜索工具输入关键字来获得所需的数据产品(地址为http://mira—/),原先的全球EOS数据搜索和数据定购平台EDG 仍将持续保留一段时间,与Mirador 网站同时提供服务(地址为http:// /~imswww/pub/imswelcome/),GDAAC用户数据服务网的地址为http://eosdata. /.(2)在线匿名FTP服务器搜索,通过对在线产品进行数据导航,向用户提供数据定制或直接下载的服务, 地址为/data/datapool/.(3)已存档产品匿名FTP服务器搜索,地址为http://disc.gsfc.nasa.gov/data/dataset/.(4)OPeNDAP搜索,是一套简化科学数据网络发布,调用和管理的开放式框架,基于前期开发的海洋数据发布系统(DODS:DistributedOceano—graphicDataSystem)发展而来,地址为/serv—ices/opendap/.(5)开放地理空间协会(OGC)网站服务,开放地理空间协会(OGC)空间地图服务网为用户提供了一种数据获取,数据规范化制图的工具,地址为/services/ WXS—ogc.shtml.致谢:本文受益于与美国商标和专利局秦建春博士就其曾在NASAGoddard航天飞行中心地球科学数据和信息服务部分布式数据存档中心GESDISCDAAC3-作多气象科技合作动态2009年第1期9年所了解的数据管理,共享服务等相关情况的深入交流,特此致谢.参考文献[1]MichaelD.King,eta1.EOSSciencePlan: TheStateofScienceintheEOSProgram. January,1999.[2][3][4][5][6][7]WilliamAnderson,XianenZhang,Peter Arzberger,eta1.StrategiesforPreservation ofand0penAccesstoScientificDatainCHINA-SummaryofaWorkshop.U.S.National CommitteeforCODA TA,NationalResearch Council.NationalAcademiesPress,Wash—ington,D.C.,2006.路鹏,苗良田,莫纪宏,等.我国科学数据共享现状.国际地震动态,2007,342(6):26—32.刘闯,王正兴.美国全球变化数据共享的经历对我国公益性科学数据共享决策的启示.地球科学进展,2002,17(1):151—157. ReviewofNASA’sDistributedActiveArchive mitteeonGeophysicalandEnvi—ronmentalData,NationalResearchCouncil BoardonEarthSciencesandResourcesCom—missiononGeosciences,Environment,and Resources,NationalResearehCouncil.Na—tionalAcademyPress,Washington,D.C..1999.StevenJ.Kempler.EarthScienceRemote SensingDataandServicesandInformation TechnologyattheNASA/GESDISCDAAC.//JohnJ.Qu,WeiGao,MenasKafatos,eta1.EarthScienceSatelliteRemoteSensing,V olume2:Data,ComputationalProcessing, andTools.北京:清华大学出版社,2006: 306—317.HalemM.GSFCCyberinfrastructureInitia—tiveEnablingTransparentCollaborativeSci—enceThroughLamb&OpticalNetworks, StatusReportoftheITPWG,Presentationto ESSAAC,WashingtonD.C.,September9,2004.[8]ChristopherLynnes,BruceV ollmer,Stephen Berrick,eta1.Simple,Scalable,Script-Based ScienceProcessor(S4P).NASAGoddard SpaceFlightCenter,Greenbelt,MD,2001. [9]ChristopherLynnes.ASimple,Scalable, Script-BasedScienceProcessor.//JohnJ. Qu,WeiGao,MenasKafatos,eta1. Salomonson.,EarthScienceSatelliteRemote Sensing,V olume2:Data,Computational Processing,andTools.北京:清华大学出版社,2006:146—161.[103BruceV ollmer.EOSDISEvolutionatthe GoddardEarthScience.AIRSScienceTearn Meeting,Pasadena,California,March27—30,2007.[11]KarenMichae1.ESDISStatus,AuraDSWGMeeting,Boulder,Colorado,September13,2006.[12]RobinPfister.EOSClearingHouse.CEOS GRIDWorkshoponWGIS17.Tromso. Norway,May10—14,2004.[133JamesR.Mahoney,GhassemAsrar,Marga—retS.Leinen.StrategicPlanfortheClimate ChangeScienceProgramFinalReport.ARe—portbytheU.S.ClimateChangeScience ProgramandtheSubcommitteeonGlobal ChangeResearch,July2003.[14]孙枢,张先恩,郭增艳,等.美国科学数据共享政策考察报告.中国基础科学,2002,5: 37—39.[15]MarleyS,MooreM,ClarkB.BuildingCost—FffectiveRemoteDataStorageCapabilitiesfor NASAEOSDIS.Proceedingsof20thIEEE/11thNASAGoddardConferenceonMass StorageSystemsandTechnologies,7-10April2003,28—39.[16]王国复,李集明,邓莉,等.中国气象科学数据共享服务网总体设计与建设.应用气象,2004,15(增刊):10—16.。
气象数据的存储与管理技术研究

气象数据的存储与管理技术研究地球上的气候变化是人类关注的重要问题之一。
气象数据的存储与管理技术在了解和预测气候变化方面起着至关重要的作用。
本文将探讨气象数据的存储与管理技术,并分析其在气候研究中的应用。
一、气象数据的获取与收集气象数据是指对地球大气各个要素进行观测、测量和收集的数据。
气象数据的获取与收集是气象研究的基础,也是制定天气预报和气候预测的重要依据。
气象数据可以通过气象观测站点、卫星遥感、气象雷达以及其他气象观测设备进行获取。
这些观测设备产生的数据量庞大且多样化,因此需要有效的存储与管理技术来处理和分析这些数据。
二、气象数据的存储技术1. 数据库技术数据库技术是存储和管理气象数据的常用技术之一。
通过建立气象数据库,可以方便地存储和检索气象数据,提高数据的可靠性和可访问性。
常用的数据库管理系统包括关系型数据库(如MySQL、Oracle 等)和非关系型数据库(如MongoDB、Redis等)。
2. 大数据技术由于气象数据的量大且复杂,传统的数据库技术往往无法满足大规模数据的存储和处理需求。
大数据技术的出现为气象数据的存储和管理提供了新的解决方案。
通过利用分布式存储和计算技术,如Hadoop和Spark,可以高效地处理大规模气象数据,实现数据的快速存储、分析和挖掘。
三、气象数据的管理技术1. 数据质量管理保证气象数据的质量是进行准确气象研究和预测的前提。
数据质量管理技术包括数据校验、数据清洗和数据校准等,可以有效地排除因设备故障、人为错误或其他因素导致的数据异常和错误。
2. 数据共享与合作气象数据的共享和合作能够促进气象研究的进展,提高气象预测和气候模拟的准确性。
采用开放数据协议和标准,利用互联网和云计算技术,可以实现气象数据的跨机构、跨地域和跨国家的共享与合作。
3. 数据可视化与可视分析数据可视化和可视分析技术可以将复杂的气象数据以直观、易懂的方式展示给用户,帮助用户更好地理解和分析气象数据。
分布式环境下对元数据的高效管理

摘要 : 随着全球信 息技术 的发展 , 各 国的信 息化 水平不断提 高, 当前的元数据 管理模 式大多属于依赖使 用元数据仓库 的 集中式管理 。尽管这种数据管理方法在 O L T P系统 中得到一定的成效 , 但放 眼到数据仓库环境 中却 收效甚微 。因此 , 如 何在分布 式环境下对元数据进行 高效 的管理有 着十分 重大的意义。
2 0 1 3 年 第 5 期
信 息 通 信
I NF ORM AT 1 0N & C0M M UNI CAT 1 0NS
2O1 3
( 总第 1 2 7期)
( S u m .N o 1 2 7 )
分布式环境下对元数据 的高效管理
王 澜
( 衡 阳技 师学院物 流技 术系, 湖南 衡 阳 4 2 1 0 0 9)
通过客户端和元 数据服 务器连接 , 获得元数据 , 这样用 户就 可 的不便 , 同时还实现 了数据传输和数据管理的分离 , 为高性 能 的数据访 问提供 了坚 实的技术 基础 , 实现 了远程 、 透 明、 跨平 台的数据共享 。 由此 可见,管理分布式文件 系统 的元数据 是
管 理 数 据 的 关键 。
3 . 2基于 B l o o m i f l t e r 的元数 据查 询机 制进 行研 究
通过把 多个元数据服务器进行聚集 ,在每个聚集内采用 多个元数据服务器来维护整个系统 的文件镜像 ,这种设计 方 法可 以有效地 降低单个服务器 的负载 ,同时能够动态 地支 持 元数据服务器 的加入和删除等操作 。对于聚集 内的每 个元 数 据服务器 , 采用多级的 B l o o mF i l Er 结构来维护相关的元数据 信息 , 可有效存储和维护 “ 热点” 的数据信息和维护本地 的元 数据信息 。 针对 当前元数据管理当 中存在负载平衡、 数据迁移 、 查询 延迟 以及 内存损耗等 问题 ,在设计分布式管理环 境时可以借 助B l o o mf i l t e r 基本 设计 思想和原理 , 灵 活运用 B l o o mf i l e r 的 思想 , 采 用分组聚集的方法 管理 分布式系统 的元数据 , 对于每 个分组 , 保存 了整个系统的完整文件系统副本 , 而 分组 内的每 个结 点则持有文件系统副本 的一部分数据,可更能减少数据 迁移 的规模和数据副本 的一致性维护开销,从而提 高对元数 服 务器 都可以访 问这些智能功能。同时,用户 可以
分布式数据库在气象大数据云平台中的应用与扩容

数据分片
01
将气象数据按照一定的规则分成多个片,每个片存储在不同的
数据库节点上,提高了系统的可扩展性和性能。
负载均衡
02
通过负载均衡技术,将数据访问请求分散到不同的数据库节点
上,避免单个节点的性能瓶颈。
数据备份
03
对于每个数据分片,都需要备份一份数据,防止因为节点故障
导致的数据丢失。
基于数据复制的垂直扩容方案
自动扩容
云平台提供自动化的扩容功能,可以根据气象数 据的增长动态调整数据库的资源分配,保持数据 库的性能和可用性。
按需付费
云平台支持按需付费的模式,只需要为实际使用 的资源付费,降低了因为数据增长而带来的成本 。
快速部署
云平台可以快速部署分布式数据库,只需要几分 钟就可以完成数据库的创建和配置。
基于数据分片的水平扩容方案
经验总结与未来规划
经验总结
该气象局在分布式数据库的应用实践中,积 累了丰富的经验,包括数据库设计、数据存 储与查询优化、系统运维和管理等方面。
未来规划
该气象局将继续优化分布式数据库架构,提 高数据处理和分析能力,同时考虑引入更多 的数据源和拓展应用场景,提升云平台的服
务能力和价值。
感谢您的观看
THANKS
分布式数据库在气象大数据 云平台中的应用与扩容
汇报人: 日期:
目录
• 分布式数据库概述 • 气象大数据云平台概述 • 分布式数据库在气象大数据云平
台中的应用 • 分布式数据库在气象大数据云平
台中的扩容方案
目录
• 分布式数据库在气象大数据云平 台中的挑战与优化建议
• 案例分析:某气象局分布式数据 库应用实践
01
分布式数据库概述
高校科学数据管理研究

高校科学数据管理研究高校科学数据管理:研究现状与发展趋势随着科学技术的快速发展,高校在科研活动中产生的科学数据量呈指数级增长。
科学数据管理作为科研活动的重要组成部分,对高校学术水平的提升、学科建设以及跨学科合作都起着至关重要的作用。
本文旨在探讨高校科学数据管理的研究现状和发展趋势,以期为相关领域的发展提供借鉴和参考。
文献综述高校科学数据管理主要涉及数据的收集、存储、处理、分析和共享等方面。
近年来,学者们对高校科学数据管理的研究主要集中在以下几个方面:1、数据管理方式:研究者们不断探索适合高校的科学数据管理方式,提出了一系列基于云计算、大数据、人工智能等技术的方法和策略。
2、数据流程管理:围绕科学数据的生命周期,学者们数据流程的优化和管理,强调从数据采集、处理、分析到归档各阶段的规范化和高效化。
3、存在问题与挑战:尽管高校在科学数据管理方面取得了一定进展,但仍存在诸多问题,如数据质量不高、共享机制不健全、安全隐患等。
为应对这些问题,研究者们提出了一系列对策和建议。
研究方法本文采用文献调研和案例分析相结合的方法,梳理高校科学数据管理的研究现状和发展趋势。
首先,通过文献检索收集关于高校科学数据管理的相关研究;其次,对典型的案例进行深入分析,了解高校在科学数据管理方面的实际应用和成效。
结果与讨论通过对文献的梳理和案例分析,本文总结出以下关于高校科学数据管理的研究成果和趋势:1、管理方式多元化:随着技术的不断发展,高校科学数据管理的方式更加多样化和灵活。
云计算、大数据、人工智能等技术的运用,使得数据处理和分析能力得到大幅提升。
2、数据流程优化:高校开始重视科学数据的全生命周期管理,从数据采集、处理、分析到归档阶段都实现了规范化、标准化的优化。
此外,部分高校还建立了专门的数据管理系统和平台,提高了数据处理效率。
3、数据质量与共享:研究者们认识到数据质量在科学数据管理中的重要性,开始数据清洗、质量控制等方面的研究。
高可用并行文件系统的分布式元数据管理

分布式元数据管理的好处是解决了集中式管理的单一失效点问题,而且性能不会随 着操作频繁而出现瓶颈。其缺点是,实现复杂,一致性维护复杂,对性能有一定影响。 由于 Handy 的目标是提供高可用和高扩展的并行文件系统,采用分布式元数据管理能 够更好的迎合这个目标。
PVFS2 的础上,实现实现元数据分布式管理,提供元数据和数据的高可用特性,提供 灵活的可扩展特性。
2. Handy 的特色 Handy 的主要特色有: z 元数据和数据的高可用性,元数据和数据都采用各自的方法进行冗余存放,容 错性好; z 元数据管理采用无集中服务器方式,存储也采用分布式存储,解决了元数据读 写瓶颈和元数据服务器单一失效点问题。 z 节点的可扩展性。元数据和数据节点的没有区分,一个节点可以充当各种角色, 并且能够随意加入或离开系统,而不影响系统的正常运行。 z 无需采用特殊存储介质,具有简便易安装的特点。 表一表示了 Handy 与现存其他并行文件系统(集群文件系统)的比较。
高可用并行文件系统的分布式元数据管理
唐维
一、研究意义及课题背景
随着社会经济与科技的发展,对计算的需求也日益增长。为了满足这种需求,高性 能集群计算技术被广泛应用到各种领域。随着高性能计算技术的发展,集群的并行 I/O 和文件存储面临巨大挑战,于是研究用于集群计算的优秀的并行文件系统有着重要意 义。
目前国内外有各种各样的集群文件系统(并行文件系统)已研究成型或者正处于研 究改善状态。象 Clemonson 大学的并行虚拟文件系统(PVFS)及其改进版本 PVFS2, 加州大学伯克利分校的 xFS,卡耐基梅隆大学的 Coda,IBM 公司的 GPFS,中科院计算 所的 COSMOS,等等。虽然文件系统种类繁多,但是不存在一种文件系统拥有十全十 美的优点,他们在都拥有各自的特色,在不同的领域能够体现自己的优势。对于集群文 件系统来说,高性能,高可用,和高扩展性是衡量一个文件系统优秀性的三个重要指标。 随着硬件技术的发展,对高可用和扩展性的需求逐渐超过了对文件系统高性能的要求。 基于这种需求,华中科技大学集群与网格计算实验室并行文件系统小组拟开发一个具有 高可用和高扩展性的并行文件系统。命名为 Handy。(Parallel Filesystem with High Availability and Dynamic Scalability)。作为集群系统的重要组成部分,该文件系统为未 来开发 3H(高可用,高性能,高扩展)的集群超级服务器奠定了基础。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
致 性模 型 以 及 OAI — P MH元数 据同步协议等同步机制进行研究 , 分析 F I F O、 单 调 读 和 单 调 写 等 几 种 典 型 一 致 性
模 型 的 特 点 和 适 用 范 围 以及 OAI - P MH 协 议 的 可 行 性 , 给 出同步系统 的总 体设计 思路 , 针 对 由 总 体 设 计 思 路 形 成
期、 受 约束 的词 汇 表 、 层次化的分类关键词、 标 识 数 值 分 析时 间 、 有 效 期 约 束 等 ] 。这 一 版 元 数 据 标 准
* 国家气象信息 中心“ 雷达信息共享平台关键技术预研项 目” 资助。
2 0 0 8 — 1 1 — 1 4收 到 , 2 0 0 9 — 1 2 — 2 1收 到再 改 稿 。
共 享 十分必 要 ; 同时 , 雷 达 信 息 的共 享 时 效 要 求 高 , 最好 能达 到秒 级 ; 此外 , 各种 业务 系统对 雷达 资料 的 深层 次应 用 开发 迫 切 要 求 建 立 海 量 雷 达 数 据 、 产 品 对气 象数 据特 点进 行 了多项 扩 展 , 主要 包 括 : 引用 日
WAMI S ( 韩国) 等项 目都 在为 实 现 WI S总体 目标 开 展 大 量 的研 发 工作 ] 。 在我 国 , 为 提 高对 灾 害 性 天气 的 监 测 预警 能力 和服务 水平 , 全 国需 建 设 1 5 8部新 一 代 多 普 勒 天气
1 气 象 元 数 据
气 象 领 域 的 元 数 据 标 准 由 世 界 气 象 组 织 ( WMO) 负 责制定 , 历 经 多 次修 订 、 扩展于 2 0 0 6年 9
WF) , J C OMM G I S C - E 2 E DM ( 俄 罗斯 ) , C Ag M
数据 的分 布式 管理 和元 数据 目录服 务 等 功能 。可 以 看 出共享 平 台 的 建 立将 能 够 部 分 满 足 WI S系 统 的 总体需 求 。本 文将 对共 享平 台 的分 布式 气 象元 数 据 同步 系统 的关键 技 术和 整体 架构 进行 探索 和研 究 。
雷 达 系统 , 雷达 数 据 量 将 成 几 何 级 数 增 长 ; 再者 , 对 月 正式 签 署 发 布 了 WMO核 心 元 数 据标 准 1 . 0版 , 天 气雷 达进 行组 网观 测 使 得 区域 、 流 域 之 间 的信 息 该标 准在 I S O 1 9 1 1 5系列地 理元 数据 标 准基 础上 针
录管 理 系统 , 并完 成 国家级 中心 、 各 省 中心 的元数 据 同步 与交 换 , 以 实现 包 括 雷 达 数 据 在 内 的各 类 气 象
立 一个 通用 、 综合、 高 效 的信 息 服 务 平 台 , 用 于支 撑 下 简称共 享 平 台 ) 是 一 个 分 布 式存 储 和共 享 服 务 系
的 原 型 系 统 进 行 试 验 。分 析 试 验 结 果 数 据 表 明 : 气 象 元 数 据 全 网 同 步 系 统 原 型 基 本 满 足 符 合 WMO 核 心元 数 据 标 准 的 气 象 元 数 据 在 广 域 网分 布环 境 下 的 多 节 点 同 步 交 换 需 求 。
关键词 : 气 象 元 数 据 ;同步 ;O AI - P MH ; WI S
的规范 存储 与 快 速 分 发 共 享 系 统 。 因此 , 为 实 现气
引 言
正 在规 划设计 的 WMO信 息 系统 ( WI S ) 提 出建
WMO各 项计 划 及 其 相 关 中心 、 国 际 组 织 和 计 划 的 数 据交换 和 共享 , 并 为各 国气 象 和水 文 部 门 的用 户 提 供 服 务 。WI S系 统 将 满 足 wMO 各 项 计 划 提 出
象 数据 、 产 品资料 在 全 国范 围内共 享 , 建 立 天气 雷达
信 息和其 他 气象 数据 的共 享平 台迫在 眉睫 ] 。 正 在建设 的新 一 代 天 气 雷 达 信 息 共 享 平 台 ( 以 统, 需要 在 国家 级 和省 级 中心 分 别 建 立 元 数 据 与 目
的 全 网同 步 问 题 提 出 了 现实 要 求 。该 文 首 先 从 现 有 气 象 元 数 据 标 准 着 手 阐 述 同 步 系 统 所 承 载 主 体 — — 气 象 元 数
据在数据发现 、 数据应用 及服务 、 数据 展示 和信息冗余度 方面 的不足 , 提 出相应 的改进措 施 , 并对 同步系统 的数 据
周峥嵘u 王 诤
”( 国家气象信息 中心 , 北京 1 0 0 0 8 1 )
何 文春D
(0 2 )
摘
要
WMO对未来信 息系统提出 了包括提供在线元数据 、 数据 目录服务 和提高元数 据定义 、 收集 、 归档 和交换 的标 准化水平在 内的总体需求 , 正在建设 的“ 新 一代天气雷达信息共享平 台” 也对解决气 象元数据 在气象宽 带 网环境 下
第2 1 卷 1 期 2 0 1 0年 2月
应 用 气 象 学 报
J OURNAL OF AP PL I E D M ETEOROLOGI CAL S CI ENCE
Vo l _ 2 1 ,No . 1
F e b r u a r y 2 0 1 0
分 布 式 气 象元 数 据 同步 系统 的探 索研 究
的总体需 求 , 其 中有 两 项 需 求 是 : 提 供 在 线 的 元 数
据、 数据 目录 服务 ; 提 高元数 据 的定 义 、 收集、 归档 和 交换 的标 准化 水平 。这 两项 需求 对 气象 元 数 据 的交 换、 同 步 提 出 了很 高 要 求 。 目前 , S I MD AT( E C M—