GEO数据库简介

合集下载

解读GEO数据存放规律及下载,一文就够

解读GEO数据存放规律及下载,一文就够

解读GEO数据存放规律及下载,⼀⽂就够做⽣物信息学分析的朋友应该是对GEO数据库⽿熟能详了,总会⽤到公共数据库的,⽽GEO数据库则是⾸选,起先只是为表达芯⽚数据准备的,后期纳⼊了各种NGS组学数据,⽂章⾥⾯会给出数据地址,GSE ID号,由此我们就可以进⼊GEO数据库,进⽽了解它!GEO数据库基本介绍其实只需要理解下⾯的4个概念。

GEO Platform (GPL)GEO Sample (GSM)GEO Series (GSE)GEO Dataset (GDS)理解起来也很容易。

⼀篇⽂章可以有⼀个或者多个GSE数据集,⼀个GSE⾥⾯可以有⼀个或者多个GSM样本。

多个研究的GSM样本可以根据研究⽬的整合为⼀个GDS,不过GDS本⾝⽤的很少。

⽽每个数据集都有着⾃⼰对应的芯⽚平台,就是GPL。

使⽤GEOquery包从GEO数据库下载数据⽽且需要理解所有bioconductor⽀持的芯⽚平台对应关系:通过bioconductor包来获取所有的芯⽚探针与gene的对应关系⾸先是下载函数的使⽤包的本质就是getGEO函数,⽤法列举如下:1、根据GDS号来下载数据,下载soft⽂件gds858 <- getGEO('GDS858’, destdir=“.”)2、根据GPL号下载的是芯⽚设计的信息!gpl96 <- getGEO('GPL96’, destdir=“.”) ```3、根据GSE号下载数据,下载_series_matrix.txt.gzgse1009 <- getGEO('GSE1009’, destdir=“.”)上⾯的代码下载的⽂件都会保存在本地,destdir参数指定下载地址。

⽐较重要的三个参数是:GSEMatrix=TRUE,AnnotGPL=FALSE,getGPL=TRUE然后是了解下载函数返回的对象1、查看下载GDS后返回的对象⽤Table(gds858)可以得到表达矩阵!⽤Meta(gds858)可以得到描述信息!具体代码如下:options(warn=-1)suppressMessages(library(GEOquery))gds858 <- getGEO('GDS858',destdir=".")names(Meta(gds858))Table(gds858)[1:5,1:5]然后还可以⽤ GDS2eSet函数把它转变为expression set 对象, expression set这个对象⾮常之重要,后续会详细讲解:eset <- GDS2eSet(gds858, do.log2=TRUE)2、GSE直接根据GSE号返回的对象:gse1009,就是expression set 对象我们的处理函数有:geneNames/sampleNames/pData/exprs (这个是重点,对expression set 对象的操作函数)3、GPL根据GPL号下载返回的对象跟GDS⼀样,也是⽤Table/Meta处理!options(warn=-1)suppressMessages(library(GEOquery))gpl96 <- getGEO('GPL96',destdir=".")names(Meta(gpl96))Table(gpl96)[1:10,1:4]⼀般来说我们下载GPL是为了得到芯⽚的探针对应基因ID的关系列表,下⾯这个代码就是芯⽚ID的基因注释信息#Table(gpl96)[1:10,c("ID","GB_LIST","Gene.Title","Gene.Symbol","Entrez.Gene")]Table(gpl96) [1:10,c("ID","Gene Title","Gene Symbol","ENTREZ_GENE_ID")]包装成函数downGSE <- function(studyID = "GSE1009", destdir = ".") { library(GEOquery) eSet <-getGEO(studyID, destdir = destdir, getGPL = F) exprSet = exprs(eSet[[1]]) pdata =pData(eSet[[1]]) write.csv(exprSet, paste0(studyID, "_exprSet.csv")) write.csv(pdata,paste0(studyID, "_metadata.csv")) return(eSet)}番外也可以⽤GEOmetadb包来获取对应GEO数据的实验信息(得到metadata数据),可以批量得到多个GSE数据集的信息,如下:GSE1009GSE10785GSE1133GSE11975GSE121GSE12409执⾏下⾯代码即可:library(GEOmetadb)if(!file.exists('GEOmetadb.sqlite')) getSQLiteFile()## 取决于⽹速哦('/path/GEOmetadb.sqlite')con <-dbConnect(SQLite(),'/path/GEOmetadb.sqlite'))#dbListTables(con2)#dbListFields(con2,'gse')GeoList = read.table("diabetes.GEO.list")query = paste("select + from gsm where series_id in ( ' ", gsub(", ", " ', ' ", paste(Geolist[,1], collapse=",")," ')", seq=" ")querytmp = dbGetQuery(con2, query)write.csv(tmp, "diabetes.GEO.meta.csv")作业⼤家可以使⽤上⾯介绍的R包及GEO数据库知识,把⽂中列出的⼏个GSE数据集探索⼀下。

geo数据库单基因文章范文

geo数据库单基因文章范文

geo数据库单基因文章范文一、引言。

朋友们!今天咱们要一起踏上一场超酷的基因探索之旅。

你知道吗?基因就像是我们身体里的小密码,每个基因都可能藏着很多关于健康、疾病还有生命奥秘的大秘密呢。

咱们今天就聚焦在一个单基因上,这个小不点可是通过geo数据库这个神奇的宝藏库被我们挖掘出来的哦。

二、什么是geo数据库。

这个geo数据库啊,就像是一个超级大的基因数据超市。

世界各地的科学家们就像购物者一样,把他们做实验得到的基因相关的数据都放在这里面。

这里面有各种各样的数据,就像超市里琳琅满目的商品一样。

比如说,有的数据是关于正常细胞里基因的表现情况,有的则是生病的细胞里基因的状态。

咱们今天的主角单基因就在这个巨大的数据堆里等着我们去发现它的故事呢。

三、寻找我们的单基因。

我就像一个寻宝猎人一样,一头扎进了geo数据库这个大宝藏里。

要找到那个特别的单基因可不容易呢。

我首先要设定一些搜索条件,就像在超市里找东西,你得知道大概在哪个区域找一样。

我设定了和我感兴趣的疾病或者生理过程相关的关键词,然后在海量的数据里开始筛选。

经过一番努力,这个单基因就像一颗闪闪发光的小星星出现在我的视野里啦。

四、单基因的基本情况。

这个单基因啊,它有一个独特的名字,就像每个人都有自己的名字一样。

它的名字可能听起来很拗口,但这就是它在基因世界里的独特标识。

这个基因在细胞里有它自己的小位置,就像每个人在家庭里有自己的房间一样。

它的长度也是特定的,就像一根有一定长度的小绳子。

而且啊,这个基因在不同的组织里可能会有不同的表现,就像一个人在不同的场合会有不同的行为一样。

比如说,在心脏组织里它可能是一种表现,在肝脏组织里又可能是另外一种表现呢。

五、单基因与疾病的关系。

这时候你可能会问,这个单基因和疾病有啥关系呢?那关系可大了去了。

我发现啊,在一些患有特定疾病的患者样本数据里,这个单基因就像一个调皮的小捣蛋鬼,它的表达量和正常情况不太一样。

要么是表达得太多了,就像一个话痨一直在不停地说话;要么是表达得太少了,就像一个害羞的小朋友不敢说话一样。

GEO数据库详细介绍

GEO数据库详细介绍

GEO数据库详细介绍
GEO数据库(Gene Expression Omnibus)是由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)创建和维护的一个基因表达数据库。

它是全球范围内最大的公共基因表达数据资源之一
GEO数据库的建立旨在促进基因表达研究的分享和合作。

它收集和存储了来自不同物种和组织的基因表达数据,包括DNA芯片和高通量测序技术生成的数据。

这些数据可以对基因在不同细胞类型、组织、疾病状态和其他条件下的表达进行分析和比较。

通过GEO数据库,研究人员可以访问和利用公共基因表达数据,以寻找新的研究方向、验证新的假设并发现新的生物学发现。

GEO数据库还提供了一些功能和工具,帮助用户更好地理解和利用基因表达数据。

其中之一是GEO2R,一个在线分析工具,可以快速比较两组基因表达数据集,找出在不同条件下表达水平显著变化的基因。

此外,GEO数据库还包括了一些数据分析流程和教程,以帮助用户学习和应用基因表达数据的分析方法。

GEO数据库的使用范围非常广泛。

它被广泛应用于基础研究、生物医学研究、药物研发等领域。

研究人员可以利用GEO数据库进行不同物种、组织或疾病状态下基因表达的比较研究,以揭示基因功能和亚细胞定位的变化。

在药物研发中,GEO数据库可以用于筛选候选靶点或标志物,并评估药物在基因表达水平上的效果。

总之,GEO数据库是一个重要的基因表达数据资源,提供了广泛的数据集和工具,用于促进基因表达研究的进展。

通过GEO数据库,研究人员
可以更好地利用和分享基因表达数据,以加快科学研究的进程和发现新的生物学知识。

geo数据的解读 -回复

geo数据的解读 -回复

geo数据的解读-回复什么是Geo数据?Geo数据是指地理信息系统(GIS)中使用的地理数据,它包括地点、坐标、地形等地理要素的信息。

这些数据通常以地理坐标系的形式存储,可以用来描述和分析地球上的空间关系。

为什么Geo数据重要?Geo数据在现代社会中扮演着重要的角色,它们可以用于各种不同的应用。

下面将详细介绍Geo数据的几个重要应用领域。

地理信息系统(GIS):GIS是用于捕捉、存储、检索、分析和显示地理数据的系统。

Geo数据是GIS的基础,它们可以帮助人们理解和解释地理现象。

例如,GIS可以用于制作地图,进行地貌分析,规划城市建设等。

导航和位置服务:Geo数据可以用于导航和位置服务,例如手机应用程序中的地图和导航功能。

通过使用地理数据,人们可以找到最佳路线,了解周围环境,找到附近的地点等。

环境保护:Geo数据在环境保护方面也发挥着重要作用。

它们可以用于监测和预测自然灾害,如洪水、地震和森林火灾。

通过分析地理数据,科学家可以帮助政府和社区做出应对和减轻这些灾害的决策。

市场分析:企业可以使用Geo数据来进行市场分析和商业规划。

通过研究不同地区的人口、消费习惯和经济状况等因素,企业可以确定最佳的销售策略和目标市场。

自然资源管理:Geo数据对于自然资源的管理和保护也非常重要。

例如,地理数据可以用于评估土地适合性,监测水资源,规划农业和林业项目等。

通过合理利用和管理自然资源,可以实现可持续发展。

如何使用Geo数据?使用Geo数据需要一定的技术和工具。

下面将介绍一些常用的Geo数据处理方法和工具。

数据收集:Geo数据可以通过多种渠道收集,例如卫星遥感、地面测量、调查问卷等。

收集的数据需要进行清理和整理,以便后续分析和应用。

数据存储:Geo数据可以存储在数据库中,以便快速检索和分析。

最常用的地理数据库软件包括ArcGIS、QGIS等。

数据分析:对Geo数据进行分析可以使用各种统计和空间分析方法。

例如,可以使用聚类分析找出地理上相似的区域,使用空间插值方法填补数据的空缺等。

geo数据库基本功能

geo数据库基本功能

geo数据库基本功能
Geo数据库是管理地理空间数据的关系型数据库,具有以下基本功能:
1. 数据存储:Geo数据库可以存储各种类型的地理空间数据,包括空间数据(如点、线、面等)和属性数据(如人口数量、土地利用类型等)。

2. 数据检索:Geo数据库支持通过空间查询和属性查询等方式检索数据,用户可以根据需要获取相关地理信息。

3. 数据处理和分析:Geo数据库可以对地理空间数据进行处理和分析,包括空间运算、地理统计分析等,以满足各种地理问题解决的需求。

4. 地图可视化:Geo数据库可以将地理信息以地图的形式可视化,提供直观的地理信息展示方式。

5. 数据更新和维护:Geo数据库支持对数据进行更新和维护,确保数据的准确性和时效性。

6. 跨平台应用:Geo数据库可以跨平台应用,支持各种操作系统和软件环境,方便用户的使用。

总之,Geo数据库具有强大的地理空间数据处理、分析和可视化能力,能够满足各种地理信息系统的需求,是地理信息产业中重要的组成部分。

GEO数据库简介

GEO数据库简介
5. GDaEE成tnOa检trS数e索ez据是t系sN主和统C。要GBIEE建存nO立t放reP的z在集r生oG成物fiEl系医eO统s学的数最据大库特集 两个点是数通据过库任内何一。个数据库检索出的信息
可直接链接到Entrez其它数据库并找到 相关的检索结果。
编辑课件
20
GEO数据的数据检索——关键词
Unlike GEO's other DataSet analysis tools, GEO2R does not rely on curated DataSets and interrogates the original Series Matrix data file directly. This allows a greater proportion of GEO data to be analyzed in a timely manner.
编辑课件
3
基因芯片概述
基因芯片(DNA芯片)是通过微阵列技术,根 据核酸杂交的原理,将大量探针分子固定于支 持物上,然后与标记的样品进行杂交,通过检 测杂交信号的强度及分布来进行分析。
编辑课件
4
基因芯片技术流程
编辑课件
5
基因芯片技术流程
编辑课件
6
基因芯片检测结果
编辑课件
7
什么是GEO数据库
(比如基因A样本构成一个
数据集, 从中可以产生
单个或多个基因的表
达谱比较图。
编辑课件
18
GEO数据的数据检索——方法
1. 从GEO数据库主页面右侧找到搜 索栏,直接输入要查找信息的关键 词或者检索词,如“mir29a”或者 “GDS2225 AND fto”,就会搜索 到相应的DataSets和Profiles。

GEO数据库详细介绍2024

GEO数据库详细介绍2024

引言概述:地球观测(GEO)数据是指从卫星、遥感和其他地球观测技术中获得的关于地球表面和大气等特征的数据。

这些数据在各种领域如环境保护、气候变化、资源管理等中起着至关重要的作用。

GEO数据库是用来存储、管理和共享这些数据的关键工具。

正文内容:一、GEO数据库概述1.GEO数据库的定义和作用2.GEO数据库的分类和特点3.GEO数据库的构建和更新方法4.GEO数据库的应用领域和需求5.GEO数据库的挑战和发展趋势二、GEO数据库的数据来源1.卫星数据a.不同卫星的观测能力和数据特点b.卫星数据的获取和预处理方法c.卫星数据在GEO数据库中的应用案例2.遥感数据a.遥感技术的原理和分类b.遥感数据的获取和处理方法c.遥感数据在GEO数据库中的应用案例3.其他地球观测数据a.气象观测数据b.海洋观测数据c.地质观测数据三、GEO数据库的数据存储和管理1.数据格式和标准化a.数据格式的选择和转换b.数据标准化的方法和工具c.数据交换和共享的标准2.数据存储和索引a.数据库选择和建立b.数据存储和索引的优化方法c.数据备份和恢复策略3.数据质量控制a.数据质量评估和过滤方法b.数据缺失和纠正方法c.数据更新和验证策略四、GEO数据库的数据分析与应用1.数据处理和分析方法a.数据清洗和预处理方法b.数据聚合和空间插值方法c.数据可视化和解释方法2.数据模型和建模a.数据建模的原理和方法b.数据模型的选择和评估c.数据建模在GEO数据库中的应用案例3.数据挖掘和机器学习a.数据挖掘的基本概念和方法b.机器学习在GEO数据库中的应用案例c.预测和决策支持方法五、GEO数据库的社会影响和未来发展1.社会影响和利益相关者a.环境保护和资源管理b.灾害监测和应急响应c.气候变化和可持续发展2.GEO数据库的未来发展趋势a.数据获取和处理技术的创新b.数据共享和合作机制的加强c.数据隐私和安全保护的挑战与解决方案总结:GEO数据库是地球观测数据存储、管理和共享的重要工具,涉及卫星、遥感和其他地球观测数据。

mysql 数据库 geo对象的数据类型-概述说明以及解释

mysql 数据库 geo对象的数据类型-概述说明以及解释

mysql 数据库geo对象的数据类型-概述说明以及解释1.引言1.1 概述在撰写本文时,我们将探讨MySQL数据库中与地理位置相关的数据类型——Geo对象的数据类型。

Geo对象是一种在数据库中存储和处理地理空间数据的方式。

地理空间数据包括地理坐标、地理边界、地理区域等。

通过使用Geo对象数据类型,我们可以对地理空间数据进行存储、查询和分析,从而更好地支持地理信息系统(GIS)和位置相关的应用程序。

本文将首先介绍MySQL数据库的基本概念和特点,以便读者对数据库的背景知识有所了解。

接下来,我们将详细介绍Geo对象的数据类型,包括点(Point)、线(LineString)、多边形(Polygon)等。

我们还将探讨如何在MySQL数据库中创建和管理这些数据类型,并介绍如何进行地理空间数据的存储和查询操作。

文章的目的是帮助读者了解Geo对象数据类型在MySQL数据库中的应用,以及如何使用这些数据类型来支持地理空间分析和地理信息系统的开发。

通过本文的学习,读者将能够更好地理解和应用MySQL数据库中的地理空间功能,为自己的项目提供更多可能性和灵活性。

在下一节中,我们将开始介绍MySQL数据库的基本概念和特点。

请继续阅读下一节内容。

1.2 文章结构本文主要介绍了MySQL数据库中用于表示地理位置信息的数据类型——Geo对象的数据类型。

文章将分为以下几个部分进行讲解:1. 引言:在引言部分,将对本文要讲解的主题进行概述,并介绍本文的目的和意义。

2. 正文:2.1 MySQL数据库:在这一节中,将简要介绍MySQL数据库的特点和用途,以及它在地理位置信息管理中的应用场景。

2.2 Geo对象的数据类型:这一节将详细介绍MySQL数据库中用于表示地理位置信息的数据类型,包括点(Point)、线(LineString)、多边形(Polygon)等等。

每种数据类型将分别进行阐述,包括其定义、存储方式、常用操作等。

此外,还将介绍如何创建和修改具有地理位置属性的表,并演示一些常见的查询和分析操作。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GEO2R程序在R平台上运行

系列数据将一系列相关的 样本联系起来,提供了整 个研究的关注点和描述, 也包含了描述提取数据、 简要结论和分析的表格。 每个系列均分配了一个特 有的检索号GSE***。
例如系列GSE3541

/geo/query/acc.cgi?acc=G SE3541
GEO数据库的构成
1.用户提交 的原始数据
2.GEO数据库 整理后的数据
平台(Platform)

平台是描述一联串在特定实验中被检测或被定量分析的 因素,同一个提交者、许多样本有关,是关于用于以高 通量方式检查样本的物理试剂的信息。比如寡核苷酸 探针组,cDNA, SAGE标签,抗体等。
平台(Platform)
① 层级聚类方法:(Single-Link:最近距离、Complete-Link:最远距离、 Average-Link:平均距离) ② 分散性聚类方法: K-Medioids算法(特点:用类中的某个点来代表该聚类;优点:能处理任意类 型的属性;对异常数据不敏感) K-Means算法 (特点:聚类中心用各类别中所有数据的平均值表示 ;优点: 应用最为广泛;收敛速度快;能扩展以用于大规模的数据集;缺点:倾向于识 别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大) ③ 按基因处于染色体上位置来聚类
GEO BLAST
可以在GEO核酸数据 库中进行序列比对。
GEO2R工具



GEO2R is an interactive web tool that allows users to compare two or more groups of Samples in a GEO Series in order to identify genes that are differentially expressed across experimental conditions. Results are presented as a table of genes ordered by significance. Unlike GEO's other DataSet analysis tools, GEO2R does not rely on curated DataSets and interrogates the original Series Matrix data file directly. This allows a greater proportion of GEO data to be analyzed in a timely manner. GEO2R能利用开源软件R平台和bioconductor进行数 据处理。
GEO数据的数据检索——方法
4. 直接从NCBI主页用Entrez 进行检索。
5. GEO数据主要存放在GEO Entrez是NCBI建立的生物医学数据库集 DataSets 和GEO Profiles 成检索系统。 Entrez 集成系统的最大特 两个数据库内。 点是通过任何一个数据库检索出的信息
基因芯片数据分析软件

bioconductor 和R平台 MATLAB Bioinformatics Toolbox
•利用GEO2R比较同一系列中不同样 本中的基因表达量差异
•利用GEO2R求对比组 的各样本中基因表达 值在样本中的分布状 况。(包括箱线图和 可供导出的数值)
•通过输入实验平 台的某个指针项目 ID,可以直接检索 到该指针对应的基 因在不同样本中的 表达谱图。
样本(Sample)


样本数据描述了每个样本的 操作环境、处理方法和分离 出的各个成分的丰度测量。 每个样本均分配了一个特有 的检索号GSM***。 例如样本GSM81022
http://www.ncbi.nlm.nih.g ov/geo/query/acc.cgi?acc =GSM81022
系列(Series)
数据分析工具2
2. Compare 2 sets of samples: ① 选择比较方式和显著性水平 ② 选择A和B两组样本组 ③ 进行A、B样本组的比较 ④ 查看两组基因可供比较的表达 谱。
数据分析工具3
3. Cluster heatmaps 聚类分析图(Cluster analyses are one of the most powerful methods to mine and visualize high-dimensional data. )包含三种聚类算法:
(斑点印迹法)
基因芯片概述

基因芯片(DNA芯片)是通过微阵列技术,根 据核酸杂交的原理,将大量探针分子固定于支 持物上,然后与标记的样品进行杂交,通过检 测杂交信号的强度及分布来进行分析。
基因芯片技术流程
基因芯片技术流程
基因芯片检测结果
什么是GEO数据库



随着微阵列芯片技术尤其是基因芯片的广泛应用, 产生了海量的数据,为基因研究提供大量高通量 数据资料。迫切需要一个统一管理的公共数据库。 基因表达数据库 (Gene Expression Omnibus, GEO)隶属于美国国立卫生研究院的 NCBI。 GEO是当今最大、最全面的公共基因表达数据 资源。 网址:/geo/
基因表达谱图
以Fto(肥胖基因)在二型糖尿病与肾脏功能试验中的表达谱为例:从原 始样本记录中提取的基因表达值以红色的条形柱表示。蓝色条形柱代表内部 样本的百分等级信息,以提供该基因与阵列上所有其它基因相互比较的相对 表达水平值。
点击各个样本,可以打开相关样 本的页面。
改变实验条件对数据进行 重新排列。
1. 从GEO数据库主页面右侧找到搜 索栏,直接输入要查找信息的关键 词或者检索词,如“mir29a”或者 “GDS2225 AND fto”,就会搜索 到相应的DataSets和Profiles。 2. 从主页面右侧直接打开库浏览器, 从中按照不同的“系列”、“平台 ”、“样本”、“物种”、“历史 ”来进行选择需要的数据类型。 3. 直接从GEO数据库的ftp服务器下 载。ftp:///geo/
GEO (Gene Expression Omnibus)数据库简介
报告人:沈健 2014.3.8
近几年来,随着分子生物 学技术的发展,微阵列芯 片技术已成为生物学研究 最重要的实验之一,尤其 是基因芯片的广泛应用, 产生了海量的数据,为基 因研究提供大量高通量数 据资料。
基因芯片发展历程
(DNA&RNA印记杂交)


平台数据包含阵列或序列 以及阵列平台的简要描述, 每一个平台都分配了一个 特有的检索号GPL***。 例如平台GPL341: http://www.ncbi.nlm.nih.go v/geo/query/acc.cgi?acc= GPL341
样本(Sample)

样本是指以一个平台为基础、描述某个杂交实验或者实验条 件的所有特征因素的大量测量信息,即关于被检查的mRNA 样本,实验条件,和实验产生的基因表达测量数据信息。每 个样品有一个而且只有一个必须先前被确定的亲代平台,同 一个提交者,一个平台和许多系列有关。
可直接链接到Entrez其它数据库并找到 相关的检索结果。
GEO数据的数据检索——关键词

GEO可和其他NCBI数据库一样用标准关键词的方 法和基于文本布尔检索、基于序列检索、基于特有 表达行为挖掘检索或结合这些参数来进行检索查询 例如:在GEO DataSets中可以用检索词

Hale Waihona Puke “prostate cancer AND human[Organism] ”寻 找有关人类前列腺癌微阵列实验数据集。
数据集组(DataSets)



GEO存储的是一个分类广泛的、经过多种手段处理和 不同方法分析的高通量实验数据。为了说明这些内容 ,GEO还增添了一个辅助分析工具,该工具可以把被 提交的样本归纳集中到有生物学意义和在统计学上可 比较的GEO数据集组(GEO DataSets),能提供关 于一个实验的相关梗概,以此作为下游数据挖掘和数 据显示工具的基础。 GEO数据集组(Datasets)储存了所有的元数据,提 供了GEO数据以“实验为中心”的主要观点。 数据集组的检索为GDS***。 例如:GDS2225.

在GEO DataSets中每个数据集组个体都各自 确定一个实验,而在GEO Profiles中每个数据 集组都对应多个表达谱个体。

对平台上的每个基因 (比如基因A),有多 个样本)测量值。多 个相关样本构成一个 数据集, 从中可以产生 单个或多个基因的表 达谱比较图。
GEO数据的数据检索——方法
数据分析工具3
可以对聚类图的聚类方法、高低 表达状态颜色重新进行选择。 在聚类图中框选其中一部分,可 以以txt格式下载这一部分基因数 据,也可以产生框选的这部分基 因对不同样本的表达量的比较图。 还可以在GEO Profiles库里对这 些基因进行比较。
数据分析工具4
4. Experiment design and value distribution(箱线图) a box plot displaying the distribution of expression values of each Sample within a DataSet. The plot is useful for determining whether the DataSet is normalized, i.e., the value distributions are median-centered across Samples.
表达谱(Profiles)


表达谱数据储存了来自于DataSets基因表达谱 信息。每一个表达谱都表现为一个能反映一个 数据集组中所有样本的基因表达量的统计图。 GEO 表达谱(Profiles)储存了单个基因表达 的数据资料,提供了GEO数据以“基因为中 心”的主要看法。
相关文档
最新文档