药物研发利器:基因表达谱数据库cMap(Connectivity Map)

药物研发利器:基因表达谱数据库cMap(Connectivity Map)
药物研发利器:基因表达谱数据库cMap(Connectivity Map)

science topics

Connectivity map (简称cmap) Todd Golub Eric Lander

为一个基因表达

谱数据库,是由与领导的菁英团队,集哈佛、剑桥大学与麻省理工学院等众多优秀研究人员所建构,利用小分子药物处理人类细胞后的基因表现差异,建立一个小分子药物、基因表现与疾病相互关连的生物应用数据库。研究团队认为以基因表达谱为所建立之基因、疾病与药物的关联性,应可协助学者们在药物开发领域上,快速利用基因表达谱的数据比对出与疾病高关联性的药物、推论大部分药物分子的主要化学结构,并能够归纳出药物分子可能作用的机制方向!目前已累积有药物分子,总共有超过笔的基因表达谱资料。

每一种药物分子会以不同浓度与在不同的细胞株、、理不同的时间点与小时基因表达谱数据区分成正向调控基因群与负向调控基因群进行分析,以运算基因图谱的相似程度为主,最后给予分数。分数越接近代表两者的药物分子为正相关,称作或是反之,与负向调控基因群的基因图谱相近之药物分子,则会呈现负值,称作或是细的分数运算方式可参考文献,本期的专文将着重应用方式的介绍与讨论。能正确输出与雌激素同或类似的药物结果。的基因表达谱数据需先分成正向调控与负向调控的基因群,此笔数据显著差异的正向调控基因数目有个,负向调控的基因则是个。经过的比对之后,类的药物均呈现图一、

cmap 建立方式

该团队的成果发表在国际科学期刊Science 1, 1,309 个 7000 (10nm 、100nm 、1 μM 10μM) 处理 (breast prostate leukemia 与 melanoma cell line),并处 (612)。1positive induce connection ;

score negative

药物研发利器:基因表达谱

数据库 cmap

reverse connection 。详

案例一:推论药物的主结构与药理作用天然雌激素受体的配体细胞株的数据,验证

该研究团队以 (natural estrogen receptor ligand),17β-estradiol (E2) 处理MCF7Microarray cmap 是否Microarray 12989cmap E2

high

Estrogen receptoragonists and antagonists

包括为人所熟知的大豆异黄酮其中在

当中所呈现出的药物分子,其药理作用也表示与所持之药理功能是相反的,例如窗体中类的药物分子,药理功能分类上是属于的药物。因此,应可进一步应用在未知药物处理之基因图谱分析,藉此先行推论未知药物的有效主结构或药理作用机转。

案例二:疾病图谱点出新药方向

大脑逐渐退化的过程,在人口高龄化的国家为重要的社会、健康以及经济危机之一。该研究团队亦进行阿兹海默症

的应用探讨,研究团队将前人发表的病人与正常人海马回与大脑皮质组织的基因表现图谱资料,分别筛选出其中

差异的基因,进行比对。分析结果在

药物分子

在细胞中的药理作用是能够缓解脑组织纤维化后所产生的神经细胞凋亡现象,的结构类似物有机会成为新药开发应用的重要标的。

图二、负相关药物分子

学结构

案例三:癌症细胞株亦可适用他类疾病

团队也验证精神科药物的药理作用图谱可以在非神经细胞中用精神科类药物细胞之后,将基因图谱置入比对,结果呈现这些基因图谱拥有表示精神科药物处理非神经细胞仍能判读出其药理的特性三

图三、抗精神病剂药物分子结构分析结果

案例四:中草药应用

大学的研究团队,亦利用探讨亚洲妇女时常食用的四物汤与数据库里小分子的关联。研究团队以传统中草药四物汤与雌激素处理人类之后,将基因表现图谱放入数据库进行分析比对,结果呈现高浓度四物汤雌激素的基因图谱,除了彼此基因图谱相似度高之外,所比对出的正相关药物分子都是属于雌激素类的药物如负相关药物分子则属于雌激素抑制剂,例如:药

positive connectivity scores,

(genistein) 也罗列(如图一)1;negative connectivity scores

E2

fulvestrant

anti-estrogenic

cmap

阿兹海默症是一种

(Alzheimer's disease,AD)

AD

40 与25个具显著

cmap negative connectivity scores 中出现

4,5-dianilinophthalimide (DAPH) (图二) 1,DAPH

DAPH

AD4,5-dianilinophthalimide (DAPH)之化

研究

(例如MCF7) 重现。利

(图三 A)1处理MCF7

cmap

high positive connectivity scores,

(图B) 1。

(A) (B) cmap

香港cmap

MCF7cmap

(图四) 2,例Estradiol、Genistein;

Fulvestrant (乳癌新) (图)。

A B

图四、

结论

案例可得知,于疾病导向之新药开发,应用于未知药物处理后之基因图谱分析,藉此先行归纳出未知药物的药理作用机转;能够导引出药物的结构类似物,并且进一步成为新药开发应用的重要标的;数据库不会受到细胞株或是组织的特异性影响导致基因图谱过于主观上的偏移。近年来的研究趋势也显示出利用基因表达谱数据库应用在疾病治疗与药物开发的领域上,可提供越来越精确的方向。此外,因中草药的成分

组成非常的复杂,引用的精神可帮助中草药厘清主要结构、药理作用

对四物汤之研究

基因图谱数据库,可成为一个重要的速率跳板。图五、正相关药物分子与负相关药物分子之化学结构参考文献:

Top CMAP hits correlated with SWT or estradiol treatment 由上述cmap有助

cmap

cmap

(如香港大学应用cmap )。在新药开发的漫长道路上,cmap Estradiol Genistein Fulvestrant

cmap Estradiol、Genistein

Fulvestrant

https://www.360docs.net/doc/f38622947.html,mb J, Crawford ED, Peck D, Modell JW, Blat IC, Wrobel

MJ, Lerner J, Brunet JP, Subramanian A, Ross KN, Reich M, Hieronymus H, Wei G, Armstrong SA, Haggarty SJ, Clemons PA,We i R,C a r r S A,L a n d e r E S,G o l u b T R.T h e

ConnectivitiyMap: using gene-expression signatures to connect small molecules, genes, and disease. Science. 2006

Sep 29;313(5795):1929-35.

2.Wen Z, Wang Z, Wang S, Ravula R, Yang L, Xu J, Wang C,

Zuo Z, Chow MS, Shi L, Huang Y. Discovery of molecular

mechanisms of traditional Chinese medicinal formula Si-Wu-Tang using gene expression microarray and connectivity map. PLoS One. 2011; 28;6(3):e18278.P1-14.

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

专业进展——药物基因组学

专业进展——药物基因组学 一、药物基因组学 药物基因组学:是研究人类基因变异和药物反应的关系,利用基因组学信息解答不同个体对同一药物反应存在差异的原因。 基因组(genome):是指生物体单倍细胞中一套完整的遗传物质,包括所有的基因和基因间区域(即编码区和非编码区)。 人类基因组计划是由序列(结构)基因组学向功能基因组学的转移。开启了人类的“后基因组时代”。 后基因组时代研究的重要方向: 功能基因组学 比较基因组学 结构基因组学 蛋白质组学 药物基因组学 …… 二、基因多态性 基因多态性是指在一个生物群体中,呈不连续多峰曲线分布的一个或多个等位基因发生突变而产生的遗传变异。 CYP450酶超大家族 共涉及1000种药物的代谢(拓展) 12种亚型:CYP1、CYP2、CYP3…… 15个亚家族:A~Q 如:CYP2C9、CYP2C19、CYP2D6、CYP3A5等 药物转运蛋白-MDR1(多药耐药基因)(拓展) 调控许多药物吸收、分布和排泄过程 与胆红素、抗癌化疗药物、强心苷、免疫抑制剂、糖皮质激素、HIVⅠ型蛋白抑制剂有关 药物靶蛋白-ADRB2 编码人β2肾上腺受体 人类白血球抗原-HLA-B HLA-B变异,将引起某些药物的严重皮肤反应 内容: 1.药物代谢酶的多态性 同一基因位点上具有多个等位基因引起,其多态性决定表型多态性和药物代谢酶的活性,造成不同个体间药物代谢反应的差异。是产生药物毒副作用、降低或丧失药效的主要原因之一。 细胞色素P450酶(CYP)是药物代谢的主要酶系。在细胞色素P450的亚群中,CYP2D6、CYP2C9和CYP2C19对许多药物的效应非常重要。(拓展) 例: 奥美拉唑、兰索拉唑和泮托拉唑等质子泵抑制剂由P450酶代谢,主要由CYP2C19,部分由CYP3A4代谢。 因此,CYP2C19的基因多态性会影响质子泵抑制剂的药动学,从而影响后者治疗相关疾病的临床效果。 埃索美拉唑仅经CYP3A4代谢。 2.药物转运蛋白 在药物的吸收、排泄、分布、转运等方面起重要作用,其变异对药物吸收和消除具有重要意义。 药物进入体内方式除被动扩散外,细胞的主动转运发挥着非常重要的作用。 例:

(完整版)医药信息数据库

医药信息数据库 Dialog中与医药相关的数据库有192个,与化学相关的数据库有65个,与知识产权相关的数据库有25个。Dialog数据库对于医药研发的全部过程提供完整的信息支持。 药物的生命循环 通常,从药物研发到普通药品上中须经过以下几个过程: ①研发筛选(R&D Screening),包括市场凋查(Market Survey)与专利调查(Patent Survey);②临床前研究(Preclincal Studies); ③临床阶段(Clinical Phases); ④新药批准上市(New Drug Approval); 整个研究是一个循环往复的过程,缺一环而不可。在药物研究过程中,更多的是依赖精心加上处理过的专业信息。我们应该选择针对性强、质量高、覆盖面大、有权威性的检索工具。另外,信息源的可靠性、获取数据的方便性、检索的效率都是是我们要考虑的首要因素。DIALOG系统具有600多个数据库,其中和制药相关的数据达200个,这些数据库在为制药企业提供各个环节数据和信息的同时,还利用其功能庞大的指令检索系统为企业提供了优秀的信息和情报的解决方案。 常见的医药数据库介绍如下: ADIS R&D Insight (ADIS 药物研发数据库) ADIS药物研发数据库是Adis International公司的产品。该数据库的信息来源InPharma、Reactions、PharmacoEconomics & Outcomes News、Clinical Trial Insights等2300种以上的药物、生物专业期刊,国际会议,公司年报和新闻报道等公开资料和非公开资料。数据库内容包括每种药品的普通名,同义名,商品名,开发公司,国家及开发阶段,所有权信息,峰期销售额,专利失效期,不良事件,药理学,药动力学,药效学,副反应,治疗实验,开发历史,注册信息和参考文献等等。 IMS R&D Focus (IMS 药物研发数据库) IMS药物研发数据库是IMS HEALTH公司的产品。该数据库偏重药物的商业信息,信息来源于药物公司调研、高层访谈和官方发布的资料,还包括一些医学期刊、国际会议,科学论文和专利文献等数据库内容包括每种药品的属名、药厂编号、CAS注册号、化学名称、同义词、治疗说明、专利文摘、发展历史、世界范围发展的最新阶段、商业潜力、公司活动、科研进展和专利信息。

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.360docs.net/doc/f38622947.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

总的来说新药的研发分为两个阶段

总的来说新药的研发分为两个阶段:研究和开发。这两个阶段是相继发生有互相联系的。区分两个阶段的标志是候选药物的确定,即在确定候选药物之前为研究阶段,确定之后的工作为开发阶段。所谓候选药物是指拟进行系统的临床前试验并进入临床研究的活性化合物。 研究阶段包括四个重要环节,即靶标的确定,模型的建立,先导化合物的发现,先导化合物的优化。 一、靶标的确立 确定治疗的疾病目标和作用的环节和靶标,是创制新药的出发点,也是以后施行的各种操作的依据。药物的靶标包括酶、受体、离子通道等。作用于不同的靶标的药物在全部药物中所占的比重是不同的。以2000年为例,在全世界药物的销售总额中,酶抑制剂占32.4%,转运蛋白抑制剂占16.0%,受体激动剂占9.1%,受体拮抗剂占10.7%,作用于离子通道的药物占9.1%等等。目前,较为新兴的确认靶标的技术主要有两个。一是利用基因重组技术建立转基因动物模型或进行基因敲除以验证与特定代谢途径相关或表型的靶标。这种技术的缺陷在于,不能完全消除由敲除所带来的其他效应(例如因代偿机制的启动而导致的表型的改变等)。二是利用反义寡核苷酸技术通过抑制特定的信使RNA对蛋白质的翻译来确认新的靶标。例如嵌入小核核糖核酸(snRNA)控制基因的表达,对确证靶标有重要作用。 二、模型的确立 靶标选定以后,要建立生物学模型,以筛选和评价化合物的活性。通常要制订出筛选标准,如果化合物符合这些标准,则研究项目继续进行;若未能满足标准,则应尽早结束研究。一般试验模型标准大致上有:化合物体外实验的活性强度;动物模型是否能反映人体相应的疾病状态;药物的剂量(浓度)——效应关系,等等。可定量重复的体外模型是评价化合物活性的前提。近几年来,为了规避药物开发的后期风险,一般同时进行药物的药代动力模型评价(ADME评价)、药物稳定性试验等。 三、先导化合物的发现 新药研制的第三步是先导化合物的发现。所谓先导化合物(leading compound),也称新化学实体(new chemical entity,NCE),是指通过各种途径和方法得到的具有某种生物活性或药理活性的化合物。因为目前的知识还不足以渊博到以足够的受体机制指导药物设计以使药物的合成不必使用预先已知的模型,所以,先导化合物的发现,一方面有赖于以上两步所确定的受体和模型,另一方面也成为了整个药物研发的关键步骤。一般来说,先导化合物主要有如下几个来源:对天然活性物质的挖掘、现有药物不良作用的改进以及药物合成心中间体的筛选等。目前,主要有两个获得新的先导化合物的途径。一是广泛筛选,这种毫无依据的方法在实际操作上其实是比较有效的。过去半个多世纪以来,由于这个原因,先导化合物的发现随机性很强,如从煤焦油中分离出的本份被发现具有抗菌作用因而被开发成为一系列诸如萨罗的抗生素;又如对染料中间体的筛选发现了苯胺以及乙酰苯胺具有解热镇痛作用,经改造得到了非那西丁和乙酰氨基酚等。近二十年来,计算机预筛被用于这一过程,大大加快了研究进程。另外,先导化合物的合理设计近年来也越来越成为这一领域的热点。所谓合理设计,是指根据已知的受体(或受体未知但有一系列配体的构效关系数据)进行有针对性的先导化合物设计,这种方法有别于一般普遍筛选的显著特点在于目的性强,有利于各种构效理论的进一步发展,因此前

有关药物基因组学的看法

有关药物基因组学的看法 药物基因组学是以药物效应和安全性为主要目标 ,研究药物体内过程差异 的基因特性,以及基因变异所致的不同病人对药物的不同反应 ,从而研究开发新的药物和合理用药方法的一门新学科。它是基于功能基因组学与分子药理学,从基因水平研究人类个体对药物效应不同的分子机理的学科。药物基因组学的创立,为研究高效、特效药物开辟了新的途径,为患者或特定人群寻找合适的药物及适宜的用药方法。随着1997法国成立了世界第一家独特基因与制药公司和2003 完成了人类历史上每个人的基因都是来自于父母,除了少部分的变异,大部分是一成不变的,由于很多人都会存在某些地方的基因缺陷,所以患上某些疾病的几率会比正常人大很多。而药物基因组学就是针对某个人或某类人专门设计出的药物,从而治疗这些人得上的特有的疾病。王老师曾在课堂上说过有关于东亚人种和欧美人种对于消化牛奶上的区别,并认为东亚人缺少充分消化牛奶的基因,并且以自身举例说喝了牛奶以后特别不舒服。我认为这就是关于基因组差异的一个具体体现。第一个人类基因组序列的测定和图谱的绘制。药物基因组学也走上了快速发展之路。 下面,我想说两点,一是药物基因组学其他科学的关系。二是药物基因组学和新药开发的关系。 一、药物基因组学其他科学的关系 药物基因组学与药物遗传学。药物基因组学虽然起源于药物遗传学,但两者在诸多方面有所不同,要表现在:1研究范畴:尽管两者都是研究基因的遗传学变异与药物反应关系的学科, 但药物遗传学主要集中于研究单基因变异, 特别是药物代谢酶基因变异对药物作用的影响。而药物基因组学除了覆盖药物遗传学研究范畴外,还包括与药物反应有关的所有遗传学标志,药物代谢靶受体或疾病发生链上诸多环节。2应用领域:一般来说,药物基因组学可应用于从药物发现、开发到临床应用的各个领域,较药物遗传学更广。 药物基因组学与基因组学相关学科。人类基因组学研究包括系统地测定和鉴别所有人类基因及基因产品,分析人类基因遗传学变异及不同基因在不同健康或疾病状态下的表达等。药物基因组学利用基因组学研究技术和方法,研究具有不同基因特征人群对药物治疗的反应,它是基因组学在药物开发和药物治疗学领域

新药研发的数据库

新药立项研发的数据库应用 1、PDB3.5药物综合数据库(中文)---上海数图 PDB3.5主要用于已知药物的信息查询,包括国外已上市新药的基本信息、畅销药的国外销售数据、国内已上市品种2005年以后的样本城市和样本医院的销售数据、具体厂家的销售数据分析。另外在药物战略信息里有汤姆森路透的信息,但后期不更新,品种较少。费用在3万/年左右。 PDB3.5药物综合数据库和Pharmproject V5数据库基本可满足3,6类新药研发,费用在3-5万/年 2、Pharmproject V5数据库(英文)--上海数图 Pharmproject V5主要用于新药的查新,其不仅可以用于已知药物的信息查询,同时可以筛选跟踪国外处于二期、三期任一领域的新药。有化合物专利信息。 3、Thomson Reuters(汤姆森路透英文)---Thomson Thomson Reuters是目前新药研发最权威数据库,主要用于新药的立项,具有筛选跟踪国外处于各阶段任一领域的新药。国外已上市品种的各种信息(包括销售),期刊文献信息。费用20万/年。汤姆森数据库太贵,可使用网上求助。 4、Ensemble 数据库(英文)--上海数图 Ensemble是上海数图下比较小的数据库,购买其他数据库可赠送,国外已上市药物的专利、文献信息。 5、IMS数据库(英文)--安美士公司 IMS数据库是比汤姆森数据库稍逊的一个备选数据库,其信息见下图,信息量比较丰富,可用于新药是筛选。据用过的人反应数据库反应速度较慢。费用10万/年。 6、彼速专利检索(中文)--彼速公司 目前国内专利检索软件中最全、效率最高的专利软件,3万买断。支持药品专利的全面检索,等同专利下载,批量下载。可免去到欧洲专利局、中国专利局逐一下载的痛苦。 彼速需购,可满足专利需求,毕竟国内做的是专利仿制药研发。 7、蓝宙(中文)--注册进度查询 小软件,能知道已注册品种的具体情况,比如是批,是退等详细

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.360docs.net/doc/f38622947.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

新药设计与开发期末考试复习试题

新药设计与开发复习题 名词解释题 1.H2 受体 是组胺受体的一个亚型,主要分布于胃壁细胞、血管和心室、窦房结上,可引起胃酸分泌过多,血管扩、心脏收缩加强、心率加快等生物效应。 2.H2受体拮抗剂 主要用于拮抗组胺引起的胃酸分泌,是治疗消化性溃疡很有价值的一类药物。 3.前药原理 前药是一类由于结构修饰后的化合物分子中的活性集团被封闭了起来而本身没有活性,但在体可代成为具有生物活性的药物。 前药原理是用化学方法把具有生物活性的原药转变成为体外无活性的衍生物,后者在体经酶解或非酶性水解而释放出原药而发挥药效。 4.先导化合物:简称先导物,是通过各种途径和手段得到的具有某种生物活性和化学结构的化合物,用于进一步的结构改造和修饰,是现代新药研究的出发点。 5.受体拮抗剂:与受体有较强亲和力而无在活性的药物。 6.受体:指能与激动剂高度选择性的结合,并随之发生特异性效应的生物大分子或大分子复合物。 7.受体扩散剂: 8. 软药:是指一类本身有治疗效用或生物活性的化学实体,当在体

呈现药效并达到治疗目的后,按预料的代途径和可控的代速率的代, 转变成无毒、无活性的代物。 简答或其他 1、计算机工作站软件系统组成? 答:(1)数据库;(2)参数运算系统;(3)数据转换系统;(4)解析系统;(5)预测系统;(6)显示系统;(7)操作系统 计算机数据库、数据转换系统组成? 答:数据库:包括了各类化合物数据、分子结构数据、基团参数数据和生物活性数据等。数据库系统的软件中包括操作系统(OS)、数据 库管理系统(DBMS)、主语言系统、应用程序软件和用户数据库。 数据转换系统组成:不知道 数据转换系统:通过数据转换程序将分子的结构数据转换成屏幕显示时所必须的直角坐标系的形式。(只找到定义) 2、新药设计的经典原理和方法有哪些?(PPT) 答:经典方法:前药原理,软药原理,拼合原理,生物电子等排原理,相似原理等;一般方法有类型演化和结构优化等 3、类似物设计的目的和结果是什么?答:目的是为了获得比先导化合物疗效更好,毒副作用更少,便于合成的新药。结果:药效保持或更好,药效减小或消失,毒副作用减少,新的药效。 4、Me too、Me better、Me new?

药物基因组学

药物基因组学 PART 01 药物基因组学 一、药物基因组学 药物基因组学:是研究人类基因变异和药物反应的关系,利用基因组学信息解答不同个体对同一药物反应存在差异的原因。 基因组(genome):是指生物体单倍细胞中一套完整的遗传物质,包括所有的基因和基因间区域(即编码区和非编码区)。 人类基因组计划是由序列(结构)基因组学向功能基因组学的转移。开启了人类的“后基因组时代”。 后基因组时代研究的重要方向: 功能基因组学 比较基因组学 结构基因组学 蛋白质组学 药物基因组学 …… PART 02 基因多态性 二、基因多态性 基因多态性是指在一个生物群体中,呈不连续多峰曲线分布的一个或多个等位基因发生突变而产生的遗传变异。 CYP450酶超大家族 共涉及1000种药物的代谢(拓展) 12种亚型:CYP1、CYP2、CYP3…… 15个亚家族:A~Q 如:CYP2C9、CYP2C19、CYP2D6、CYP3A5等 药物转运蛋白-MDR1(多药耐药基因)(拓展) 调控许多药物吸收、分布和排泄过程 与胆红素、抗癌化疗药物、强心苷、免疫抑制剂、糖皮质激素、HIVⅠ型蛋白抑制剂有关 药物靶蛋白-ADRB2 编码人β2肾上腺受体 人类白血球抗原-HLA-B HLA-B变异,将引起某些药物的严重皮肤反应 内容: 1.药物代谢酶的多态性 同一基因位点上具有多个等位基因引起,其多态性决定表型多态性和药物代谢酶的活性,造成不同个体间药物代谢反应的差异。是产生药物毒副作用、降低或丧失药效的主要原因之一。 细胞色素P450酶(CYP)是药物代谢的主要酶系。在细胞色素P450的亚群中,CYP2D6、CYP2C9和CYP2C19对许多药物的效应非常重要。(拓展) 例: 奥美拉唑、兰索拉唑和泮托拉唑等质子泵抑制剂由P450酶代谢,主要由CYP2C19,部分由CYP3A4代谢。 因此,CYP2C19的基因多态性会影响质子泵抑制剂的药动学,从而影响后者治疗相关疾病的临床效果。 艾司奥美拉唑仅经CYP3A4代谢。 2.药物转运蛋白 在药物的吸收、排泄、分布、转运等方面起重要作用,其变异对药物吸收和消除具有重要意义。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

空间数据库复习重点答案完整)

1、举例说明什么是空间数据、非空间数据?如何理解空间查询和非空间查询的区别?常用的空间数据库管理方式有哪几种及其各自特点。 数据:是指客观事务的属性、数量、位置及其相互关系等的符号描述。空间数据:是对现实世界中空间对象(事物)的描述,其实质是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据。河流的泛洪区,卫星影像数据、气象气候数据等都可以是空间数据书店名称店员人数,去年的销售量,电话号码等是非空间数据 空间查询是对空间数据的查询或命令 人工管理阶段 文件管理阶段缺点: 1)程序依赖于数据文件的存储结构,数据文件修改时,应用程序也随之改变。 2)以文件形式共享,当多个程序共享一数据文件时,文件的修改,需得到所有应用的许可。不能达到真正的共享,即数据项、记录项的共享。 常用: 文件与数据库系统混合管理阶段优点:由于一部分建立在标准的RDBMS上,存储和检索数据比较有效、可靠。 缺点:1)由于使用了两个子系统,它们各自有自己的规则,查询操作难以优化,存储在RDBMS外的数据有时会丢失数据项的语义。 2)数据完整性的约束条件可能遭破坏,如在几何空间数据系统中目标实体仍存在,但在RDBMS中却已删除。 3)几何数据采用图形文件管理,功能较弱,特别是在数据的安全性、一致性、完整性、并发控制方面,比商用数据库要逊色得多 全关系型空间数据库管理系统 ◆属性数据、几何数据同时采用关系式数据库进行管理 ◆空间数据和属性数据不必进行烦琐的连接,数据存取较快 ◆属性间接存取,效率比DBMS的直接存取慢,特别是涉及空间查询、对象嵌套等复杂的空间操作 ◆GIS软件:System9,Small World、GeoView等 本质:GIS软件商在标准DBMS顶层开发一个能容纳、管理空间数据的系统功能。 对象关系数据库管理系统 优点:在核心DBMS中进行数据类型的直接操作很方便、有效,并且用户还可以开发自己的空间存取算法。缺点:用户须在DBMS环境中实施自己的数据类型,对有些应用相当困难。 面向对象的数据库系统。 采用面向对象方法建立的数据库系统; 对问题领域进行自然的分割,以更接近人类通常思维的方式建立问题领域的模型。 目前面向对象数据库管理系统还不够成熟,价格昂贵,在空间数据管理领域还不太适用; 基于对象关系的空间数据库管理系统可能成为空间数据管理的主流 2、什么是GIS,什么是SDBMS?请阐述二者的区别和联系。 GIS是一个利用空间分析功能进行可视化和空间数据分析的软件。它的主要功能有:搜索、定位分析、地形分析、流分析、分布、空间分析/统计、度量GIS 可以利用SDBMS来存储、搜索、查询、分享大量的空间数据集 改:地理信息系统是以地理空间数据库为基础,在计算机软硬件的支持下,运用系统工 科学管理和综合分析具有空间内涵的地理数据,以提供管理、决策等所需信息的技术系统。简单的说,地理信息系统就是综合处理和分析地理空间数据的一种技术系统。

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

新药研发必看数据库

新药研发必看数据库 1 急性毒性数据库 简介:本数据库为哥伦比亚环境研究中心(CERC)自1965年起对410种化学物质和66种水域动物所进行的4,901项急性毒性测试结果,并分析了各种不同因素(温度、水硬度、pH值等)对结果的影响。检索者可通过“Searchable Database of Acute Toxicity Data”直接检索,也可在“ID Database”中先下载ID数据库(其中包括物质的化学分类名、化学名称、用途、毒性剂量单位、CA登录号)再编辑查寻。 2 化合物毒性相关数据库 Toxnet Toxnet是美国国家医学图书馆(nlm)的化合物毒性相关数据库,包括药品毒理学、危险化学品和其它相关领域的信息,从Toxnet可对下列子数据库进行检索: HSDB (危险化合物数据库):内含4500种毒性(或可能具有毒性的)化学药品,以及其毒性、对环境的影响、化学安全性、废弃物处置等相关领域的信息。 TOXLINE? :包括药物和其它化学物质的生物化学、药理学、生理学、毒理学的文献数据库。其中有300万条引文、几乎都有摘要和/或检索条、以及CA登录号。 ChemIDplus :对NLM数据库中的化学物质提供结构式和专业信息。IRIS (综合风险信息系统):由美国环保署 (EPA)建立的在线数据库,内含500多种化学物的EPA致癌和非致癌性健康危险评估。 TRI (毒性化学药品的排放调查) :内含1995-1999年每年向外界排放的毒性化学药品估计量,其中包括这些化学物质的名称、性状描述,以及排向大气、水域或土地的毒性化学物质量。 CCRIS (化学致癌作用研究信息系统) :内含8,000多种化学物质短期或长期生物分析所得的评估数据及信息。这些分析涉及到致癌物、诱变剂、辅致癌物质和肿瘤启动物质、致癌物的抑制剂和代谢物。 GENE-TOX:内含 3,000 多种化学物质的基因毒理学测试结果。DART?/ETIC (发展与再生毒理学/环境畸形学信息中心):本库收录了自1950年来发表的有关畸形学和发展毒理学的文献 3 SpectraOnline,Galact Default_ie.htm 可在线检索各类图谱。检索方式有:化合物名称(Compound name)、CA登记号(CAS number)、分子式(Molecular formula)、分子量(Molecular weight)、通过图谱的匹配。检索得到的结果有以下内容:化合物名称、分子式、分子量、摘录号、熔点、沸点、同义词、结构式。收录的图谱有:红外图谱(FT-IR)、碳谱(13CNMR Spectrum、氢谱(1HNMR Spectrum、质谱Mass Spectrum、拉曼光谱(Raman Spectrum)、紫外图谱(UV/Vis spectrum)。并介绍各试验样品的来源、图谱的出处等。如果是该数据库的注册用户,还可以向数据库上传自己的图谱或文件。 4 临床药物试验研究信息 https://www.360docs.net/doc/f38622947.html,给病人,病人家属,卫生保健专业人员及公众提供有关在各种疾病中进行的药物临床研究信息。美国国立卫生研究院(NIH)与所有的NIH研究所和FDA合作,通过其国立医学图书馆(NLM)建立了这个网站。 https://www.360docs.net/doc/f38622947.html,于2000年2月开通,目前包含由NIH、其他联邦机构及遍布全球75000多个地方的制药企业发起的约6800项临床研究。数据库中列出的临床研究主要在美国和加拿大进行,但包括在约80个国家中的临床研究点。 从https://www.360docs.net/doc/f38622947.html,中可以获得的一项临床研究资料有:临床研究方案摘要包括:研究目的概述;参与者招募情况;病人参与标准;研究地点和具体联系方式;其它信息包括:

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数 对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。 常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件: d( X ,Y ) ≧ 0 d( X ,Y ) = d( Y ,X ) d( X ,Y ) = 0 if X = Y

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场 革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、 全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集 基因表达数据采集可分为三个步骤:微阵列设计、 图像分析和数据获取、过滤、标准化。基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。为了方便数据处理,常 孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03 基因表达谱数据分析技术 刘 玲 (江苏财经职业技术学院,江苏淮安 223001) 摘 要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监 督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。关键词:基因表达谱;分类;无监督;有监督;基因调控网络中图分类号:Q81;TP181 文献标识码:A Gene Expression Data Analysis LIU Ling (Jiangsu Vocational College of Finance &Econimics ,huai ’an 223001,China ) Abstract :As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ; classification ;gene regulatory network Vol.18No.6Dec 2010 第18卷第6期2010年12月 电脑与信息技术Computer and Information Technology 收稿日期: 2010-06-09项目资助: 江苏省淮安市科技发展计划项目(HAG08015)作者简介: 刘玲(1964-),山东胶州人,副教授,硕士,主要研究方向:生物信息。

相关文档
最新文档