针刺抗哮喘差异表达蛋白的生物信息学分析

文章编号:1005-0957(2014)09-0875-04 ·综述· 针刺抗哮喘差异表达蛋白的生物信息学分析

冉君1,尹磊淼2,王宇2,徐玉东2,刘艳艳2,杨永清1

(1.上海中医药大学,上海 201203;2.上海市针灸经络研究所,上海 200030)

【摘要】目的对针刺抗哮喘差异表达蛋白的生物学功能和分子网络进行分析,探讨生物信息学方法在针灸研究中的应用和思路。方法利用分类系统(PANTHER)、信号通路交互作用数据库(Pathway Interaction Database,PID)、分子网络作用软件(Ingenuity Pathway Analysis,IPA)分别对针刺抗哮喘差异表达蛋白进行分子生物功能注释、信号通路、蛋白相互作用和分子调控网络分析。结果多个针刺抗哮喘差异表达蛋白与免疫系统功能密切相关,涉及了RhoA信号通路、Toll样受体信号通路、嗜酸性粒细胞Ccr3信号通路、T细胞IL-2R beta活化通路等生物通路,通过调控下游细胞因子,影响CD4分子的功能,发挥免疫调节作用。结论通过对针刺抗哮喘差异表达蛋白的生物信息学分析获得了针刺抗哮喘作用免疫相关分子通路和调控靶点,为进一步研究针刺抗哮喘的免疫相关分子机制奠定基础。

【关键词】针刺;哮喘;差异表达蛋白;生物信息学

【中图分类号】 R2-03 【文献标志码】 A

DOI:10.13460/j.issn.1005-0957.2014.09.0875

Bioinformatic Analysis of Differentially Expressed Proteins in Anti-asthma Acupuncture RAN Jun1, YIN Lei-miao2, WANG Yu2, XU Yu-dong2, LIU Yan-yan2, YANG Yong-qing1. 1.Shanghai University of Traditional Chinese Medicine,Shanghai 201203,China; 2. Shanghai Research Institute of Acupuncture and Meridian,Shanghai 200030,China

[Abstract] Objective To analyze the biological functions and molecular networks of differentially expressed proteins in anti-asthma acupuncture and explore the application of bioinformatic methods to and ideas for acupuncture research. Methods PANTHER classification system, Pathway Interaction Database (PID) and Ingenuity Pathway Analysis (IPA) software were used for molecular biological function annotation of differentially expressed proteins in anti-asthma acupuncture and analyses of signaling pathways, protein-protein interactions and molecular regulatory networks. Results Several differentially expressed proteins in anti-asthma acupuncture were closely related to immune system function and involved in biological pathways including RhoA signaling pathway, Toll-like receptor signaling pathway, eosinophils Ccr3 signaling pathway and T cell IL-2R beta activation pathway. They produced an immunoregulatory effect by modulating downstream cytokines and influencing CD4 molecule function). Conclusion Immune-related molecular pathways and regulation targets involved in the anti-asthma effect of acupuncture are obtained by bioinformatic analysis of differentially expressed proteins in anti-asthma acupuncture, which provides a basis for further research on the immune-related molecular mechanisms of acupuncture treatment for asthma.

[Key words] Acupuncture; Asthma; Differentially expressed protein; Bioinformatics

支气管哮喘是世界范围内严重影响人类身心健康的呼吸道慢性变态反应性疾病,全球约有3亿人罹患哮喘,我国大约有3 000万哮喘患者,其发病率和死亡率在世界范围内呈逐年增高趋势[1-2]。针灸在防治哮喘的过程中发挥了积极作用[3-5],我们采用河南中医学院邵经明教授60余年经验总结的“三穴五针”方法治疗哮喘[6],取得了良好的临床疗效。临床和动物实验研究均证实针刺治疗具有免疫调节作用。本课题组前期开展了针刺抗哮喘差异蛋白质组学研究,鉴定了针刺抗哮喘血清和肺组织中的差异表达蛋白[7-8]。本次研究采用生物信息学分析方法,利用PANTHER、PID、IPA 等在线分析工具对这些针刺抗哮喘差异表达蛋白进行生物功能和分子网络作用分析,为进一步研究针刺抗哮喘分子机制和调节靶点提供科学依据。

1 资料与方法

1.1 针刺抗哮喘差异表达蛋白

针刺抗哮喘差异表达蛋白来自课题组前期通过蛋白质组学技术鉴定的针刺治疗哮喘特异性差异表达蛋白[7-8],见表1。

1.2 生物信息学分析方法

1.2.1 GO(基因本体)分子生物功能注释

在线分类系统PANTHER(http://www.pantherdb. org/)采用基因本体分类方法,可以从分子功能、生物学过程、生物通路3方面对蛋白质、基因及转录物进行分类。该研究主要是通过PANTHER分析针刺抗哮喘差异表达蛋白所涉及的生物学过程。

表1 针刺抗哮喘差异表达蛋白

蛋白名称基因名称通用蛋白质资源数据库ID 膜联蛋白A5 Anxa5 P14668

肌动蛋白αActa1 P60711

钠钾ATP酶蛋白a1 Atp1a1 P06685

ATP合酶α1亚型 Atp5α1 P15999

白蛋白 Alb P02770

AICAR甲酰基转移酶 Atic O35567

碳酸酐酶2 Ca2 P27139

肌动蛋白结合蛋白1 Cfl1 P14659

Clara细胞10-kD蛋白 CC10 P17559

肌酸磷酸激酶 Ckb P07335

亲环蛋白A CypA P10111

神经元、肌肉特异性烯醇化酶2 Eno2 P07323

甘油醛-3-磷酸脱氢酶 Gapdh P04797

热休克蛋白2 Hspa2 P14659

肌侵蛋白 Mtpn P62775

蛋白二硫化物异构酶A6 Pdia6 Q63081

过氧化还原酶6 Prdx6 O35244

人丝氨酸蛋白酶1 Prss1 P00762

26S蛋白酶调节亚型 Psmc6 Q32PW9

磷酸激酶1 Pgk1 P16617

RAS抑制蛋白1 Rsu1 D3ZCX0

晚期糖基化终末产物 RAGE Q63495

Rho、GDP解离抑制因子 RhoGDI Q5M860

S100钙结合蛋白A8 S100A8 P50115

S100钙结合蛋白A9 S100A9 P50116

S100钙结合蛋白A11 S100A11 Q6B345

乙酰神经氨酰酸合酶 Nans B1WC26

1.2.2 信号通路分析

通路相互作用数据库PID(Pathway Interaction Database,https://www.360docs.net/doc/3318865185.html,/),是由美国国立癌症研究所(NCI)和自然出版集团(NPG)共同创立,截止到2012年9月提供了16 823条细胞信号转导、调节活动及主要细胞生命的蛋白质路径信息[9]。本次研究通过该数据库查询针刺抗哮喘差异表达蛋白所涉及的信号通路。

1.2.3 蛋白相互作用分析

IPA(Ingenuity Pathway Analysis,http://www. https://www.360docs.net/doc/3318865185.html,/)是一款一体化的基于网络的软件应用程序,可实现基因表达、miRNA和SNP微阵列及代谢组学、蛋白质组学和RNAseq实验数据的分析、整合和理解。该软件已被世界顶尖的制药公司和科研机构广泛使用,至今引用该软件发表的高水平科研文献已超过 3 000篇[10]。本研究主要选择该软件核心分析功能(Core analysis),构建了蛋白相互作用可视化网络。

1.2.4 分子调控网络分析

IPA软件整合了基因组、转录组、蛋白质组、代谢组,以及生物大分子之间及与药物小分子的相互作用网络,通过IPA路径挖掘(Path Explorer)功能可以对目的分子进行特定靶点、分子上下游调控、候选生物标记物、药物毒性分析等。本次研究主要对针刺抗哮喘差异表达蛋白进行分子上下游调控分析。

2 结果

2.1 针刺抗哮喘差异表达蛋白GO生物功能

通过PANTHER在线分析工具对针刺抗哮喘差异表达蛋白进行生物学过程功能注释。结果显示见图1。这些差异表达蛋白主要涉及了代谢过程、细胞过程、细胞定位、免疫系统过程、细胞组成和生源、生物进展过程、生物调节、生物粘附、应激反应9类生物学功能。其中免疫系统功能分类中包括了CypA、S100A8、S100A9、S100A11、RAGE等针刺抗哮喘差异表达蛋白,说明针刺抗哮喘效应与这几个蛋白的免疫调节作用相

关。

图1 基于PANTHER分类系统的针刺抗哮喘差异表达蛋白生

物功能分类

2.2 针刺抗哮喘差异蛋白信号通路

通过PID数据库对针刺抗哮喘差异表达蛋白分布的信号转导通路进行分析。结果见表2,针刺抗哮喘差异蛋白主要参与RhoA信号通路(RhoA signaling pathway)、Toll样受体信号通路(Endogenous TLR signaling)、嗜酸性粒细胞Ccr3信号通路(Ccr3 signaling in eosinophils)、细胞粘附通路(Cell to cell adhesion signaling)、T细胞IL-2R beta活化通路(Il-2 receptor beta chain in t cell activation)、整合素信号通路(Integrin signaling pathway)等生物通路。这些信号通路与免疫、炎症、T 细胞和嗜酸性粒细胞活化作用密切相关,说明针刺可以通过调节这些信号通路发挥抗哮喘作用。

表2 基于PID 数据库的针刺抗哮喘差异表达蛋白信号通路分析

通路名称

蛋白数针刺抗哮喘差异表达蛋白 RhoA signaling pathway 3 RhoGDI,Cfl1,Acta1 Endogenous TLR signaling

2 S100A8,S100A9 FOXA transcription factor network 2 Alb,CC10 Agrin in postsynaptic differentiation 1 Acta1 Amb2 Integrin signaling 1 RAGE Ccr

3 signaling in eosinophils 1 Cfl1 Cell to cell adhesion signaling 1 Acta1 CXCR4-mediated signaling events 1 Cfl1 D4gdi signaling pathway

1 RhoGDI Erk and pi-3 kinase are necessary for collagen binding in corneal epithelia 1 Acta1 HIF-1-alpha transcription factor network 1 Pgk1 Il-

2 receptor beta chain in t cell activation 1 CypA Integrin signaling pathway

1 Acta1 Mcalpain and friends in cell motility 1 Acta1 Nfat and hypertrophy of the heart 1 Acta1 Rac1 cell motility signaling pathway 1 Cfl1 RAC1 signaling pathway

1 Acta1 Regulation of cytoskeletal remodeling and cell spreading by IPP complex components 1 Rsu1 Stress induction of hsp regulation 1 Acta1 Vegf hypoxia and angiogenesis 1 Acta1 Vpu mediated degradation of CD4

Psmc6

2.3 针刺抗哮喘差异表达蛋白相互作用分析

将针刺抗哮喘差异表达蛋白用IPA 软件进行蛋白-蛋白相互作用网络分析,发现其中有10个针刺抗哮喘差异表达蛋白存在直接或间接的相互作用关系。详见图2。该网络图显示,这10个差异表达蛋白分布在细胞的各个部位,如位于细胞膜外的CC10、Alb、Prss1,细胞膜上的Anxa5、RAGE,细胞质中的Prdx6、CypA、S100A8、S100A9以及细胞核中的Cfl1蛋白,这为针刺的信号传导提供了空间基础;其中CC10、CypA、RAGE 可以调节其他多个蛋白,说明这两个蛋白在针刺抗哮喘过程中可能具有上游的调节作用,而S100A8、S100A9则受到多个蛋白的调节,提示这两个蛋白在针

刺抗哮喘过程中可能具有下游的效应作用。

图2 基于IPA 软件的针刺抗哮喘差异表达蛋白的蛋白-蛋

白相互作用

绿色分子是针刺抗哮喘差异表达蛋白,白色分子是组建网络所需分子。实线表示直接联系,虚线表示间接联系,箭头表示作用方向。

2.4 针刺抗哮喘差异蛋白分子调控分析

利用IPA 路径挖掘功能对CC10、S100A8、CypA 几个关键蛋白进行分子调控网络分析。结果显示见图3,CC10蛋白受到糖皮质激素的上游调节,而影响下游的联蛋白1(ANXA1)、核转录因子kB(NFkB)、嗜酸粒细胞趋化蛋白Eotaxin1(CCL11)、IFN-γ、补体C3(C3)、前列腺素内过氧化物酶2(PTGS2)、维连接蛋白1(FN1)以及细胞因子IL-4、IL-5、IL-13;S100A8蛋白受到钙离子(Ca 2﹢)、S100A9的调节,能够影响下游Toll 样受体4(TLR4)、非受体酪氨酸激酶(TEK)、丝裂原活化蛋白激酶(MAPK)、心肌素样蛋白2(MKL2)、免疫球蛋白、精氨酸甲基转移酶1(PRMT1)以及细胞因子IL-4、IL-10、IL-13等;CypA 受到过氧化氢(H 2O 2)、PRDX6、环孢菌素A(CsA)的上游调节,影响了下游基质金属蛋白酶9(MMP9)、NFkB、纤维蛋白原(FNG)、细胞外调节蛋白激酶(ERK1/2)、细胞分裂周期蛋白42(CDC42)、TEK、PRDX6、FN1、Cfl1以及细胞因子IL-2、IL-4、IL-5、IL-13和趋化因子CCL3(巨噬细胞炎性蛋白1α)、CCL5(受激活调节正常T 细胞表达和分泌因子)等。值得注意的是3个蛋白均可以调节多种细胞因子,对CD4产生调控作用,而CD4细胞又是免疫系统中最重要的免疫细胞;此外CypA、CC10蛋白又与T 细胞相关趋化因子CCL3、CCL5、CCL11相关,说明针刺抗哮喘效应可能通过针刺抗哮喘差异表达蛋白对CD4分子的调控作

用而发挥,它可能是针刺抗哮喘的作用靶点。

图3 基于IPA 软件的针刺抗哮喘差异表达蛋白分子调控网

络(实线表示直接关系,虚线表示间接关系)

3 讨论

生命科学是21世纪前沿学科,随着人类基因组遗传图、物理图的相继完成,功能基因组和蛋白质组研究成为后基因时期主要研究热点。针灸学是生命科学的分支学科之一,针灸研究也是生命科学研究的一个重要组成部分。利用生命科学的理论、技术与方法来研究针灸效应,可以为针灸作用分子途径和机制研究提供新的线索,更好地阐述针灸效应这一生命活动现象。

蛋白质是机体细胞功能的主要执行者,对大多数蛋白质都是以多个蛋白质相互作用的形式完成不同的细胞功能。针刺抗哮喘差异表达蛋白功能分类显示,CypA、S100A8、S100A9、S100A11、RAGE 等差异表达蛋白与机体免疫调节作用密切相关,并与RAGE、Alb、Cf1等蛋白具有直接或间接的相互作用关系,涉及了RhoA 信号通路、Toll 样受体信号通路、T 细胞IL-2R beta 活化通路、嗜酸性粒细胞Ccr3信号通路等生物通路。其中RhoA 信号通路与气道炎症、气道高反应性

[11]

密切相关;Toll 样受体信号通路可以激活天

然免疫,是诱导T 细胞分化的关键因子,能够促进Th0细胞向Th1细胞分化[12];T 细胞IL-2R beta 的活化能够促进调节性T 细胞的分化;嗜酸性粒细胞Ccr3信号通路对Th2型免疫反应嗜酸性粒细胞聚集、脱颗粒具有重要调节作用。这些差异表达蛋白和信号通路的改变,说明针刺刺激机体后能够调节免疫相关蛋白,并通过协同作用将信号传递至胞内,调节免疫、炎症信号通

路发挥抗哮喘作用。

哮喘是一种慢性气道炎症性疾病,Th1/Th2和Th17/Treg 平衡理论是哮喘发病机制的核心。CD4分子在哮喘气道炎症的发生、发展中起到重要的作用,CD4分子主要表达于辅助T 细胞,参与Th 细胞TCR 识别抗原的信号转导,初始CD4﹢T 细胞可分化为Th1、Th2、Th17和Treg4种调节性T 细胞亚型,而细胞因子微环境决定了初始CD4﹢T 细胞的分化倾向。分子调控网络分析显示CC10、CypA、S100A8等针刺抗哮喘差异表达蛋白可以对下游IL-4、IL-5、IL-10、IL-12、IL-13和IL-17等细胞因子产生调控作用,并有可能改变Th 细胞的外周因子环境,影响初始CD4﹢T 细胞的分化,进而发挥免疫调节作用。通过分子调控网络可以发现CD4分子是针刺抗哮喘效应的靶点分子,不仅受到一种差异表达蛋白的影响,多个差异蛋白均参与了这一调节作用,这为针刺的双向免疫调节作用提供了理论依据。

参考文献

[1] Braman SS. The global burden of asthma[J]. Chest, 2006,130(1S):

4S-12S.

[2] Global Strategy for Asthma Management and Prevention. Global

Initiative for Asthma (GINA) 2014. Available from: https://www.360docs.net/doc/3318865185.html,/.

[3] Fung KP, Chow OK, So SY . Attenuation of exercise-induced asthma

by acupuncture[J]. Lancet, 1986,2(8521-22):1419-1422.

[4] Choi JY , Jung HY , Kim JI, et al . A randomized pilot study of acupunc-

ture as an adjunct therapy in adult asthmatic patients[J]. J Asthma, 2010,47(7):774-780.

[5] Xu J, Zheng S, Fang W. Role of combining spreading moxibustion

and point injection in reducing ECP and LPO levels and improving lung function[J]. J Acupunct Tuina Sci, 2014, 12(1):12-16.

[6] Yang YQ, Chen HP, Wang Y , et al . Considerations for use of

acupuncture as supplemental therapy for patients with allergic asthma[J]. Clin Rev Allergy Immunol, 2013,44(3):254-261. [7] Wang Y , Cui JM, Ma SL, et al . Proteomics analysis of component in

serum with anti-asthma activity derived from rats treated by acupuncture[J]. J Acupunct Tuina Sci, 2009,7(6):326-331. [8] Xu YD, Cui JM, Wang Y , et al . Proteomic analysis reveals the

deregulation of inflammation-related proteins in acupuncture-treated rats with asthma onset[J]. Evid Based Complement Alternat Med, 2012:850512.

[9] Andrieux G , Le Borgne M, Théret N. An integrative modeling

framework reveals plasticity of TGF-β signaling[J]. BMC Syst Biol, 2014,(8):30.

[10] Nurnberger JI Jr, Koller DL, Jung J, et al . Identification of pathways

for bipolar disorder: a meta-analysis[J]. JAMA Psychiatry, 2014, 71(6):657-664.

[11] Gerthoffer WT, Solway J, Camoretti-Mercado B. Emerging targets for

novel therapy of asthma[J]. Curr Opin Pharmacol, 2013,13(3): 324-330.

[12] Iwasaki A, Medzhitov R. Toll-like receptor control of the adaptive

immune responses[J]. Nat Immunol, 2004,5(10):987-995.

收稿日期2014-02-25

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

BioEdit实验报告

生物信息学引论实验课报告（3）一、实验目的与要求 1、熟悉使用BioEdit软件基于核酸序列比对分析的真核基因结构分析； 2、熟悉使用BioEdit软件进行核酸序列的点突变定位；二、实验内容（一）使用BioEdit软件进行序列分析（选取一种数据）；（二） 1. 人瘦素(leptin) 基因编码区点突变408 A→C的定位：打开BioEdit软件→将人瘦素(leptin) mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击Sequence栏→选择Nucleic Acid→点击Find next O RF→从起始密码ATG的第一个碱基开始查找该基因编码区408（464，NM_000230）位碱基（A）； 2. 人瘦素(leptin) 基因编码区点突变408 A→C的限制酶切点分析：再点击Sequence栏→选择Nucleic Acid→点击Restriction M ap→点击Generate Map按钮→找到该基因编码区408（464，NM_000230）位碱基后可见该位置有限制酶Hind III 的切点（AAGCTT）；（提示：如发生408 A→C突变，则该酶切点消失）； 3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计：调用Internet浏览器并在其地址栏输入primer3网址（https://www.360docs.net/doc/3318865185.html,/cgi-bin/primer/primer3.cgi）→用复制/粘贴方式将人瘦素(leptin) mRNA（NM_000230）的FASTA格式序列输入分析框→在targets框填入464，1→选择Product Size (~300 bp)和Primer Tm (~58.0) →点击Pick Primesr按钮→从显示的五队引物中选择合适的引物； 4. 人瘦素(leptin) mRNA定量的引物设计：方法同“3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计”，但在targets框将突变点位置改为外显子交会点位置，另外Product Size 一般选择~150 bp。

生物信息学专业实习总结范文

《浙江大学优秀实习总结汇编》生物信息学岗位工作实习期总结转眼之间，两个月的实习期即将结束，回顾这两个月的实习工作，感触很深，收获颇丰。这两个月，在领导和同事们的悉心关怀和指导下，通过我自身的不懈努力，我学到了人生难得的工作经验和社会见识。我将从以下几个方面总结生物信息学岗位工作实习这段时间自己体会和心得：一、努力学习，理论结合实践，不断提高自身工作能力。在生物信息学岗位工作的实习过程中，我始终把学习作为获得新知识、掌握方法、提高能力、解决问题的一条重要途径和方法，切实做到用理论武装头脑、指导实践、推动工作。思想上积极进取，积极的把自己现有的知识用于社会实践中，在实践中也才能检验知识的有用性。在这两个月的实习工作中给我最大的感触就是：我们在学校学到了很多的理论知识，但很少用于社会实践中，这样理论和实践就大大的脱节了，以至于在以后的学习和生活中找不到方向，无法学以致用。同时，在工作中不断的学习也是弥补自己的不足的有效方式。信息时代，瞬息万变，社会在变化，人也在变化，所以你一天不学习，你就会落伍。通过这两个月的实习，并结合生物信息学岗位工作的实际情况，认真学习的生物信息学岗位工作各项政策制度、管理制度和工作条例，使工作中的困难有了最有力地解决武器。通过这些工作条例的学习使我进一步加深了对各项工作的理解，可以求真务实的开展各项工作。二、围绕工作，突出重点，尽心尽力履行职责。在生物信息学岗位工作中我都本着认真负责的态度去对待每项工作。虽然开始由于经验不足和认识不够，觉得在生物信息学岗位工作中找不到事情做，不能得到锻炼的目的，但我迅速从自身出发寻找原因，和同事交流，认识到自己的不足，以至于迅速的转变自己的角色和工作定位。为使自己尽快熟悉工作，进入角色，我一方面抓紧时间查看相关资料，熟悉自己的工作职责，另一方面我虚心向领导、同事请教使自己对生物信息学岗位工作的情况有了一个比较系统、全面的认知和了解。根据生物信息学岗位工作的实际情况，结合自身的优势，把握工作

【高中生物】功能基因的克隆及生物信息学分析

（生物科技行业）功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析摘要：随着多种生物全基因组序列的获得，基因组研究正从结构基因组学（structuralgenomics）转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等)，其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1]，它代表了基因分析的新阶段，已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物，发展和应用新的实验手段，通过在基因组或系统水平上全面分析基因的功能，使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究，是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因，也成为我们面临的一个课题，本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。关键词：功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法图位克隆又称定位克隆，它是根据目标基因在染色体上确切位置，寻找与其紧密连锁的分子标记，筛选BCA克隆，通过染色体步移法逐步逼近目的基因区域，根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因，得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息，从突变体开始，逐步找到基因，最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆，最近也有报道某些控制数量性状的主效基因（控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等）也通过图位克隆法获得。 1.2同源序列克隆目的基因首先根据已知的基因序列设计PCR引物，在已知材料中扩增到该片段，并经克隆测序验证，利用放射性同位素标记或其他非同位素标记该PCR片段作为探针，与待研究材料的cDNA文库杂交，就可以获得该基因cDNA克隆，利用克隆进一步筛选基因组文库，挑选阳性克隆，亚克隆并测序，从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

生物信息学的主要研究内容

常用数据库在DNA序列方面有GenBank、EMBL和等在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等在蛋白质和其它生物大分子的结构方面有PDB等在蛋白质结构分类方面有SCOP和CATH等生物信息学的主要研究内容 1、序列比对（Alignment）基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包BLAST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建（Homology）和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。 5、非编码区分析和DNA语言研究，是最重要的课题之一在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。 6、分子进化和比较基因组学，是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群（Contigs）装配一般来说，根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明，这是一个NP-完备

生物信息学分析

4、生物信息学分析通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%，以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行，即完全匹配的1020bp长度序列（本次提取基因中包含上下游引物等序列，较长，1346bp）。 4.1基本信息表1 基因基本信息 4.2基因组信息表2 基因组信息

5、PLN02341（PfkB型碳水化合物激酶家族蛋白），位点208-294 6、PTZ0029（核糖激酶），位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析预测结果显示，PfkB蛋白的二级结构中β转角占46.61%，α螺旋占33.63%，β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明：蛋白长度339aa，预测跨膜蛋白数0。图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽，由此推断此蛋白不包含信号肽，不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析分析结果显示，蛋白最大疏水指数为2.411，最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析表3 基因同源性分析菌株序列覆盖率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

生物信息学实验指导书_新版本

生物信息学实验指导书重庆邮电大学

生物信息学实验指导书生物信息教学部谭军编重庆邮电大学生物信息学院

前言生物信息学是上世纪90年代初人类基因组计划(HGP)依赖，随着基因组学、蛋白组学等新兴学科的建立，逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科，可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势，充分展现投入少、见效快、起点高的特色，推动学校学科建设和本科教学水平。本实验指导书中的8个实验均设计为综合性开发实验，面向生物信息学院全体本科学生和研究生，以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障，包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验，并不少于8个学时，即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。

实验一熟悉生物信息学网站及其数据的生物学意义实验目的：培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力，熟悉生物信息学相关的一些重要国内外网站，及其核酸序列、蛋白质序列及代谢途径等功能相关数据库，学会下载生物相关的信息数据，了解不同的数据文件格式和其中重要的生物学意义。实验原理：利用互联网资源检索相关的国内外生物信息学相关网站，如：NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息学中心等，下载其中相关的数据，如fasta、genbank格式的核算和蛋白质序列、pathway等数据，理解其重要的生物学意义。实验内容： 1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站，并描述网站特征； 2.下载各网站的代表性数据各10条（组）以上，并说明其生物学意义； 3.讨论各网站适合做何种生物信息学研究的平台，并设计一个研究设想。实验报告： 1.各网站网址及特征描述； 2.代表性数据的下载和生物学意义的描述； 3.讨论：这些生物信息学相关网站的信息资源，可以被那些生物信息学研究所利用。参考书目：《生物信息学概论》罗静初等译，北京大学出版社， 2002；《生物信息学手册》郝柏林等著，上海科技出版社， 2004；《生物信息学实验指导》胡松年等著，浙江大学出版社， 2003。

生物信息学简介范文

1、简介生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学，蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：（1）新算法和统计学方法研究；（2）各类数据的分析和解释；（3）研制有效利用和管理数据新工具。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。 1990年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪，如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设”。生物信息学的主要研究方向：基因组学- 蛋白质组学- 系统生物学- 比较基因组学，1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议，生物信息学发展到了计算生物学、计算系统生物学的时代。姑且不去引用生物信息学冗长的定义，以通俗的语言阐述其核心应用即是：随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，目前已达到每14个月翻一番的速度。同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初组阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。原始的生物信息资源挖掘出来后，生命科学工作者面临着严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？生物信息学产业的高级阶段体现于此，人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。 2、发展简介生物信息学是建立在分子生物学的基础上的，因此，要了解生物信息学，就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在，1871年Miescher从死的白细胞核中分离出脱氧核糖核酸（DNA），在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前，人们仍然认为染色体蛋白质携带基因，而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测

生物信息学分析实验报告

1、分别写出2010年以来，国际上与Ovarian cancer、Breast cancer、Leukemia相关的文献有多少篇？写出3篇研究性论文标题和摘要，写出5篇综述性论文标题和摘要；数据库：科学引文索引数据库(SCI：Science Citation Index) https://www.360docs.net/doc/3318865185.html, 与Ovarian cancer相关的文献有11,303篇与Breast cancer相关的文献有56,209篇与Leukemia相关的文献有32,912篇综述性论文标题和摘要 1.Hemochromatosis and ovarian cancer 摘要:Evaluation of: Gannon PO, Medelci S, Le Page C et al. Impact of hemochromatosis gene (HFE) mutations on epithelial ovarian cancer risk and prognosis. Int. J. Cancer 128(10), 2326-2334 (2011). The frequency of two mutations (C282Y and D62H) of the hemochromatosis gene were investigated in women with ovarian cancer. A single allele mutation of the C282Y but not the H63D gene product was detected in 8-9% of women with benign ovarian tumors (n = 124) and ovarian cancers (n = 360) compared with 2.5% for controls (n = 80) representing a 4.9-fold increase in risk. With high-grade serous ovarian cancers (n = 179), the survival rate of women with a single allele C282Y mutation was reduced from 39 to 19 months. These results implicate mutations of the hemochromatosis gene in the generation and severity of ovarian cancers, which may have prognostic value. 2.Differences between women who pursued genetic testing for hereditary breast and ovarian cancer and their at-risk relatives who did not. 摘要: Purpose/Objectives: To (a) examine differences in appraisals of hereditary breast and ovarian cancer (HBOC), psychological distress, family environment, and decisional conflict between women who pursued genetic testing and their at-risk relatives who did not, and (b) examine correlations among appraisals of HBOC, psychological distress, family environment, and decisional conflict regarding genetic testing in these two cohorts of women.Design: Descriptive, cross-sectional cohort study.Setting: Two clinics affiliated with a major research university in the midwestern United States.Sample: 372 women aged 18 years and older. 200 pursued genetic testing for BRCA1 and BRCA2 mutations (probands) and 172 of their female relatives who had a greater than 10% prior probability of being a mutation carrier but had not pursued testing.Methods: After providing informed consent, probands and relatives were mailed self-administered questionnaires.Main Research Variables: Perceived risk, knowledge of HBOC risk factors and modes of gene inheritance, perceived severity, perceived controllability, psychological distress, family relationships, family communication, and decisional conflict about genetic testing.Findings: T tests revealed that probands perceived higher risk and had more psychological distress associated with breast cancer. Probands had more knowledge regarding risk factors and gene inheritance, and greater decisional conflict regarding genetic testing. Relatives reported higher perceived severity and controllability. No differences were observed in family relationships and family communication between probands

生物信息学大实验_实验指导

实验1基因组序列组装（软件CAP3的使用）一、实验目的 1．了解基因组测序原理和主要策略； 2．掌握CAP3序列组装软件的使用方法。二、实验原理基因组测序常用的两种策略是克隆法（clone-based strategy）和全基因组鸟枪法（whole genome shotgun method）。克隆法先将基因组DNA打成大的片段，连到载体上，构建DNA文库；再对每一个大片段（克隆）打碎测序。序列组装时先组装成克隆，再组装成染色体。克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱，采用最经济有效的实验设计方案，直接将整个基因组打成不同大小的DNA片段构建Shotgun文库，再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。最后运用生物信息学方法将测序片段拼接成全基因组序列。该方法具有高通量、低成本优势。序列组装时，先把把单条序列（read）组装成叠连群（contig）、再把叠连群组装成“支架”（scaffold），最后组装成染色体。本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。 1．CAP3序列组装程序简介 Huang Xiaoqiu. 和 Madan，A. 开发的一套用于序列拼接的软件，此软件适用于小的数据集或 EST 拼接，它有如下特征： 1. 应用正反向信息更正拼接错误、连接contigs。 2. 在序列拼接中应用 reads 的质量信息。 3. 自动截去 reads5`端、3`端的低质量区。 4. 产生 Consed 程序可读的ace 格式拼接结果文件。 5. CAP3 能用于Staden软件包的中的GAP4 软件。 2．下载此软件可以免费下载，下载地址：http：//https://www.360docs.net/doc/3318865185.html,/download.html。填写基本信息表格，即可下载。CAP3 详细参考文档可见：http：//https://www.360docs.net/doc/3318865185.html,/sas.html。 3．安装（1）上传cap3 的压缩包到本地linux/unix 运算服务器；（2）解压缩： bash-2.05b$ tar xvf cap3.tar CAP3/ CAP3/README CAP3/cap3

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO？ (3) GO和KEGG注释之前，为什么要先进行序列比对（BLAST）？ (3) GO注释的意义？ (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息？ (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致？ (4) 什么是差异蛋白的功能富集分析&WHY？ (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程？ (7) KEGG通路注释的意义？ (7) 为什么有些蛋白没有KEGG通路注释信息？ (8) 什么是差异蛋白的通路富集分析&WHY？ (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析（Clustering） (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路？ (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学论文

生物信息学论文论文题目 PBL教学法在生物信息学课程教学中的应用与实践指导老师：谷峻学生姓名：吕晓莹学号： 20112501092 院系：生命科学学院专业：生物科学撰写时间：2014年4月

摘要：PBL Problem-Based Leaming)，即基于问题学习，是由美国神经病学教授Barrows首创并于1969年在加拿大的麦克马斯特大学医学院试行的一种新的教学方法。PBL 的基本特点是以教师为引导，以学生为中心，通过解决问题来学习，与传统的以学科为基础，以教师为中心的教学方法相比有很大的不同。本论文通过对照PBL 教学理念和生物信息学课程理论，来探究PBL 教学法在生物信息学课程教学中应用与实践，为提高生物信息学课程教学质量提供一种可行方法。关键词：PBL 教学法，生物信息学，应用与实践 1 前言生物信息学是20世纪90年代由多种学科知识相互渗透、融合而兴起的一门用数理和信息科学的观点、理论以及方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科，具有开放性、发展性、交叉性、综合性、应用性等特点。鉴于此，尽管国内的生物信息学科学研究开展得如火如荼，但由于受到师资、教材、授课对象、教学条件、教学法等因素限制，开设该课程的高校尚未真正形成一套成熟的、科学的教学体系。目前, 国内的生物信息学教学基本沿用以“教师讲授为主”的传统教学模式。以课堂为中心、以理论教学为主, 进行“满堂灌”式教育, “照本宣读”的方式也比较常见。缺乏与生物信息学交叉前沿性特点相适应的型教学模式。同时，实验教学比较单一, 常以验证性为目的, 有些甚至成为了“文献检索”课程, 缺乏和专相适应的综合性、设计性实验。现代教学改革与实践证明，在教学过程中必须要突出“学生是教学活动的主体”，既要注意张扬学生“个性”，更要强化学生团队合作意识及创新、创业能力培养，以保证人才培养质量。在这种情况下，传统的教学模式已与当前社会快速发展的局面格格不入，迫切需要变革。因此，为激发学生的学习积极性和教学参与热情，探索先进的教学法以革新生物信息学的教学内容及考核方式等显得尤为重要。其中，以PBL 为例的教学法在生物信息学课程教学应用与实践中取得了良好的课程教学效果。 2 PBL 教学法的优势 2.1 PBL 教学顺应时代的发展当今社会是信息时代, 生物学不断发展, 知识不断更新, 老师要讲的内容越来越多, 学生要读的书越来越厚, 授课内容与课时不相适应的矛盾非常突出, 且教学双方负担过重, 教学效果难以保证, 这种填鸭式的传统教学越来越无法适应信息社会的要求, 这就要求学生在接受人类已有的科学知识基础上, 着重培养创造能力, 学会自己寻找知识和创造知识的本领。而PBL 教学模式能明显减少说教式教学和学习负担, 既能加强学生独立学习，又能减轻教师的教学负担，顺应了时代的发展。 2.2 有利于培养学生主动学习的能力和形成双向交流传统的教学模式是以学科为基础, 教师课堂讲解为主, 教学内容进度和方法均由老师决定，其对象是学生整体, 容易忽视单一个体的学习兴趣、能力及个性特征, 学生始终处于被动地接受知识的地位, 不利于主动学习能力的培养。而PBL 教学法打破传统的界限, 采取以“学生为中心、问题为核心”的教育方式。在教师的整体把握和指导下, 学生充分运用现代化科技手段如教材、图书馆、录像、模型、文献检索系统、电脑学习软件、网络以及多媒体等多种形式进行自学。课堂上,PBL模式强调学生主动参与学习, 从而大大提高学习效果和长期记忆的形成。从教学的角度来看, 指导老师长期与同一小组学生

生物信息学中的序列比对算法

生物信息学中的序列比对算法张永１，王瑞２（１．南昌航空大学计算机学院，江西南昌３３００６３；２．江西大宇职业技术学院，江西南昌３３００３８）摘要：生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题，设计快速而有效的序列比对算法是生物信息学研究的一个重要内容，通过序列比较可以发现生物序列中的功能、结构和进化的信息，序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状，描述了常用的各类序列比对算法，并分析了它们的优劣。关键词：生物信息学；双序列比对；多序列比对中图分类号：ＴＰ３０１文献标识码：Ａ文章编号：１００９－３０４４（２００８）０３－１０１８１－０４ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔＡｌｇｏｒｉｔｈｍｓｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＺＨＡＮＧＹｏｎｇ１，ＷＡＮＧＲｕｉ２（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｉｎｇ，ＮａｎｃｈａｎｇＨａｎｇｋｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００６３，Ｃｈｉｎａ；２．ＪｉａｎｇｘｉＤａｙｕＶｏｃａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅ，Ｎａｎｃｈａｎｇ３３００３８，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｓｔｈｅｓｕｂｊｅｃｔｏｆｕｓｉｎｇｃｏｍｐｕｔｅｒｔｏｓｔｏｒｅ，ｒｅｔｒｉｅｖｅａｎｄａｎａｌｙｚｅｂｉｏｌｏｇｉｃａｌｉｎｆｏｒｍａｔｉｏｎ．Ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｉｓａｂａ－ｓｉｃｐｒｏｂｌｅｍｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，ａｎｄｉｔｓｍａｉｎｒｅｓｅａｒｃｈｗｏｒｋｉｓｔｏｄｅｖｅｌｏｐｒａｐｉｄａｎｄｅｆｆｅｃｔｉｖｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ．Ｗｅｍａｙｄｉｓｃｏｖ－ｅｒｆｕｎｃｔｉｏｎａｌ，ｓｔｒｕｃｔｕｒａｌａｎｄｅｖｏｌｕｔｉｏｎａｒｙｉｎｆｏｒｍａｔｉｏｎｉｎｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｓｂｙｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｎｇ．Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｄｅｖｅｌｏｐ－ｍｅｎｔａｃｔｕａｌｉｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ，ｄｅｓｃｒｉｂｅｓｖａｒｉｅｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍａｎｄａｎａｌｙｓｅｓｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄ－ｖａｎｔａｇｅｓｏｆｔｈｅｍ．Ｋｅｙｗｏｒｄｓ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ；ＰａｉｒｗｉｓｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ；ＭｕｌｔｉｐｌｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ１引言生物信息学是８０年代末随着人类基因组计划的启动而兴起的一门新的交叉学科，最初常被称为基因组信息学。生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是２１世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面，具体说，是从核酸和蛋白质序列出发，分析序列中表达结构与功能的生物信息。生物信息学的研究重点主要体现在基因组学和蛋白质学两方面，具体地说就是从核酸和蛋白质序列出发，分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析，也就是研究新的计算机方法，从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中，对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中，将未知序列同已知序列进行相似性比较是一种强有力的研究手段，从序列的片段测定，拼接，基因的表达分析，到ＲＮＡ和蛋白质的结构功能预测，物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如，有关病毒癌基因与细胞癌基因关系的研究，免疫分子相互识别与作用机制的研究，就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对（ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ）。目前，国际互联网上提供了众多的序列比对分析软件。然而，不同的分析软件会得到不同的结果，同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息，导致随后的实验研究走弯路。因此，生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法，而多序列比对目前还没有快速而又十分有效的方法。一般来说，评价生物序列比对算法的标准有两个：一为算法的运算速度，二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法，但由于问题自身的计算复杂性，它还尚未得到彻底解决，是收稿日期：２００７－１１－２５基金资助：南昌航空大学校自选（ＥＣ２００７０６０８６）作者简介：张永（１９７７－），男，硕士，辽宁铁岭人，南昌航空大学计算机学院讲师，研究方向：生物信息学、信息处理；王瑞（１９７７－），男，江西大宇职业技术学院外语系助教。