生物信息学实验指导讲解
生物信息学技术的教程与实验指导

生物信息学技术的教程与实验指导生物信息学技术在现代生命科学研究中起着至关重要的作用。
它是一门综合性学科,结合了生物学、计算机科学和统计学的知识,用于从大规模的生物学数据中提取有意义的信息。
本文将介绍生物信息学技术的基本概念和常用工具,并提供一些实验指导以帮助读者更好地理解和应用这些技术。
一、生物信息学技术概述1.1 生物信息学的定义和应用领域生物信息学是指运用计算机科学和统计学等方法处理、分析和解释生物学数据的学科。
它广泛应用于基因组学、蛋白质组学、转录组学以及与生物相关的大数据研究中,为生物学研究提供了强大的工具和方法。
1.2 常用的生物信息学技术常用的生物信息学技术包括序列比对、基因预测、蛋白质结构预测、基因表达分析和进化分析等。
这些技术在生物学研究中被广泛应用,可以帮助研究人员理解基因组的组成、功能和进化。
二、生物信息学技术的教程2.1 序列比对技术序列比对是生物信息学中最基本的技术之一。
它用于将不同生物体中的DNA或蛋白质序列进行比对,找出它们之间的相似性和差异性。
在教程中,我们将介绍序列比对的原理、常见的比对算法以及如何使用常见的比对工具进行序列比对实验。
2.2 基因预测技术基因预测是指从DNA序列中识别和预测基因位置和结构的过程。
在教程中,我们将介绍基因预测的方法和工具,包括基于序列比对和基于统计学模型的方法,以及常用的基因预测软件的使用方法。
2.3 蛋白质结构预测技术蛋白质结构预测是指通过计算和模拟方法预测蛋白质的三维结构。
在教程中,我们将介绍常见的蛋白质结构预测方法,包括基于序列比对和基于物理化学原理的方法,以及一些常用的蛋白质结构预测软件的使用方法。
2.4 基因表达分析技术基因表达分析是指通过RNA测序技术对不同生物样本中的基因表达水平进行定量和比较分析。
在教程中,我们将介绍基因表达分析的步骤和常用的分析方法,包括差异表达基因分析、功能富集分析和调控网络分析等。
2.5 进化分析技术进化分析是指通过比对不同物种的基因组序列,分析基因组演化过程和物种之间的关系。
简明生物信息学基础实验讲义

简明生物信息学基础实验讲义王万军叶春郭泰林魏大木生物秀—专心做生物!www.bbioo.com生物秀论坛-专注于生命科学!www.bbioo.com/bbs/西南交通大学生物工程系2004年9月目录第一章 计算机应用基础知识1字处理软件——Word2003的使用2 Excel基础知识与使用3 Foxmail的设置与使用第二章分子生物学软件的使用1序列的格式及其转换——Seqverter 1.3的使用2引物设计软件——Primer Premier4.0的使用3DNA多态性分析软件——DNAsp的使用第三章生物信息学资源挖掘1 多序列比对——Clustal X1.8.1的使用4蛋白质结构分析——RasMol2.7.2.1的使用5系统发育树软件——TreeView的使用第四章生物信息学网络资源的应用1 生物信息学数据库的使用——G enBank的使用2 生物信息学数据库的使用——EMBL的使用第一篇计算机应用基础知识一、字处理软件——Word 2003的使用1、软件的基本功能:Word 是功能极强的文字处理和版面编排软件,它简单易学,操作界面好、智能化程度高,Microsoft Word 20003作为Word 的新版本,保持了以前版本的优点,同时具有更强大的网络功能和通信功能。
Word可以编辑各种各样的文档(如报告、文章、演讲稿等)以及对文档各段落的设置;可以打开原先编辑的文档,可以进行新的文档编辑;在进行文档编辑时,可以设置字体,编辑各种格式的文档。
2、基本操作:⑴ 文件的打开、关闭与保存和页面设置。
⑵ 对文字和段落格式的设定。
⑶ 在文档中插入并制作表格。
⑷ 文档编辑中修改。
⑴文件的打开、关闭和页面设置:①新建文档:用鼠标点击Word图标,选择图1中“文件”菜单中的“新建”命令即可;图1②打开文档:如图1,打开已存在的文件则选择“文件”菜单中的“打开”,选择要打开文件的存放路径。
同时,单击,可以回到目前所处文件夹的上一层文件夹之中。
简明生物信息学基础实验讲义

简明生物信息学基础实验讲义王万军叶春郭泰林魏大木生物秀—专心做生物!www.bbioo.com生物秀论坛-专注于生命科学!www.bbioo.com/bbs/西南交通大学生物工程系2004年9月目录第一章 计算机应用基础知识1字处理软件——Word2003的使用2 Excel基础知识与使用3 Foxmail的设置与使用第二章分子生物学软件的使用1序列的格式及其转换——Seqverter 1.3的使用2引物设计软件——Primer Premier4.0的使用3DNA多态性分析软件——DNAsp的使用第三章生物信息学资源挖掘1 多序列比对——Clustal X1.8.1的使用4蛋白质结构分析——RasMol2.7.2.1的使用5系统发育树软件——TreeView的使用第四章生物信息学网络资源的应用1 生物信息学数据库的使用——G enBank的使用2 生物信息学数据库的使用——EMBL的使用第一篇计算机应用基础知识一、字处理软件——Word 2003的使用1、软件的基本功能:Word 是功能极强的文字处理和版面编排软件,它简单易学,操作界面好、智能化程度高,Microsoft Word 20003作为Word 的新版本,保持了以前版本的优点,同时具有更强大的网络功能和通信功能。
Word可以编辑各种各样的文档(如报告、文章、演讲稿等)以及对文档各段落的设置;可以打开原先编辑的文档,可以进行新的文档编辑;在进行文档编辑时,可以设置字体,编辑各种格式的文档。
2、基本操作:⑴ 文件的打开、关闭与保存和页面设置。
⑵ 对文字和段落格式的设定。
⑶ 在文档中插入并制作表格。
⑷ 文档编辑中修改。
⑴文件的打开、关闭和页面设置:①新建文档:用鼠标点击Word图标,选择图1中“文件”菜单中的“新建”命令即可;图1②打开文档:如图1,打开已存在的文件则选择“文件”菜单中的“打开”,选择要打开文件的存放路径。
同时,单击,可以回到目前所处文件夹的上一层文件夹之中。
生物信息学大实验_实验指导

实验1基因组序列组装(软件CAP3的使用)一、实验目的1.了解基因组测序原理和主要策略;2.掌握CAP3序列组装软件的使用方法。
二、实验原理基因组测序常用的两种策略是克隆法(clone-based strategy)和全基因组鸟枪法(whole genome shotgun method)。
克隆法先将基因组DNA打成大的片段,连到载体上,构建DNA文库;再对每一个大片段(克隆)打碎测序。
序列组装时先组装成克隆,再组装成染色体。
克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。
全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱,采用最经济有效的实验设计方案,直接将整个基因组打成不同大小的DNA片段构建Shotgun文库,再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。
最后运用生物信息学方法将测序片段拼接成全基因组序列。
该方法具有高通量、低成本优势。
序列组装时,先把把单条序列(read)组装成叠连群(contig)、再把叠连群组装成“支架”(scaffold),最后组装成染色体。
本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。
1.CAP3序列组装程序简介Huang Xiaoqiu. 和 Madan,A. 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:1. 应用正反向信息更正拼接错误、连接contigs。
2. 在序列拼接中应用 reads 的质量信息。
3. 自动截去 reads5`端、3`端的低质量区。
4. 产生 Consed 程序可读的ace 格式拼接结果文件。
5. CAP3 能用于Staden软件包的中的GAP4 软件。
2.下载此软件可以免费下载,下载地址:http:///download.html。
填写基本信息表格,即可下载。
生物信息学实验指导—实验三

实验三核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、掌握使用BioEdit软件进行核酸序列的基本分析;3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);4、了解基因的电子表达谱分析;5、熟悉密码子偏好性分析。
【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。
在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。
一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
1. 重复序列分析对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。
2. 数据库搜索把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。
在理论课中已经专门介绍了序列比对和搜索的原理和技术。
但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。
对于EST序列而言,序列搜索将是非常有效的预测手段。
生物信息学实验

实验一生物信息学资源的利用—Genebank核苷酸序列的查找一、实验目的:了解生物信息学的各大门户网站以及其中的主要资源,并以NCBI提供的Genebank为例,学习核苷酸序列的分类学检索方法和使用技巧。
二、实验器材:计算机,NCBI、EMBL等生物信息学网络资源。
三、实验原理:根据Genebank 提供的数据资源,应用分类学方法进行核苷酸序列的查找。
四、实验内容:查找下列不同物种的不同基因组的核苷酸序列。
表1:不同物种的不同基因组的核苷酸序列表五、实验步骤:1、打开NCBI网站的主页,然后点击Genebank,进入到Genebank 的界面,然后点击网页上端Search后面的基本检索输入框选择所要查询的数据库,然后在后面一个方框中输入所查询的核苷酸序列的相关的关键词,点击检索按钮。
2、进入对应的核苷酸序列子库界面,点击目标核苷酸序列子库。
3、根据子库中提供的各条序列的注释及各自的GenBank收录号,寻找自己查找的目标序列,点击目标序列的GenBank收录号,进入目标核苷酸序列界面。
4、点击所需要的目标核苷酸序列的GenBank收录号就可以得到我们想要的核苷酸序列,然后将它们拷贝下来。
六、实验要求:每个人必须至少查找3个种,5条核苷酸序列。
必须写明查找到的核苷酸序列以及各条核苷酸序列的GenBank收录号-LOCUS,基因注释-DEFINITION,文章的作者AUTHORS,文章题目-TITLE,文章所发表的期刊-JOURNAL。
七、实验结果:查找的核苷酸序列基本情况表1LOCUS JN054403 894 bp DNA linear PLN01-NOV-2011DEFINITION Phytophthora melonis strain NN-1 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28Sribosomal RNA gene, partial sequence.AUTHORS Wu,Y.G., Huang,S.L., Fu,G., Hu,C.J. and Lu,S.F.TITLE Identification of the causal agent of wax gourd blight in South ChinaJOURNAL UnpublishedORIGIN1 tgggattccc accctagaac tttccacgtg aaccgtatca acaagtagtt gggggcctgc 61 tctgtgtggc tagctgtcga tgtcaaagtc ggcgactggc tgctatgtgg cgggctctat 121 catggcgatt ggtttgggtc ctcctcgtgg ggaactggat catgagccca ccttttaaac 181 ccattcttga ttactgaata tactgtgggg acgaaagtct ctgcttttaa ctagatagca 241 actttcagca gtggatgtct aggctcgcac atcgatgaag aacgctgcga actgcgatac 301 gtaatgcgaa ttgcaggatt cagtgagtca tcgaaatttt gaacgcatat tgcacttccg 361 ggttagtcct gggagtatgc ctgtatcagt gtccgtacat caaacttggc tctcttcctt 421 ccgtgtagtc ggtggatgga gacgccagac gtgaggtgtc ttgcggcgcg gccttcgggc481 tgcctgcgag tcccttgaaa tgtactgaac tgtacttctc tttgctcgaa aagcgtgacg 541 ttgttggttg tggaggctgc ctgtatggcc agtcggcgac cagtttgtct gctgcggcgt 601 ttaatggagg agtgttcgat tcgcggtatg gttggcttcg gctgaacaat gcgcttattg 661 gatgcttttc ctgctgtggt ggtatgggct ggtgaaccgt agttgtgcga ggcttggctt 721 ttgaaccggc ggtgttgtag cgaagtagag tggcggcttc ggctgtcgag ggtcgatcca 781 tttgggaact ctgtgttgtc tctgcggctt gctgtggagg tagcatctca attggacctg 841 atatcaggca agattacccg ctgaacttaa gcatatcata aacgcggagg act2LOCUS HM596011 530 bp DNA linear PLN01-JUL-2011DEFINITION Ophiocordyceps sinensis culture-collection ARSEF:6282 clone C 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2,complete sequence; and 28S ribosomal RNA gene, partial sequence. AUTHORS Chan,W.H.TITLE Direct SubmissionJOURNAL Submitted (28-JUN-2010) Depatment of Biology, The ChineseUniversity of Hong Kong, Shatin, Hong Kong 852, ChinaORIGIN1 tctccgttgg tgaaccagcg gagggatcat tatcgagtca ccactcccaa accccctgcg 61 aacaccacag cagttgcctc ggcgggaccg ccccggcgcc ccagggcccg gaccagggcg 121 cccgccggag gacccccaga ccctcctgtc gcagtggcat ctctcagtca agaagcaagc 181 aaatgaatca aaactttcaa caacggatct cttggttctg gcatcgatga agaacgcagc 241 gaaatgcgat aagtaatgtg aatcgcagaa ttcagtgaac catcgaatct ttgaacgcac 301 attgcgcccg ccagcactct ggcgggcatg cctgtccgag cgtcatctca accctcgagc 361 cccccgcctc gcggcggcgg ggcccggcct tgggggtcac ggccccgcgc cgccccctaa 421 acgcagtggc gaccccgccg cggctcccct gcgcagtagc tcgctgagaa cctcgcaccg 481 ggagcgcgga ggcggtcacg ccgtgaaacc accacaccct ccagttgacc3LOCUS HQ114254 711 bp DNA linear PLN31-AUG-2011DEFINITION Dendrobium densiflorum voucher PS2528MT01 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence.AUTHORS Yao,H., Gao,T. and Chen,S.-L.TITLE Direct SubmissionJOURNAL Submitted (10-AUG-2010) Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences, Peking Union Medical College, No. 151 Malianwa North Road, Haidian District, Beijing 100193,ChinaORIGIN1 tttccgtagg tgaacctgcg gaaggatcat tgtcgagacc aaaataaatc gagcgatttg61 gagaaccggt caaaataagc ggtgattatt atttccgtga tgaacgccat cccagtcgtt121 acctcatccc cttagggtcg aggatgcgag taaggatgga tgaacactca agccggcgca181 gcatcgcgcc aagggaaata tcgaaacatg agcccttaaa tgggtttggt ggaatggggt241 gctgttgcac gccatatgga ttgacatgac tctcggcaat ggatatctcg gctcacgcat301 cgatgaagag cgcagcgaaa tgcgatacgt ggtgcgaatt gcagaatccc gcgaaccatc361 gagtctttga acgcaagttg cgcccgaggc caactggcca agggcacgtt tgcctgggcg421 tcaagcgtta tgtcgcttcg tgtcaactcc atcccgtcga tgtatgggct ggcgaaggct481 cggatgtgca gagtggctca tcgtgcccct cggtgcggtg agctgaagag cgggtcatca541 tctcgttggc tgcgaacgat aaggggtgga ttaaagcgag gcctatgtta ttgtgtcgtg601 tatgcccgag agaagattat acatactcag gagatcccaa atcatgcgtc gatcaaagga661 tggcgcttgg aatgcgaccc caggatgggc gaggccaccc gctgagttta a4LOCUS AJ966733 585 bp DNA linear PLN11-APR-2008DEFINITION Saccharomyces sp. CECT 11011 mitochondrial partial COII gene forcytochrome c oxidase, subunit II.AUTHORS Gonzalez,S.S., Barrio,E. and Querol,A.TITLE Molecular characterization of new natural hybrids of Saccharomyces cerevisiae and S. kudriavzevii in brewingJOURNAL Appl. Environ. Microbiol. 74 (8), 2314-2320 (2008)ORIGIN1 aatattatgt tttatttatt agttatttta ggtttagtat cttgaatgtt atatactatt61 gtaataacat attcaaaaaa ccctattgct tataaatata ttaaacatgg acaaactatt121 gaagttattt gaacaatttt cccagcagta gtattattaa ttattgcttt cccatcattt181 attttattat atttatgtga tgaagttatt tcaccagcta taactattaa agctattgga241 tatcaatgat attgaaaata tgaatattct gattttatta atgatagtgg tgaaactgtt301 gaatttgaat catatgttat tcctgatgaa ttattagaag aaggtcaatt aagattatta361 gatactgata cttctatagt tgtacctgta gatacacata ttagatttgt tgtaacagct421 gctgatgtta ttcatgattt cgctatccca agtttaggta ttaaagttga tgctactcct481 ggtagattaa atcaagtttc tgctttaatt caaagagaag gtgttttcta tgggcaatgc541 tcagagttgt gcgggctggg acatgccaac ataccaatta aaatt5LOCUS Y09069 459 bp mRNA linear INV18-APR-2005DEFINITION D.melanogaster mRNA for NADH-ubiquinone oxidoreductase acyl-carrier subunit, splice variant.AUTHORS Ragone,G., Caizzi,R., Moschetti,R., Barsanti,P., De Pinto,V. and Caggese,C.TITLE The Drosophila melanogaster gene for the NADH:ubiquinoneoxidoreductase acyl carrier protein: developmental expressionanalysis and evidence for alternatively spliced formsJOURNAL Mol. Gen. Genet. 261 (4-5), 690-697 (1999)ORIGIN1 atgtcgttca cacagatcgc gcgcagctgc agtcgactgg cggccacttt ggccccaagg61 agggtcgcct ccggcattct catccaatca caggcctcca ggatgatgca caggatcgcc121 gtgccatcga tgaccagcca gttgagccaa gagtgccgtg gtcgctggca aacgcaattg181 gtgcgcaaat actcggcgaa accgccgctc tcgctgaagc tgatcaatga gcgcgtcttg241 cttgtgctca agctctacga caagatcgat cccagcaagc tcaacgttga gtcgcacttc301 atcaacgact tgggactgga ttccttggac cacgtggagg tcatcatggc catggaggac361 gagttcggtt tcgagatccc cgactctgat gccgagaagc tgcttaaacc tgccgacatt421 attaagtacg tcgccgacaa ggaggatgtg tacgagtaa实验二序列相似性搜索软件—BLAST的使用一、实验目的:掌握序列相似性查询工具—BLAST使用方法和技巧,理解与序列相似性查询相关的几个基本概念。
生物信息学实验一

生物信息学实验一简介:生物信息学实验一是生物信息学实验课程的第一部分,旨在介绍生物信息学的基本概念、工具和技术,以及生物信息学在生物学研究中的应用。
本实验将引导学生通过实际操作,学习并掌握生物信息学的基本原理和操作技巧。
实验设备和材料:- 计算机或笔记本电脑- 生物信息学软件(例如NCBI BLAST、UCSC Genome Browser等)- 相关数据库和工具(例如GenBank、KEGG等)实验目的:1. 了解生物信息学的基本概念和应用领域;2. 学习生物信息学的常用工具和技术;3. 掌握生物序列分析、基因注释和比对等基本操作;4. 学会使用生物信息学软件和数据库进行数据查询和分析;5. 培养科学研究的数据处理和解读能力。
实验步骤:1. 确定研究对象:选择一个感兴趣的生物学问题或基因序列进行研究。
2. 数据获取:使用生物信息学工具和数据库,获取与研究对象相关的生物序列数据。
3. 序列分析:使用生物信息学软件对序列数据进行分析,包括碱基组成、氨基酸序列、启动子分析等。
4. 基因注释:通过比对算法和数据库,对序列进行基因功能注释,确定基因的命名、结构和功能信息。
5. 比对分析:使用比对工具进行序列比对,比较两个或多个序列之间的相似性和差异性。
6. 数据解读:根据分析结果,结合相关文献和知识,对实验数据进行解读和分析,得出科学结论。
实验注意事项:1. 在进行实验前,先了解所要使用的工具和软件的基本操作方法和原理;2. 实验过程中注意数据安全和保密,不得将数据泄露或用于非科研目的;3. 在进行数据分析和解读时,务必准确、客观地进行,不得造假或歪曲实验结果;4. 注意数据的备份和存储,以防止数据丢失或损坏;5. 尊重他人的研究成果和知识产权,合理引用和参考相关文献。
实验结果与讨论:本实验所得的结果可以根据具体的研究对象和实验数据来展开讨论和分析。
例如,如果研究对象是某个基因序列,可以讨论其结构和功能,与其他基因的关联性,以及在哪些生物过程中有重要作用等。
生物信息学实验指导书_新版本

生物信息学实验指导书重庆邮电大学生物信息学实验指导书生物信息教学部谭军编重庆邮电大学生物信息学院前言生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。
目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。
生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。
生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。
限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。
其他选修者按照课时和学校相关规定计算创新学分。
实验一熟悉生物信息学网站及其数据的生物学意义实验目的:培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。
实验内容:1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描述网站特征;2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学实验指导适用专业:生物技术与制药大类生物技术编写:解增言生物信息学院2014年9月目录实验1 在线BLAST同源序列查询 (3)实验2 本地BLAST同源序列查询 (8)实验3 利用ClustalX与MEGA进行多序列比对与分子系统发生树构建 (10)实验4 利用RNAfold预测RNA二级结构 (14)实验5 Pfam蛋白质结构域分析 (17)实验6 利用PSSpred预测蛋白质二级结构 (19)实验7 利用Cn3D和RasMol分析蛋白质三级结构 (21)实验8 利用GO及EST数据分析基因功能 (24)实验1 在线BLAST同源序列查询一、实验目的1.了解同源序列查询的原理和用途;2.掌握利用NCBI在线BLAST工具查找同源序列的方法。
二、实验原理在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(homologous)。
分子生物学中的同源指两条序列来自于一条共同的祖先序列。
一般来说,相似超过一定程度的序列具有同源性。
在生物信息学研究中,常用序列比对(alignment)来研究序列的同源性以及推测物种之间的关系。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。
进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域或位点,从而探索导致它们产生共同功能的序列模式。
此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。
近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。
序列两两比对序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。
在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。
但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。
因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。
通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。
通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。
因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。
在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。
在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。
粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。
因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。
虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有PAM和 BLOSUM等,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。
对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。
空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。
一般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如10-15;另一个对空位的延伸罚分,如1-2。
对于具体的比对问题,采用不同的罚分方法会取得不同的效果。
对于比对计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。
相关的参数E代表随机比对分值不低于实际比对分值的概率。
对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能。
Genbank、SWISS-PROT等序列数据库提供的序列搜索服务都是以序列两两比对为基础的。
不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和 BLAST工具。
FASTA是第一个被广泛应用的序列比对和搜索工具包,包含若干个独立的程序。
FASTA为了提供序列搜索的速度,会先建立序列片段的“字典”,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。
FASTA的结果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。
FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。
NCBI提供了基于Web 的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从电子邮件中获得序列搜索的结果。
BLAST包含五个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。
其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。
BLAST对序列格式的要求是常见的FASTA格式。
FASTA 格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。
序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。
此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R 代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M 代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C 或T;V代表G、C或A;N代表A、 G、C、T中任意一种。
对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu 或Gln; X代表任意氨基酸;“*”代表翻译结束标志。
NCBI提供的在线BLAST工具,包括:BLASTP:用蛋白质序列搜索蛋白质序列库BLASTN:用核酸序列搜索核酸库BLASTX:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列TBLASTN:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索TBLASTX:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对图1-1 NCBI首页图1-2 NCBI在线BLAST页面三、实验内容(步骤)本实验在NCBI核算和蛋白质库中查找拟南芥(Arabidopsis thaliana)LEC1(LeafyCotyledon1)基因的同源基因,LEC1基因属于HAP3基因家族。
步骤包括:1. 查找拟南芥LEC基因的核酸和蛋白质序列。
图1-2 在NCBI核算库中查找序列2. BLASTN图1-3 利用BLASTN查找同源基因3. BLASTP图1-4 利用BLASTP查找同源蛋白四、实验报告1.使用的软件/工具,实验步骤,结果文件记录/截图;2.实验中遇到的问题,如何解决的。
五、参考文献Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res.25(17):3389-402.实验2 本地BLAST同源序列查询一、实验目的1.掌握本地版BLAST软件的使用方法。
二、实验原理NCBI提供了在线的BLAST服务,但有时需要对某个基因组做BLAST,这就需要在本地建自己的BLAST库,并在本地做BLAST。
NCBI提供BLAST的本地版,当前最新版本是2.2.28+,包括源代码和多个平台的编译好的软件包,可以在ftp:///blast/executables/blast+/LATEST/下载。
Windows下可下载win32版本,安装完后,打开“开始”→“运行”,输入“cmd”,点“确定”(图2-1)。
图2-1 运行命令行窗口这时,便可以输入DOS命令图2-2 DOS界面常用DOS命令有:cd(改变当前目录)、mkdir(新建目录)、dir(列出当前目录内容)等、del(删除文件)、copy(复制文件)、ren(更改文件名)等。
在做本地BLAST前需要先构建本地BLAST库:makeblastdb -in schpomb.pep.fa -dbtype prot -out schpomb其中,-in是指定用来建库的文件,-dbtype指定库的类型(prot是蛋白质、nucl是核酸),-out指定建好的库的名字。