生物信息学实验2、3(1)

合集下载

生物信息学实验PPT课件

生物信息学实验PPT课件
(5) Independence: P A, B P A P B (6) Bayes' rule: P B | A P A | B P B / P A
6
14.11.2020
独立事件概率
设想我们做一连串的实验,而每次实验所可能发 生的结果定为 E1,E2,… En,…。(可能是有限也 可能是无限)。每一个结果 Ek,如果给定一个 出现的可能性 pk(即概率),则某一特定样本 之序列 Ej1 Ej2 … Ejn出现的概率为 p(Ej1 Ej2 … Ejn) =pj1 … Pjn。
2
14.11.2020
Introduction
Hidden Markov Models (HMMs) 最早是在上 个世纪60年代末70年代初提出来的。 进入80年代以后,逐渐被利用在各个领域。
3
14.11.2020
Introduction
Hidden Markov Models 作为一种强有力的 统计学模型,主要被应用在一些连续行 的或时间延续性的事件建模上
7
14.11.2020
马尔科夫链
一般及常用的统计中,彼此相互「独立」大概是最有用 的一个观念。用简单的术语來说,互相「独立」就是彼 此毫不相干,一点牵涉都沒有。
但是实际生活中很多事件是相互关联的
[不是互相独立」也就是相互关联的意思,但是要怎样相 关呢?如何在相关中作一些简单的分类呢?马尔科夫链 就是要描述在「相关」这个概念中最简单的一种。但即 使如此,有关马可夫链的理论已经相当丰富了。在概率 理论中,它几乎占了绝大的部分。
11
14.11.2020
假设
对于一个随机事件,有一个观察值序列:O1,...,OT 该事件隐含着一个状态序列:X1,...,XT 假设1:马尔可夫假设(状态构成一阶马尔可夫链)

生物信息学实验报告

生物信息学实验报告

中国地质大学(武汉) 生物信息学实习报告课程名称:生物信息学姓名:学号:所在学院:所在班级:指导老师:二〇一三年六月一、实验内容本实验报告是对从一株产ß-甘露聚糖酶的菌种A.tabescens EJLY2098获得的基因序列(命名为man)进行生物信息学的分析。

1、使用NCBI信息查询系统检索man基因序列;2、上述基因序列进行基本分析;3、使用ClustalX软件进行同源性分析以及用MegAlign得出系统进化树;4、对ß-甘露聚糖酶氨基酸序列进行一级序列基本分析;5、在ibcp网站对对man蛋白序列进行二级结构预测。

二、实验结果从一株产ß-甘露聚糖酶的新菌种A.tabescens EJLY2098获得的全长cDNA序列如下ACGCGGGGGAAAG ATG CATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGT TCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCG TTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCA CAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTG CTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGT TCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGG GCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCG TCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCG GAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTG CTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTG GAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCG ACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGA CCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCA AGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCG CACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTA GCATTGATTTCGGTACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGG GATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAA TCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAG TTGTCTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAG CTACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCT ATGCGGTTACATTGAAAGCGCGGGCG TAG GATAGGGTACAG AATAAA TTTTGCTCCGATGTG GTACTGTAGCCGAGCGGCTTGACTATGTG AATAAAA ATAGCACTGTTGTCACGATCGATCAA CACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA核酸序列的基本分析核酸序列的基本分析结果如下:SEQ New: 1483 bp;Composition 388 A; 358 C; 351 G; 386 T; 0 OTHERPercentage: 26.2% A; 24.1% C; 23.7% G; 26.0% T; 0.0%OTHERMolecular Weight (kDa): ssDNA: 457.73 dsDNA: 914.24ORIGIN1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC421 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT1201 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA同源物种分析MAN与GHF5的ß-甘露聚糖酶序列比对:CLUSTAL软件进行氨基酸序列分析A.aculeatus ------------------------------------------------------------ A.bisporus ---------------------------MKPAIRFIILAISISLATADVPVWGQCGGRGWT T.reesei ------------------------------------------------------------ A.fumigatus MPSKKPLSNSTAFSLSKNSQITFSVLGIMHPLPSVALLSAIGAVAAQVGPWGQCGGRSYT A.sulphureus ------------------------------------------------------------ A.tabescens ----------------------------MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWT H.jecorina ------------------------------------------------------------A.aculeatus -------------------------MKLSHMLLSLASLGVA---------TALRTPNHNA A.bisporus GETACASGSSCVVQNEWYSQCLPGSTTPTNPPPTTTTSQTTAPP-----------TTSHP T.reesei ------------------------------------------------------------ A.fumigatus GETSCVSGWSCVLFNEWYSQCQPATTTSTSSVSATAAPSSTSSSKESVPSATTSKKPVPT A.sulphureus -------------------------MKLSSSLLTLASLALANLSTALPKASPAPSTSSSS A.tabescens GQTTCVSGTVCAALNDYYSQCVPGTATTTAAPTTATSTTISSTSR----TTATSTTASAP H.jecorina ------------------------MMMLSKSLLSAATAASALAAVLQP----------VPA.aculeatus ATTAFPSTSGLHFTIDGKTGYFAGTNSYWIGFLTN-NDDVDLVMSQLAASDLKILRVWGF A.bisporus VSTGFVKASGTRFTLNGQKYTVVGGNSYWVGLTGLSTSAMNQAFSDIANAGGTTVRTWGF T.reesei -ASSFVTISGTQFNIDGKVGYFAGTNCYWCSFLTN-HADVDSTFSHISSSGLKVVRVWGF A.fumigatus GSSSFVKADGLKFNIDGETKYFAGTNAYWLPFLTN-DADVDSVMDNLQKAGLKILRTWGF A.sulphureus ASTSFASTSGLQFTIDGETGYFAGTNSYWIGFLTD-DSDVDLVMSHLKSSGLKILRVWGF A.tabescens SSTGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGYSTTDMNKAFADIAATGATVVRTWGFH.jecorina RASSFVTISGTQFNIDGKVGYFAGTNCYWCSFLTN-HADVDSTFSHISSSGLKVVRVWGF .. * * * . * * *.** . . . .* ***A.aculeatus NDVNTKPTDGTVWYQLHA--NGTSTINTGADGLQRLDYVVTSAEKYGVKLIINFVNEWTD A.bisporus NEVTS---PNGNYYQSWSG--ARPTINTGASGLLNFDNVIAAAKANGIRLIVALTNNWAD T.reesei NDVNTQPSPGQIWFQKLS--ATGSTINTGADGLQTLDYVVQSAEQHNLKLIIPFVNNWSD A.fumigatus NDVNSKPSSGTVYFQLHDPSTGTTTINTGADGLQRLDYVVSAAEKRGIKLLIPLVNNWDD A.sulphureus NDVTTQPSSGTVWYQLHQ--DGKSTINTGADGLQRLDYVVSSAEQHGIKLIINFVNYWTD A.tabescens NEVTS---PNGIYYQSWSG--STPTINTGSTGLQNFDAVVAAAAAHGLRLIVAITNNWSD H.jecorina NDVNTQPSPGQIWFQKLS--ATGSTINTGADGLQTLDYVVQSAEQHNLKLIIPFVNNWSD *.*.. . .* *****. ** * *. .* ...*.. * * *A.aculeatus YGGMQAYVTAYGAA--AQTDFYTNTAIQAAYKNYIKAVVSRYSSSAAIFAWELANEPRCQ A.bisporus YGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVSRYANEPTVMAWELANEPRCK T.reesei YGGINAYVNAFGG---NATTWYTNTAAQTQYRKYVQAVVSRYANSTAIFAWELGNEPRCN A.fumigatus YGGMNAYVKAYGG---SKTEWYTNSKIQSVYQAYIKAVVSRYRDSPAIMAWELSNEARCQ A.sulphureus YGGMSAYVSAYGGS--DETDFYTSDTMQSAYQTYIKTVVERYSNSSAVFAWELANEPRCP A.tabescens YGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVSRYVNEPTILGWELANEPRCK H.jecorina YGGINAYVNAFGG---NATTWYTNTAAQTQYRKYVQAVVSRYANSTAIFAWELGNEPRCN ***. ** ** . *... * ** .. *** ** **A.aculeatus G--------CDTSVLYNWISDTSKYIKSLDSKHLVTIGDEGFGLDVDSDGSYPYTYGEGL A.bisporus GSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDEGFYNQPG-APTYPYQGSEGV T.reesei G--------CSTDVIVQWATSVSQYVKSLDSNHLVTLGDEGLGLSTG-DGAYPYTYGEGT A.fumigatus G--------CSTDVIYNWTAKTSAYIKSLDPNHMVATGDEGMGVTVDSDGSYPYSTYEGS A.sulphureus S--------CDTTVLYDWIEKTSKFIKGLDADHMVCIGDEGFGLNTDSDGSYPYQFAEGL A.tabescens GSTGTTSGSCTATTITKWAAAISAYIKSIDPNHLVGIGDEGFYNEPS-APTYPYQGSEGI H.jecorina G--------CSTDVIVQWATSVSQYVKSLDSNHLVTLGDEGLGLSTG-DGAYPYTYGEGT * . . * * ..* .* *.* **** .*** **A.aculeatus NFTKNLGISTIDFGTLHLYPDSWGTS---YDWGNGWITAHAAACKAVGKPCLLEEYGVTS A.bisporus DFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHAASMKRVNKPVILEEFGVTT T.reesei DFAKNVQIKSLDFGTFHLYPDSWGTN---YTWGNGWIQTHAAACLAAGKPCVFEEYGAQQ A.fumigatus DFAKNLAAPDIDFGVFHLYTEDWGIKD--NSWGNGWVTSHAKVCKAAGKPCLFEEYGLKD A.sulphureus NFTMNLGIDTIDFATLHLYPDSWGTS---DDWGNGWISAHGAACKAAGKPCLLEEYGVTS A.tabescens DFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHATSMTAAGKPVILEEFGVTT H.jecorina DFAKNVQIKSLDFGTFHLYPDSWGTN---YTWGNGWIQTHAAACLAAGKPCVFEEYGAQQ * *. .** * * ** **. *. * .** . **.*A.aculeatus NHCAVESPWQQTAGNATGISGDLYWQYGTTFSWGQSPN-DGNTFYYNTSDFTCLVTDHVA A.bisporus NQPDTYAEWFNEVESS-GLTGDLIWQAGSHLSTGDTHN-DGYAVYPDGPVYP-LMKSHAS T.reesei NPCTNEAPWQTTSLTTRGMGGDMFWQWGDTFANGAQSNSDPYTVWYNSSNWQCLVKNHVD A.fumigatus DHCSASLTWQKTSVSS-GMAADLFWQYGQTLSTGPSPN-DHFTIYYGTSDWQCGVADHLS A.sulphureus NHCSVESPWQQTALNTTGVSADLFWQYGDDLSTGESPD-DGNTIYYGTSDYECLVTDHVAA.tabescens NQATVYGAWYQEVVSS-GLTGALIWQAGSYLSSGATPD-DGYAIYPDDPVYS-LETSYAV H.jecorina NPCTNEAPWQTTSLTTRGMGGDMFWQWGDTFANGAQSNSDPYTVWYNSSNWQCLVKNHVD * . *. . ** * . * * .A.aculeatus AINAQSK----------------------------------------------------- A.bisporus AMKNRA------------------------------------------------------ T.reesei AIN--------------------------------------------------------- A.fumigatus TL---------------------------------------------------------- A.sulphureus AIDSA------------------------------------------------------- A.tabescens TLKARA------------------------------------------------------ H.jecorina AINGGTTTPPPVSSTTTTSSRTSSTPPPPGGSCSPLYGQCGGSGYTGPTCCAQGTCIYSN ..A.aculeatus ---------A.bisporus ---------T.reesei ---------A.fumigatus ---------A.sulphureus ---------A.tabescens ---------H.jecorina YWYSQCLNT7种真菌ß-甘露聚糖酶的氨基酸序列比对通过MAN与其他6种真菌GHF5的ß-甘露聚糖酶的氨基酸序列比对可A.tabescens EJLY2098的ß-甘露聚糖酶序列和GHF5的ß-甘露聚糖酶的氨基酸序列保守性较强。

生物信息学分析方法

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词:核酸序列? ? 蛋白质序列? ? 分析软件? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。

通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。

通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。

通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。

尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。

此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。

上述技术路线可为其它类似分子的生物信息学分析提供借鉴。

本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(),可以直接点击进入检索网站。

? ?下面介绍其中一些基本分析。

值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。

(一)核酸序列分析1、双序列比对(pairwise alignment)? ?双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。

由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。

根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。

生物信息学教学实践总结(3篇)

生物信息学教学实践总结(3篇)

第1篇随着生命科学的快速发展,生物信息学作为一门新兴的交叉学科,逐渐成为生物科学研究的重要工具。

生物信息学教学旨在培养学生的生物信息学知识、技能和创新能力。

本文将对生物信息学教学实践进行总结,分析教学过程中的亮点、不足及改进措施。

一、教学实践概述生物信息学教学实践主要包括理论教学和实践教学两部分。

理论教学主要介绍生物信息学的基本概念、研究方法、常用工具和数据库等;实践教学则侧重于培养学生运用生物信息学工具解决实际问题的能力。

二、教学实践亮点1. 注重基础知识与前沿技术的结合:在理论教学中,我们不仅注重基础知识的传授,还结合当前生物信息学领域的最新研究成果和前沿技术,如人工智能、大数据分析等,使学生能够紧跟学科发展。

2. 实践教学与科研相结合:实践教学环节中,我们鼓励学生参与科研项目,将所学知识应用于实际研究中,提高学生的科研能力和创新能力。

3. 多元化的教学方法:采用讲授、讨论、案例分析、实验操作等多种教学方法,激发学生的学习兴趣,提高教学效果。

4. 注重培养学生的团队合作精神:在实践教学过程中,引导学生进行团队合作,培养学生的沟通能力、协作能力和团队精神。

5. 关注学生个性化发展:针对不同学生的学习特点和需求,开展个性化教学,使每位学生都能在生物信息学领域取得优异成绩。

三、教学实践不足1. 理论与实践脱节:部分学生在理论学习过程中,对实际应用缺乏兴趣,导致理论与实践脱节。

2. 教学资源不足:生物信息学涉及众多软件和数据库,而教学资源有限,难以满足学生实践需求。

3. 师资力量不足:生物信息学师资力量相对薄弱,难以满足日益增长的教学需求。

4. 课程设置不够完善:部分课程设置与实际应用脱节,导致学生所学知识难以应用于实际问题解决。

四、改进措施1. 加强实践教学环节:增加实验课时,引入更多实际案例,提高学生的实践能力和创新意识。

2. 丰富教学资源:利用网络资源、数据库等,为学生提供丰富的学习资料和实践平台。

生物信息学实验

生物信息学实验

实验一生物信息学资源的利用—Genebank核苷酸序列的查找一、实验目的:了解生物信息学的各大门户网站以及其中的主要资源,并以NCBI提供的Genebank为例,学习核苷酸序列的分类学检索方法和使用技巧。

二、实验器材:计算机,NCBI、EMBL等生物信息学网络资源。

三、实验原理:根据Genebank 提供的数据资源,应用分类学方法进行核苷酸序列的查找。

四、实验内容:查找下列不同物种的不同基因组的核苷酸序列。

表1:不同物种的不同基因组的核苷酸序列表五、实验步骤:1、打开NCBI网站的主页,然后点击Genebank,进入到Genebank 的界面,然后点击网页上端Search后面的基本检索输入框选择所要查询的数据库,然后在后面一个方框中输入所查询的核苷酸序列的相关的关键词,点击检索按钮。

2、进入对应的核苷酸序列子库界面,点击目标核苷酸序列子库。

3、根据子库中提供的各条序列的注释及各自的GenBank收录号,寻找自己查找的目标序列,点击目标序列的GenBank收录号,进入目标核苷酸序列界面。

4、点击所需要的目标核苷酸序列的GenBank收录号就可以得到我们想要的核苷酸序列,然后将它们拷贝下来。

六、实验要求:每个人必须至少查找3个种,5条核苷酸序列。

必须写明查找到的核苷酸序列以及各条核苷酸序列的GenBank收录号-LOCUS,基因注释-DEFINITION,文章的作者AUTHORS,文章题目-TITLE,文章所发表的期刊-JOURNAL。

七、实验结果:查找的核苷酸序列基本情况表1LOCUS JN054403 894 bp DNA linear PLN01-NOV-2011DEFINITION Phytophthora melonis strain NN-1 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28Sribosomal RNA gene, partial sequence.AUTHORS Wu,Y.G., Huang,S.L., Fu,G., Hu,C.J. and Lu,S.F.TITLE Identification of the causal agent of wax gourd blight in South ChinaJOURNAL UnpublishedORIGIN1 tgggattccc accctagaac tttccacgtg aaccgtatca acaagtagtt gggggcctgc 61 tctgtgtggc tagctgtcga tgtcaaagtc ggcgactggc tgctatgtgg cgggctctat 121 catggcgatt ggtttgggtc ctcctcgtgg ggaactggat catgagccca ccttttaaac 181 ccattcttga ttactgaata tactgtgggg acgaaagtct ctgcttttaa ctagatagca 241 actttcagca gtggatgtct aggctcgcac atcgatgaag aacgctgcga actgcgatac 301 gtaatgcgaa ttgcaggatt cagtgagtca tcgaaatttt gaacgcatat tgcacttccg 361 ggttagtcct gggagtatgc ctgtatcagt gtccgtacat caaacttggc tctcttcctt 421 ccgtgtagtc ggtggatgga gacgccagac gtgaggtgtc ttgcggcgcg gccttcgggc481 tgcctgcgag tcccttgaaa tgtactgaac tgtacttctc tttgctcgaa aagcgtgacg 541 ttgttggttg tggaggctgc ctgtatggcc agtcggcgac cagtttgtct gctgcggcgt 601 ttaatggagg agtgttcgat tcgcggtatg gttggcttcg gctgaacaat gcgcttattg 661 gatgcttttc ctgctgtggt ggtatgggct ggtgaaccgt agttgtgcga ggcttggctt 721 ttgaaccggc ggtgttgtag cgaagtagag tggcggcttc ggctgtcgag ggtcgatcca 781 tttgggaact ctgtgttgtc tctgcggctt gctgtggagg tagcatctca attggacctg 841 atatcaggca agattacccg ctgaacttaa gcatatcata aacgcggagg act2LOCUS HM596011 530 bp DNA linear PLN01-JUL-2011DEFINITION Ophiocordyceps sinensis culture-collection ARSEF:6282 clone C 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2,complete sequence; and 28S ribosomal RNA gene, partial sequence. AUTHORS Chan,W.H.TITLE Direct SubmissionJOURNAL Submitted (28-JUN-2010) Depatment of Biology, The ChineseUniversity of Hong Kong, Shatin, Hong Kong 852, ChinaORIGIN1 tctccgttgg tgaaccagcg gagggatcat tatcgagtca ccactcccaa accccctgcg 61 aacaccacag cagttgcctc ggcgggaccg ccccggcgcc ccagggcccg gaccagggcg 121 cccgccggag gacccccaga ccctcctgtc gcagtggcat ctctcagtca agaagcaagc 181 aaatgaatca aaactttcaa caacggatct cttggttctg gcatcgatga agaacgcagc 241 gaaatgcgat aagtaatgtg aatcgcagaa ttcagtgaac catcgaatct ttgaacgcac 301 attgcgcccg ccagcactct ggcgggcatg cctgtccgag cgtcatctca accctcgagc 361 cccccgcctc gcggcggcgg ggcccggcct tgggggtcac ggccccgcgc cgccccctaa 421 acgcagtggc gaccccgccg cggctcccct gcgcagtagc tcgctgagaa cctcgcaccg 481 ggagcgcgga ggcggtcacg ccgtgaaacc accacaccct ccagttgacc3LOCUS HQ114254 711 bp DNA linear PLN31-AUG-2011DEFINITION Dendrobium densiflorum voucher PS2528MT01 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence.AUTHORS Yao,H., Gao,T. and Chen,S.-L.TITLE Direct SubmissionJOURNAL Submitted (10-AUG-2010) Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences, Peking Union Medical College, No. 151 Malianwa North Road, Haidian District, Beijing 100193,ChinaORIGIN1 tttccgtagg tgaacctgcg gaaggatcat tgtcgagacc aaaataaatc gagcgatttg61 gagaaccggt caaaataagc ggtgattatt atttccgtga tgaacgccat cccagtcgtt121 acctcatccc cttagggtcg aggatgcgag taaggatgga tgaacactca agccggcgca181 gcatcgcgcc aagggaaata tcgaaacatg agcccttaaa tgggtttggt ggaatggggt241 gctgttgcac gccatatgga ttgacatgac tctcggcaat ggatatctcg gctcacgcat301 cgatgaagag cgcagcgaaa tgcgatacgt ggtgcgaatt gcagaatccc gcgaaccatc361 gagtctttga acgcaagttg cgcccgaggc caactggcca agggcacgtt tgcctgggcg421 tcaagcgtta tgtcgcttcg tgtcaactcc atcccgtcga tgtatgggct ggcgaaggct481 cggatgtgca gagtggctca tcgtgcccct cggtgcggtg agctgaagag cgggtcatca541 tctcgttggc tgcgaacgat aaggggtgga ttaaagcgag gcctatgtta ttgtgtcgtg601 tatgcccgag agaagattat acatactcag gagatcccaa atcatgcgtc gatcaaagga661 tggcgcttgg aatgcgaccc caggatgggc gaggccaccc gctgagttta a4LOCUS AJ966733 585 bp DNA linear PLN11-APR-2008DEFINITION Saccharomyces sp. CECT 11011 mitochondrial partial COII gene forcytochrome c oxidase, subunit II.AUTHORS Gonzalez,S.S., Barrio,E. and Querol,A.TITLE Molecular characterization of new natural hybrids of Saccharomyces cerevisiae and S. kudriavzevii in brewingJOURNAL Appl. Environ. Microbiol. 74 (8), 2314-2320 (2008)ORIGIN1 aatattatgt tttatttatt agttatttta ggtttagtat cttgaatgtt atatactatt61 gtaataacat attcaaaaaa ccctattgct tataaatata ttaaacatgg acaaactatt121 gaagttattt gaacaatttt cccagcagta gtattattaa ttattgcttt cccatcattt181 attttattat atttatgtga tgaagttatt tcaccagcta taactattaa agctattgga241 tatcaatgat attgaaaata tgaatattct gattttatta atgatagtgg tgaaactgtt301 gaatttgaat catatgttat tcctgatgaa ttattagaag aaggtcaatt aagattatta361 gatactgata cttctatagt tgtacctgta gatacacata ttagatttgt tgtaacagct421 gctgatgtta ttcatgattt cgctatccca agtttaggta ttaaagttga tgctactcct481 ggtagattaa atcaagtttc tgctttaatt caaagagaag gtgttttcta tgggcaatgc541 tcagagttgt gcgggctggg acatgccaac ataccaatta aaatt5LOCUS Y09069 459 bp mRNA linear INV18-APR-2005DEFINITION D.melanogaster mRNA for NADH-ubiquinone oxidoreductase acyl-carrier subunit, splice variant.AUTHORS Ragone,G., Caizzi,R., Moschetti,R., Barsanti,P., De Pinto,V. and Caggese,C.TITLE The Drosophila melanogaster gene for the NADH:ubiquinoneoxidoreductase acyl carrier protein: developmental expressionanalysis and evidence for alternatively spliced formsJOURNAL Mol. Gen. Genet. 261 (4-5), 690-697 (1999)ORIGIN1 atgtcgttca cacagatcgc gcgcagctgc agtcgactgg cggccacttt ggccccaagg61 agggtcgcct ccggcattct catccaatca caggcctcca ggatgatgca caggatcgcc121 gtgccatcga tgaccagcca gttgagccaa gagtgccgtg gtcgctggca aacgcaattg181 gtgcgcaaat actcggcgaa accgccgctc tcgctgaagc tgatcaatga gcgcgtcttg241 cttgtgctca agctctacga caagatcgat cccagcaagc tcaacgttga gtcgcacttc301 atcaacgact tgggactgga ttccttggac cacgtggagg tcatcatggc catggaggac361 gagttcggtt tcgagatccc cgactctgat gccgagaagc tgcttaaacc tgccgacatt421 attaagtacg tcgccgacaa ggaggatgtg tacgagtaa实验二序列相似性搜索软件—BLAST的使用一、实验目的:掌握序列相似性查询工具—BLAST使用方法和技巧,理解与序列相似性查询相关的几个基本概念。

生物信息学实验指导书_新版本

生物信息学实验指导书_新版本

生物信息学实验指导书重庆邮电大学生物信息学实验指导书生物信息教学部谭军编重庆邮电大学生物信息学院前言生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。

目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。

生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。

本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。

生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。

限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。

其他选修者按照课时和学校相关规定计算创新学分。

实验一熟悉生物信息学网站及其数据的生物学意义实验目的:培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。

实验原理:利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。

实验内容:1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描述网站特征;2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。

生物信息学实验报告

生物信息学实验报告

生命科学技术学院实验(实习)报告专业班级:生物技术专业2009级班组别: 1 学号:课程名称:《生物信息学》设计性实习指导教师:成绩:姓名(E-mail):1 目的意义通过本实习,旨在学会利用国际国内科学文献资源库数据和生物信息资源数据库,查询文献资源、基因和蛋白质资源,并利用相关数据工具进行生物信息分析,最后对结果进行正确的分析,得出结论,探讨其生物学意义。

2 实验方法2.1 胰岛素mRNA序列的查询打开NCBI主页,选择Nucleotide,得到如下图所示的界面;在搜索框内输入insulin(胰岛素),点击Search进行搜索,得到胰岛素mRNA序列:ORIGIN1 gggaagaggg gcagacagaa cctggagcct gggaaggaag caccatgcca gcggggacag61 cagctagagc ctgggtgctg gttcttgctc tatggggtga gacactccca gccccaactc121 tccccctcag cagccctgct cccaccccac ccccagtacc tccctgcccc ctagaaatcc181 ccctgaacct gggcaccact ttccaaagac cctcacccac cctgtcctac acacgcacac241 cccagcccca cctctcccct tccaccctcc cacaatgatg ctatcaccca ggagctgtag301 ctggtggtca gaacatcaca gcccggattg gagagccact tgtgctaagc tgtaaggggg361 cccctaagaa gccgccccag cagctagaat ggaaactgcc actggaattg tcgatgaggg421 gactttccgg tgtcgggcaa ctaacaggcg agggaaggag gtcaagtcca actaccgagt481 ccgagtctac cagattcctg ggaagccaga aattgtggat cctgcctctg aactcacagc541 cagtgtccct aataaggtgg ggacatgtgt gtctgaggga agctaccctg cagggaccct601 tagctggcac ttagatggga aacttctgat tcccgatggc aaagaaacac tcgtgaagga661 agagaccagg agacaccctg agacgggact ctttacactg cggtcagagc tgacagtgat721 ccccacccaa ggaggaaccc atcctacctt ctcctgcagt ttcagcctgg gccttccccg781 gcgcagaccc ctgaacacag cccccatcca actccgagtc agggagcctg ggcctccaga841 gggcattcag ctgttggttg agcctgaagg tggaatagtc gctcctggtg ggactgtgac901 cttgacctgt gccatctctg cccagccccc tcctcaggtc cactggataa aggatggtgc961 acccttgccc ctggctccca gccctgtgct gctcctccct gaggtggggc acgaggatga1021 gggcacctat agctgcgtgg ccacccaccc tagccacgga cctcaggaaa gccctcctgt1081 cagcatcagg gtcacaggct ctgtgggtga gtctgggctg ggtacgctag ccctggcctt1141 ggggatcctg ggaggcctgg gagtagtagc cctgctcgtc ggggctatcc tgtggcgaaa1201 acgacaaccc aggcgtgagg agaggaaggc cccggaaagc caggaggatg aggaggaacg 1261 tgcagagctg aatcagtcag aggaagcgga gatgccagag aatggtgccg ggggaccgta 1321 agagcaccca gatcgagcct gtgtgatggc cctagagcag ctcccccaca ttccatccca1381 attcctcctt gaggcacttc cttctccaac cagagcccac atgatccatg ctgagtaaac1441 atttgacacg gtgtg//2.2 胰岛素mRNA序列的比对分析打开NCBI主页,选择BLAST,进入后选择nucleotide blast打开如下图所示的界面,在输入框内输入进行比对的序列:点击BLAST进行序列比对,得到结果。

生物信息学实验报告

生物信息学实验报告

生物信息学实验报告班级::学号:日期:实验一核酸和蛋白质序列数据的使用实验目的了解常用的序列数据库,掌握基本的序列数据信息的查询方法。

教学基本要求了解和熟悉NCBI 核酸和蛋白质序列数据库,可以使用BLAST进行序列搜索,解读BLAST 搜索结果,可以利用PHI-BLAST 等工具进行蛋白质序列的结构域搜索,解读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。

实验容提要在序列数据库中查找某条基因序列(BRCA1),通过相关一系列数据库的搜索、比对与结果解释,回答以下问题:1. 该基因的基本功能?2. 编码的蛋白质序列是怎样的?3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?4. 该蛋白质的功能是怎样的?5. 该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结构是什么样子的?给出示意图。

实验结果及结论1. 该基因的基本功能?This gene encodes a nuclear phosphoprotein that plays a role in maintaining genomic stability, and it also acts as a tumor suppressor. The encoded protein combines with other tumor suppressors, DNA damagesensors, and signal transducers to form a large multi-subunit protein complex known as the BRCA1-associated genome surveillance complex (BASC). This gene product associates with RNA polymerase II, and through the C-terminal domain, also interacts with histone deacetylase complexes. This protein thus plays a role in transcription, DNA repair of double-stranded breaks, and recombination. Mutations in this gene are responsible for approximately 40% of inherited breast cancers and more than 80% of inherited breast and ovarian cancers. Alternative splicing plays a role in modulating the subcellular localization and physiological function of this gene. Many alternatively spliced transcript variants, some of which are disease-associated mutations, have been described for this gene, but the full-length natures of only some of these variants has been described. A related pseudogene, which is also located on chromosome 17, has been identified. [provided by RefSeq, May 2009]2. 编码的蛋白质序列是怎样的?[Homo sapiens]1 mdlsalrvee vqnvinamqk ilecpiclel ikepvstkcd hifckfcmlk llnqkkgpsq61 cplcknditk rslqestrfs qlveellkii cafqldtgle yansynfakk ennspehlkd121 evsiiqsmgy rnrakrllqs epenpslqet slsvqlsnlg tvrtlrtkqr iqpqktsvyi181 elgsdssedt vnkatycsvg dqellqitpq gtrdeislds akkaacefse tdvtntehhq241 psnndlntte kraaerhpek yqgssvsnlh vepcgtntha sslqhenssl lltkdrmnve301 kaefcnkskq pglarsqhnr wagsketcnd rrtpstekkv dlnadplcer kewnkqklpc361 senprdtedv pwitlnssiq kvnewfsrsd ellgsddshd gesesnakva dvldvlnevd421 eysgssekid llasdpheal ickservhsk svesniedki fgktyrkkas lpnlshvten481 liigafvtep qiiqerpltn klkrkrrpts glhpedfikk adlavqktpe minqgtnqte541 qngqvmnitn sghenktkgd siqneknpnp ieslekesaf ktkaepisss isnmelelni601 hnskapkknr lrrksstrhi halelvvsrn lsppnctelq idscssseei kkkkynqmpv661 rhsrnlqlme gkepatgakk snkpneqtsk rhdsdtfpel kltnapgsft kcsntselke721 fvnpslpree keekletvkv snnaedpkdl mlsgervlqt ersvesssis lvpgtdygtq781 esisllevst lgkaktepnk cvsqcaafen pkglihgcsk dnrndtegfk yplghevnhs 841 retsiemees eldaqylqnt fkvskrqsfa pfsnpgnaee ecatfsahsg slkkqspkvt 901 feceqkeenq gknesnikpv qtvnitagfp vvgqkdkpvd nakcsikggs rfclssqfrg 961 netglitpnk hgllqnpyri pplfpiksfv ktkckknlle enfeehsmsp eremgnenip 1021 stvstisrnn irenvfkeas ssninevgss tnevgssine igssdeniqa elgrnrgpkl 1081 namlrlgvlq pevykqslpg snckhpeikk qeyeevvqtv ntdfspylis dnleqpmgss 1141 hasqvcsetp ddllddgeik edtsfaendi kessavfsks vqkgelsrsp spfththlaq 1201 gyrrgakkle sseenlssed eelpcfqhll fgkvnnipsq strhstvate clsknteenl 1261 lslknslndc snqvilakas qehhlseetk csaslfssqc seledltant ntqdpfligs 1321 skqmrhqses qgvglsdkel vsddeergtg leennqeeqs mdsnlgeaas gcesetsvse 1381 dcsglssqsd ilttqqrdtm qhnliklqqe maeleavleq hgsqpsnsyp siisdssale 1441 dlrnpeqsts ekavltsqks seypisqnpe glsadkfevs adsstsknke pgversspsk 1501 cpslddrwym hscsgslqnr nypsqeelik vvdveeqqle esgphdltet sylprqdleg 1561 tpylesgisl fsddpesdps edrapesarv gnipsstsal kvpqlkvaes aqspaaahtt 1621 dtagynamee svsrekpelt astervnkrm smvvsgltpe efmlvykfar khhitltnli 1681 teetthvvmk tdaefvcert lkyflgiagg kwvvsyfwvt qsikerkmln ehdfevrgdv 1741 vngrnhqgpk raresqdrki frgleiccyg pftnmptdql ewmvqlcgas vvkelssftl 1801 gtgvhpivvv qpdawtedng fhaigqmcea pvvtrewvld svalyqcqel dtylipqiph 1861 shy3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?有保守的供能结构域。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验二在NCBI上进行Blast比对、查询实验目的:熟悉序列比对的数学基础,掌握在NCBI网页上进行BLAST比对、查询技能。

设备、软件:装有WinXP、Win2k或Win7操作系统的计算机,同时要求装有两个网页浏览器(IE8、360极速浏览器)。

实验内容:在应用方面,BLAST分为三个方向,BLAST Assemble Genomes(在指定的基因组里鉴定同源基因,从而在基因组上实现定位),Basic BLAST(常规BLAST,即在数据库里搜索亲缘性的序列)和Specialized BLAST(对DNA、蛋白质的序列进行特殊BLAST,以期获得特殊的结构域、引物、抗体、SNP、表达谱、转录谱等),在这三组BLAST中,最常用的是Basic BLAST,它也是实现咨询序列与数据库中所有序列比较的BLAST。

通过简单的BLAST练习两条短序列的比对,熟悉两条字符串比对的原理;通过提交序列在数据库中进行BLAST在线比对,掌握在NCBI网页上进行BLAST比对、查询功能。

实验步骤:一、两条序列的比对1、先将如下两条序列进行FASTA格式处理CTGTGCGGA TTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAA和CTGTGCGGATTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAA AA 处理后为:>123CTGTGCGGA TTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAA >456CTGTGCGGA TTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAA AA2、打开IE,进入/,后打开BLAST链接(在主页的右上角的popular resources区域的第一个即是),或直接进入BLAST页面(/)。

3、在“Basic BLAST”中选择“nucleotide BLAST”功能,进入。

4、在新页面中,选中“Align two or more sequences”。

5、分别将上述FASTA格式化后的两条序列分别置入两个框内,点击“BLAST”按钮,进行比对运算。

6、了解各项比对结果的含义,体会其比对原理。

7、自己尝试任意两条序列的比对过程。

二、将感兴趣的序列与数据库中的序列进行BLAST,步骤如下:1)将感兴趣的序列粘贴到BLAST的输入框中。

2)选择一个BLAST程序(blastp, blastn, blastx, tblastx, tblastn)。

3)选择一个用于搜索的数据库。

4)为搜索和输出格式选择可选参数。

这些选项包括选择替换矩阵,过滤复杂度低的序列,以及将搜索范围限制在某些特定的物种中。

详见“BLAST使用说明”。

1.进入在线NCBI blast界面(/Blast.cgi)。

选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。

这里以常用的核酸库为例进行操作。

2.将FASTA格式的序列粘贴到框内,如:>123CTGTGCGGA TTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAA 之后,在“Choose Search Set”部分,选择要比对的数据库,一般是选择“others”,如果已知是人或者鼠的序列,则可以在前二者中选其一。

之后,在“Program Selection”中选择一种BLAST程序,在BLASTn中提供了三种精度的BLAST 程序,分别是高相似度的BLAST(megablast)、中相似度的BLAST(discontiguous megablast)和低相似度的BLAST(BLASTn),一般默认是megablast。

最后按下“BLAST”按钮,运行BLAST程序。

3.运行一段时间后,将显示出BLAST(简图)。

最上面的粗红线表示提交的待搜索序列(Query),在该线上有一个刻度,刻度下的数字表示序列长度。

该线上面不同颜色的彩色键(color key)代表相似度的大小,大于200分的是以红色显示,通常如果下面出现了红线,就可以判断所提交的序列在数据库中检索到了与其具有较高相似度的片段。

注意在本实验中,下面共有多少条红线、粉红线、绿线、蓝线和黑线。

4样,分值(Score)越大(表明同源性越高)的序列越往前。

此外,E值(E-value)也很重要,E值表示由于随机性造成获得这一联配结果可能次数。

E值越接近于0,发生这一事件的可能性越小,即这一事件不是随机的。

如某序列的E值为4e-163(4×10-163),那么,这条数据库中的序列可被认为是所提交的咨询序列的变异体。

此外,Query coverage表示序列覆盖度,Max Ident表示最大序列相似度。

5应的。

在这里给出了咨询序列与数据库中序列的详细情况,如序列的详细比对、得分(score)、一致性(identities)等信息。

在序列比对中,“∣”表示两个碱基相同,如没有,表示二者不同;“—”表示此处出现一个空隙(gap)。

如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp(看上面的图),就说明比对到的序列要长一点。

由Qurey (起始1)和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。

有时也要注意3'端的。

在BLAST比对中,评价标准有E值(Expect),一致性(Identities),缺失或插入(Gaps),还有长度共4个标准。

6BLAST程序对这些序列进行聚类,显示出各序列间的系统发育关系。

(此部分仅作了解)7.BLASTn参数的设置。

在BLASTn主页,点击“Algorithm parameters”(算法参数),将出现一个有很多选项的页面。

对于大多数搜索,最佳选项设置王万一杯设为缺省状态,但是通过改变参数进行深入搜索研究。

①“Max target sequences”选项该选项表示允许显示最多序列的条数,默认值是100,这是NCBI的管理员设定的,如显示过多会增加页面的响应时间,如调小此值,可加快显示速度。

②“Expect threshold”选项如果缺省值为10,表示联配结果中将有10个匹配结果是由随机产生的,如果联配的统计显著性值(E值)小于该值(10),则该联配结果将被检出,或者说,比较低的阈值将使搜索结果更严格,结果报告中随机产生的匹配序列减少。

③“Word size”(字长)选项BLAST程序师通过比对未知序列与数据库中的短序列来发现最佳匹配序列的。

最初进行“扫描”(scanning)就是确定匹配片段。

在进行匹配时,为了加快匹配的速度,基本的匹配单位并不是单个碱基(一个word),而是多个碱基组成的起始字符组,这个字符组越短,比对越精确,比对的时间越长。

随着数据库的扩容,NCBI中BLAST的W值调整为28,而以前是11。

④“Scoring Parameters”(分值)选项Match/mismatch的比值决定你所接受的进化分歧程度,二者的比值是与PAM矩阵的数值变化相对应的,如果二者的比值高,则PAM矩阵也应该选择大一些,以适应相应的较大的分歧程度。

⑤“Filters and Masking”(过滤器)选项设为“ON”(开),有助于过滤无用序列。

4.注意一下输入的序列长度、比对的数据库的说明。

实验三Blast程序本地化使用实验目的:掌握Blast程序的本地化使用。

实验步骤:1.Blast程序下载:ftp:///blast/executables/release/2.2.9/blast-2.2.9-ia32-win32.exe(打开方法:1、按住Ctrl键,后用鼠标左键点击链接;2、将此地址复制到IE的地址栏,击“回车”后,选择存放地址后后即可下载;3、将此地址复制到迅雷中,选择存放地址后即可下载。

),也可以下载新版本ncbi-blast-2.2.25+-ia32-win32.tar.gz。

2.程序安装:blast-2.2.9-ia32-win32.exe为自解压文件,双击运行后,在当前目录中会释放出3个文件夹:bin文件夹、doc文件夹和data文件夹。

(为一致起见,先在D盘建立一个名为“SWXX”的文件件,将改程序放入此文件夹内。

)bin文件夹是一个程序包,有各种程序,详见后。

3.数据库下载:ftp:///blast/db/FASTA/,或者在NCBI主页中点击“download”,寻找需要下载的数据库,然后下载(说明:nr.gz 为非冗余的数据库,nt.gz 为核酸数据库,month.nt.gz 为最近一个月的核酸序列数据)。

为一致起见,只下载month.nt.gz数据库,并将该数据库放入D:\SWXX内。

4.数据库格式化:下载的month.nt.gz先用winrar解压缩(解压缩到当前文件夹),得到month.nt (放到D:\SWXX\bin目录里)后用formatdb.exe对数据库进行格式化。

格式化过程如下:①点击开始。

②在弹出的对话框中输入“cmd”,点击“确定”,进入DOS界面。

③在光标后,依次输入“d: ”、“cd SWXX”、“cd bin”命令。

④进入D:\SWXX\bin目录后,输入“formatdb -i month.nt -p F -o T”命令,敲“回车”运行程序。

说明:-i input file 参数用于指定需要格式化的数据库;-p type of file 用于指定文件类型,T为蛋白质,F为核酸,默认为T;-o parse options 用于指定是否解析序列ID并创建索引T 为创建,F为不创建,默认为F。

5.序列比对(1)选取测试序列(FASTA格式),如下:①核酸序列:>TestAGCTTTTCA TTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTA TTGACTTAGGTCACTAAATACTTTAACCAATA TAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC ATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAG CCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAA TGCC AGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATA TCAGCGATGCCGAACGTA TTTTTGCCGAACTTTT②蛋白序列:>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGN GTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEE VDEMIREADIDGDGQVNYEEFVQMMTAK(2)将此段序列保存为test.txt,置于程序目录下。

相关文档
最新文档