生物信息学复习总结

生物信息期末总结

1.生物信息学（Bioinformatics）定义：（第一章）★

生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。

（或：）

生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。（NSFC）

2. 科研机构及网络资源中心：

NCBI：美国国立卫生研究院NIH下属国立生物技术信息中心；

EMBnet：欧洲分子生物学网络；

EMBL-EBI：欧洲分子生物学实验室下属欧洲生物信息学研究所；

ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统；(Expert Protein Analysis System)

Bioinformatics Links Directory；

PDB (Protein Data Bank)；

UniProt 数据库

3. 生物信息学的主要应用:

1．生物信息学数据库；2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学；7．计算进化生物学与生物多样性。

4.什么是数据库：★1、定义：数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。（记录record、字段field、值value）

2、生物信息数据库应满足5个方面的主要需求：

（1）时间性；（2）注释；（3）支撑数据；（4）数据质量；（5）集成性。

3、生物学数据库的类型：一级数据库和二级数据库。

（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；

蛋白质序列数据库有SWISS-PROT等；蛋白质结构库有PDB等。）

4、一级数据库与二级数据库的区别：★

1）一级数据库：

包括：a.基因组数据库----来自基因组作图；

b.核酸和蛋白质一级结构序列数据库；

c.生物大分子(主要是蛋白质)的三维空间结构数据库，(来自X-衍射

和核磁共振结构测定)；

2）二级数据库：

是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验

数据和理论分析的基础上针对特定的应用目标而建立的。

一般说来，一次数据库的数据量大，更新速度快，用户面广，通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二次数据库的容量则小得多，更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。

5、一个数据库记录(entry)一般由两部分组成：

1）原始序列数据(sequence data)；

2）描述这些数据生物学信息的注释(annotation)：注释中包含的信息与相应的序列数据同样重要和有应用价值。

6、数据的完整性和注释工作量：1）序列数据广，序列注释不够完整；

2）库数据面窄，序列注释全面.

7、数据库的动态更新：1）不断增加；2）不断修正.

5、几个大型数据库简介：

NCBI、EBI、SIB（共点：拥有庞大的一级数椐库、大量工具软件和广泛的外联。）1、NCBI（https://www.360docs.net/doc/2515100753.html,）:

NCBI是指美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI），成立于1988年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。

1）Entrez（集成化的数据库）（https://www.360docs.net/doc/2515100753.html,/gquery/）

Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS（见下文），是一个查询、提取和显示系统。The original version（原始版本）(1991) of Entrez had just 3 nods。2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。

2、EMBL-EBI（https://www.360docs.net/doc/2515100753.html,）

EMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)为世界上第一个核酸序列数据库（1980）。

欧洲分子生物学实验室下属欧洲生物信息学研究所（European Bioinformatics Institute, EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法（如用关键字）搜索我们想要的序列。EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。欧洲分子生物学实验室EMBL（The European Molecular Biology Laboratory）。Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。

3、SIB（https://www.360docs.net/doc/2515100753.html,）

瑞士生物信息研究所(Swiss Institue of Bioinformatics,SIB ,30 March 1998 )。用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：SWISS-PROT，ExPASy（Expert Protein Analysis System瑞士日内瓦大学专家蛋白质分析系统（http://www.expasy.ch/））。

6、核酸序列数据库：

1、国际上权威的核酸序列数据库：

（1）欧洲分子生物学实验室的EMBL；

（2）美国生物技术信息中心的GenBank；

（3）日本遗传研究所的DDBJ，（http://www.ddbj.nig.ac.jp/）；

这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。

2、INSDC国际核酸序列数据库协会：

1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（International Nucleotide Sequence Database Collaboration,INSDC），三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步，每两个月更新一次版本。（https://www.360docs.net/doc/2515100753.html,/）

7、蛋白质序列数据库：

1）PIR（Protein Information Resource）；（https://www.360docs.net/doc/2515100753.html,/）

2）SWISS-PROT；(http://www.expasy.ch/sprot/sprot-top.html)

3）TrEMBL；(https://www.360docs.net/doc/2515100753.html,/trembl/index.html) 是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译

而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中；

4）NCBI美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）；

5）UniProt；通用蛋白质数据库（https://www.360docs.net/doc/2515100753.html,/）包括：（Swiss-Prot、TrEMBL、PIR）用户可以通过文本查询数据库，可以利用BLAST程序

搜索数据库，也可以直接通过FTP下载数据。

8、生物大分子结构数据库：

1）PDB（Protein Data Bank）；（https://www.360docs.net/doc/2515100753.html,/）

2）MMDB(Molecular Modeling Database)；（https://www.360docs.net/doc/2515100753.html,/Structure/）9、其它生物分子数据库：

1）单碱基多态性数据库dbSNP；2）基因组数据库（GDB）；3）人类基

因组数据库Ensembl；4）表达序列标记数据库dbEST；5）序列标记位点数据库dbSTS；6）面向基因聚类数据库UniGene；7）蛋白质结构分类数据库SCOP；8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP；10）OMIM(Online Mendelian Inheritance in Man)，是关于人类基因和遗传疾病的分类数据库。。。

》》》Nucleic Acid Research《《《

附：1、NCBI和EBI使用的搜索引擎分别是什么？

答：NCBI使用的是Entrez，EBI使用的是SRS。

2、FASTA格式有哪些部分组成，以什么字符开始？

答：包含gi number，Database identifiers，Accession number，Locus name等部分，以>字符开始。

3、NCBI的WEB和离线序列提交软件是什么？

答：WEB提交工具：Bankit；离线提交：Sequin

4、系统生物学：

答：确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。

10、序列数据的文件格式：(第二章)

格式主要有三种：

DNA/RNA/氨基酸代码的标识（B、Z）；

GenBank数据格式；

FASTA 数据格式。

一、GBFF（GenBank flatfile）—GenBank平面文件格式：

GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢？这里引入GBFF（GenBank flatfile即GenBank平面文件）格式。GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。GBFF文件分为三部分：a.头部包含整个记录的信息（描述符）；

b.第二部分包含了注释这一记录的特性；

c.第三部分是核苷酸序列本身。

（注：所有序列数据库记录都在最后一行以“//”结尾。）

1）G BFF：LOCUS行

（LOCUS ，SCU49845，5028 bp，DNA linear，PLN，21-JUN-1999）

所有GBFF都起始于LOCUS行：

第一项：是LOCUS名称（SCU49845）：现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义。大多数情况下，它仅使用检索号码（accesession number）以满足对LOCUS名称的要求；

第二项是序列长度（5028 bp）：规定单条数据库记录的长度不能超过350kb。除历史原因外，GenBank已经很少接受长度低于50bp的序列了；

第三项表明分子类型（DNA）：其序列必须是一种单一的分子类型；

第四项是GenBank分类码（PLN）：由3个字母组成。现在其作用仅限于在下载数据库时对数据库作简单的分类。

最后一项是其最后修订日期（21-JUN-1999）：有时也仅表示数据首次公开日期。2）G BFF：DEFINITION行(definition)

(DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.)

LOCUS行的下一行为DEFINITION行：主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是非编码区，则包含对序列功能的简单描述；若是一段编码区，则标明该序列是部分序列（partial cds）还是全序列（complete cds）。

3）G BFF：ACCESSION行（accession）检索号行

（ACCESSION U49845）

检索号（accession）是序列记录的惟一指针。通常由1个字母加5个数字

（U12345）或由2个字母加6个数字（AF123456）组成。它在数据库中是惟一而且不变的。有时ACCESSION行中可能会出现多个检索号，可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。我们称第一个检索号为主检索号，其余的统称为二级检索号。

4）G BFF：VERSION行（version）版本号行

（VERSION U49845.1 GI:1293613）

VERSION行是版本号，格式为：检索号.版本号。版本号用于识别数据库中一条单一的特定核苷酸序列。在数据库中，如某条序列数据发生了变化，即使是单碱基的改变它的版本号也将增加，而其检索号保持不变。

版本号系统与其后的GI（geninfo identifier）号系统是平行运行的。即当一条序列改变后，它将被赋予一个新的GI号，其版本号也将增加。蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。

5）GBFF：KEYWORDS行（keywords）关键词行

（KEYWORDS .）

关键词行是用来描述序列的。如果该行没有任何内容，那么就只包含一个“.由于没有对照词汇表，故NCBI/GenBank拒绝接受关键词，它只存在于旧的记录中。6）GBFF：OURCE行（source）来源行

（SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;

Saccharomycetales; Saccharomycetaceae; Saccharomyces.）

对来源行(SOURCE)没做特殊的规定，它通常包含序列来源生物的简称，有时也包含分子类型。在下面以NCBI的分类数据库为依据，指明物种的正式科学名称。7）GBFF：REFERENCE 行reference参考文献行

（REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890）

参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于第一位。如果序列数据没有被相关文献报道，该行将出现“unpublished”或“in

press”。最后将有一个可能的PUBMED指针。

8）GBFF：FEATURES 行（features）特性表行

（FEATURES Location/Qualifiers

CDS <1..206

/codon_start=3

/product="TCP1-beta"

/protein_id="AAA98665.1"

/db_xref="GI:1293614"

/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRA VVSSASEA

AEVLLRVDNIIRARPRTANRQHM"

gene 687..3158

/gene="AXL2"

...... ）特性表(features)描述基因和基因的产物以及与序列相关的生物学特性。特性表提供一个参考词汇表以对合法的特性进行注释。这些特性包括：1、该序列是否执行一个生物学功能；2、它是否与一个生物学功能的表达相关；3、它是否与其它分子相互作用；4、它是否影响一条序列的复制；5、它是否与其他序列的重组相关；6、它是否是一条已识别的重复序列；7、它是否有二级或三级结构；

8、它是否存在变异或者它是否被修订过。

特性表格式是按表单的方式设计的，分三个主要部分：

1）特性表关键词（feature），简要说明功能组；

2）特性位置（location），指明在特性表中的什么地方可以找到相关特性，在此可以包含操作符（operator）和功能性描述符（descriptor）以指明序

列需经过怎样的处理才能得到相应的特性；

3）限定词（qualifier），相关特性的辅助信息，限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息。

（这段序列可以解读为：该编码序列（CDS）起始于第1碱基，终止于第206碱基，它的产物是TCP1-beta ，基因名为“AXL2”。）

9）GBFF：ORIGIN （origin）

（ORIGIN

1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg

61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct

......

4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc ）

在GBFF文件的最后，以类似于FASTA格式的方式给出了所记录的序列。

二、FASTA 数据格式（FASTA format）：

Accession numbers are labels for sequences（检索号）

11、RefSeq资料库：（NCBI Reference Sequence Database参考序列数据库）

RefSeq资料库是NCBI将GenBank 的序列再做详细整理的non-redundent 序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库，为与GenBank 区别，RefSeq的Accession Number（检索号）格式和GenBank的不同。该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBI RefSeq仍是目前最可信赖的序列数据库。

GenBank中一个基因的索引号可能有上百个，但对应一个基因的RefSeq只有一个。（https://www.360docs.net/doc/2515100753.html,/RefSeq/）

NCBI参考序列数据库(RefSeq)旨在提供一个全面的、集成的、冗余，好的注释组序列，包括基因组DNA、转录和蛋白质。RefSeq是医学、功能和多样性研究的基础；它们提供一个稳定的参考基因组注释、基因识别和表征，突变和多态性分析(特别是RefSeqGene记录)，表达研究和比较分析。

e.g. >数据库检索实例<:

搜索Genbank no. FJ798090，获得序列相关信息

1.进入NCBI网站，选择nucleotide：FJ798090搜索，得到相关信息；

2.从CDS行可看到有关Aa的信息，从ORIDIN行可看到DNA相关信息；

3.在原网页上选择右边相关信息选择框的PubMed，查看关联文章；

4.主页进入DNA&RNA，选择tools，点第二个Batch Entrez，批量下载序列；

5.提交结果，显示参数与序列下载(Send选项、选File、然后选FASTA格式)，

下载序列，提交序列。

12、提交序列：

1、提交方式主要有三种：1）、Bankit 逐条提交、需要注册；2）、Sequin 10000

条以下；3）、Tbl2asn 超过1万条、命令行。

2、Bankit提交：先注册，后点New Submission（创建一个新提交），Sequencing

Technology（测序技术），nucleotide（核酸），Organism（生

物体），Submission Category（提交类别），Source Modifiers

（源寄存器修改），Primers（引物），Features（特性），Review

and Correct（检查和纠正，3处）。

3、Sequin DNA分析软件：（A DNA Sequence Submission and Update Tool）

序列提交：研究产生的新序列，需要递交到公共数据库保存；需要撰写论文发表新序列时，需要数据库接受号。

4、WEB在线提交工具：1、NCBI 的Bankit；2、EBI的WEBIN；3、DDBJ

的SAKURA；

5、离线提交：NCBI的Sequin。

6、提交比较：Bankit提交：使用简单，每个步骤有详细说明。但一次只能提交一个序列，长度不能太长；Sequin：安装在用户自己的计算机上，可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。

13、引物设计及测序结果分析：（第三章）

1、引物设计流程：

1）序列查找与下载（GenBank）；

2）序列同源性比较(Blast/alignment)；

3）引物设计与筛选(primer 3/其他)；

4）引物加工与修饰(酶切、保护、标签、启动子等)；

5）引物评价分析(Oligo 6)；

6）引物二次筛选(blast)；

7）引物最终评估(band)；

2、引物设计原则：

基本原则：1）引物与模板的序列要紧密互补；2）引物与引物之间避免形成稳定的二聚体或发夹结构；3）引物不能在非靶点引发DNA聚合反应。注意点：1、引物长度在15-30bp之间；

2、GC含量为40-60%之间；

3、引物的特异性（3’端不能有连续的GGG或CCC）；

4、3’△G的绝对值不超过9，双链形成所需自由能；

5、密码子的兼并：3’不要位于密码子的第3位。

3、引物设计软件：1）在线工具Primer 3、Primer-Blast；

2）本地软件Primer Premier 5；

3）引物评估软件Oligo 6。

e.g．在线设计引物：

在Primer 3界面上将需要设计的序列粘贴复制进入大方框，确定基本参数和结果参数后，点击pick键后出现output页面，将所需的序列即一定要PCR出的序列用中括号括上，再复制进大方框。这两者的差别是第一个是随机的引物，而第二个选出的引物必然包含你所需的那一段。

KEYS (in order of precedence)优选引物:（****** target，>>>>>> left primer ，<<<<<

4、Oligo 7手工设计引物：

上游ATGGGAAAAGACTATTACAAAATC

下游TCAATTCGGCAGCGTATCGTAGAG

选择引物长度→选定上下游引物→3’△G绝对值不能超过9→Duplex Formation 二聚体分析、Hairpin formation发夹分析（△G不能超过4.5）→成分和Tm→错误引发位点分析：一般在100以下，若正确引发效率达到400，可承受超过100多点→PCR最终分析评价→引物二次筛选（上下游引物在ncbi中进行blast分析（搜索primer ncbi）并输入设计的引物，选择nr数据库）→引物最终评估（大小、特异性、效率）→保护碱基与酶切位点（BamHⅠ，NotⅠ）。

5、测序结果分析：（一、Sanger法测序；二、测序图查看；三、序列拼接。）Sanger法测序：流程：（1.PCR扩增；2.产物纯化；3.测序反应；4.电泳分离）；

DNA 测序的实验方法：(末端终止法）；

测序图查看软件：Chromas、Seqman…；

不好的结果：杂峰、套峰。

e.g．序列拼接实例:

1. SeqMan软件启动界面；

2. 原始测序文件导入软件；

3. Assemble（装配）；

4. Strategy of Contig（重叠群策略）Contig→Strategy view和Contig→Alignment

view→去除矛盾碱基和缺口（手动删除、修改可疑碱基）→导出拼接序列。

14、核酸序列分析：（第四章）

（常规分析、比对分析、基因结构识别）

1、常规分析：

（序列的检索、序列组分分析、序列变换、限制性酶切分析）

1、核酸序列检索：（Entrez、SRS）

2、核酸序列组分分析：（Bioedit→分子量；DNAMAN→碱基组成；EditSeq→碱

基分布）

1）EditSeq（碱基组成：Goodies→DNA Statistic）；

2）Bioedit （碱基组成Sequence-→Nucleic Acid→Nucleotide composition）；

Bioedit：一种对基因序列进行分析加工或序列拼接的软件。

3、序列变换：（反向互补序列EditSeq→Goodies→Reverse complement；

反向序列EditSeq→Goodies→Reverse Sequence）

4、限制性酶切分析：（BioEdit→Sequence→Nucleic Acid→Restrict Map

在线：NEBcutter、WebCutter、Rebase）

2、比对分析：

意义：推测基因和蛋白质的进化演变规律；推测基因和蛋白质的结构和功能；

基本假设：序列的保守性→功能的保守性；

工具：Blast 和Clustal X；

1）BLAST比对（Basic Local Alignment Search Tool，基本局部比对搜索工具）

BLAST程序的中心思想是将序列切割成一段一段来比较。这两段序列长度为W（分别来自提交序列，与数据库），比对分值>T。

主要分三步进行：（第一步：由查询序列生成的长度固定（W=3）的字段编译列表(Score>T)；第二步：在数据库中扫描获得与编译列表中的字段匹配的序列记录，作为后续延伸的种子seed；第三步：对于每一对选择出来的种子，将其向两边延伸，使其在尽可能长的距离得到尽可能多的分数。）

比对结果的判读：比对结果的显著性以E值(Expect value)来衡量，E值趋向于0时，说明比对结果越显著。E值的意义就是概率；

比对得分(bit score)：表明序列比对的得分，数值越高，两序列越相似。【作业：以纤维素酶基因序列为靶标，进行核酸组分分析，NCBI中比对你的序列，至少使用blastn，blastx并下载不少于十个比对出来的序列。】

回头来看NCBI参数选择：（blastp、blastn）

①Limit by Entrez Query：任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定；

②Max target sequences：比对之后显示的最大的比对序列的数目；

③期望expect：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时，返回的数据库搜索结果将变少，匹配被搜索到的概率也会变小。增大E值将返回更多的结果；

④字段长度word size：对于蛋白质搜索，窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行数据库搜索时，BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。实际应用中对于蛋白质搜索很少需要改变字段的长度；对于核酸序列，默认的字段长度是28，BLAST 的字长缺省值为28，即BLASTN将扫描数据库，直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止。然后这些片段(即字)被扩展。降低字段长度将会使搜索变得更准确同时也会变得更慢；

⑤矩阵matrix：对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵：PAM30、PAM70、BLOSUM45、BLOSUM62(默认值)以及BLOSUM80。一些其他的BLAST 服务器还提供了很多其他的替代矩阵，如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵；

⑥Compositional adjustments：这个选项是默认选择的，一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)；

2）blast2双序列比对：

Blast比对后，当数据库中搜索到多个显著相似的序列时，检测目的序列是否与之有真正关联，可进行双序列比对Pairwise Aligment。

Ncleotide：Hsp40 ORF VS bm40（改变参数）

点阵图Dot matrix view：连续线表示序列匹配指出，缺口表明量序列不匹配之处。比对结果：

3、基因结构识别：

包括：（ORF识别；启动子与转录因子结合位点分析；重复序列分析；CpG island）1)ORF识别：

Kozak原则：1、第四位的偏好碱基为G；2、ATG的5‘端约15bp范围内的侧翼序列内不含碱基T；3、在第3、6、9位，G为偏好碱基；4、除第3、6、9位，在整个侧翼序列中，c为偏好碱基。

常见ORF在线预测工具：（ORF Finder；GeneMark,hmm；Glimmer 原核生物；Glimmer HMM真核生物）（ORF的验证：Blast）。

2）启动子及转录因子结合分析：Promoter Scan；

3）重复序列分析：repeatmasker；

4）CpG island：CpGPlot；（CpGisland通常位于启动子附近）

CpG双核苷酸在人类基因组中的分布很不均一，而在基因组的某些区段，CpG保持或高于正常概率，这些区段被称作CpG岛。在哺乳动物基因组中的1~2kb的DNA片段，它富含非甲基化的CpG双倍体。CpG岛主要位于基因的启动子（promotor）和第一外显子区域，约有60%以上基因的启动子含有CpG岛。GC含量大于50%，长度超过200bp。

15、DNA双序列比对Pairwise Sequence Alignment原理：（第五章）1、比什么？给定两条序列(DNA or protein)

Seq 1：CATATTGCAGTGGTCCCGCGTCAGGCT

Seq 2：TAAATTGCGTGGTCGCACTGCACGCT

它们存在多大程度的相似?

CATATTGCAGTGGTCCCGCGTCAGGCT

TAAATTGCGT-GGTCGCACTGCACGCT

2、为什么比?（发现功能、研究进化、某条序列的关键特征、疾病的鉴定）

3、序列变化：三种类型的变化包括：Substitution (点突变)、Insertion（插入）、Deletion（删除），后两个统称为Indel （插入缺失）。

4、为达到比对两序列的目的，我们需要一个定量模型来评估两序列，如何定量两序列间的相似性?

一、全局比对（Global alignment）：

是对给定序列全长进行比较的方式。在待比较的两个序列中引入空位（gap），使得对序列的全长都得到比较，Needleman-Wunsch算法。全局序列比对，比对的是全部序列。建立一个得分矩阵，A序列在上方，B序列在左侧，方格(i,j)的数值是A(0-i)到B(0-j)的最佳比对。全部比对的得分在最下角。

二、局部比对：获得两序列最佳匹配的区域，有时与全局匹配一致。

16、蛋白序列比对：（第六章）

一般规则：蛋白质序列25%的同一性（长度>100），即为同源基因homologous gene，DNA序列同一性大于70%为同源序列。

基于氨基酸相似性的序列比对：

打分矩阵，基于同一性的打分矩阵：对相似性序列比对不错；但对于相似性程度低的序列效果很差；

替换矩阵，对高度相似的序列，我们可以对氨基酸替换频率进行评估打分；

BLOSUM矩阵基于高度保守区的置换模式；

PAM矩阵基于通过全局比对的突变，包括高度保守区与高度可变区；

BLAST默认使用BLOSUM62，可以更改。

19、分子进化与系统发育分析（第九章）

1、达尔文进化论：进化：变异的遗传；自然选择：解释为何演变发生的机制；

2、中性进化论：并非所有种群中保留下来的突变都由自然选择所形成；大多数

突变是中性或接近中性，不妨碍种群的生存与繁衍。

3、分子进化的模式：

DNA突变的模式：替代，插入，缺失，倒位；

核苷酸替代：转换(Transition) & 颠换(Transversion)；（转换：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代；颠换：嘌呤被嘧啶替代，或者嘧啶

被嘌呤替代）

基因复制：多基因家族的产生以及假基因的产生：

A.单个基因复制、重组或逆转录；

B. 染色体片断复制；

C. 基因组复制

4、同源物的定义：

5、同源性与相似性：

相似性(Similarity)：序列比对过程中用来描述检测序列和目标序列之间相似

DNA碱基或氨基酸残基序列所占比例（为定量描述）；

同源性(Homology)：两个基因或蛋白质序列具有共同祖先的结论（定性判断）；相似不一定同源；同源不一定相似。

氨基酸序列相似性超过30%，很可能同源。

6、Ka/Ks：计算及含义

1）Ka：每个非同义位点的非同义替代数目；

2）Ks：每个同义位点的同义替代数目；

Ka/Ks ~ 1: 中性进化；；ka/Ks << 1: 阴性选择，净化选择；；ka/Ks >> 1: 阳性选择，适应性进化。（多数基因为中性进化，约1%的基因受到阳性选择->决定物种形成、新功能的产生；PAML, MEGA等工具：计算Ka/Ks及统计显著性）

7、相对同义密码子使用度(relative synonymous codon usage，RSCU)：

定义：观测到的某一同一密码子的使用次数，除以“期望”的该密码子出现次数。

8、密码子相对适应度（The relative adaptiveness of a codon）：

编码第i个氨基酸的第j个同义密码子的“相对适应性”，即该同义密码子的观察值，除以编码该氨基酸的同义密码子的最大值。

9、CAI：密码子适应指数（Codon Adaptation Index），是分析密码子偏爱性最常用的方法。（CAI值介于0~1之间, 该值越大表示偏性越强；CAI值一般用来预测种内基因的表达水平，以及预测外源基因的表达水平；不同物种CAI的计算依赖于各自的参考数据集。）

10、构建系统发育树（进化树）的方法：

A. 最大简约法(maximum parsimony, MP)，适用序列有很高相似性时；

B. 距离法(distance-based methods) ，适用序列有较高相似性时；

C. 最大似然性法(Maximum Likelihood，ML) 可用于任何相关序列集合；

D. 贝叶斯（Bayesian）推断；

计算速度：距离法>最大简约法>最大似然法

11、信息位点(Sites are informative)：能将所有可能的树区别出来的位点。

信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。

12、通过进化距离构建进化树的方法有很多，常见有：

(1) Fitch-Margoliash Method (FM法)：对短支长非常有效；

(2) Neighbor-Joining Method (NJ法/邻接法)：求最短支长，最通用的距离方法；

(3) Neighbors Relaton Method(邻居关系法) ；

(4) Unweighted Pair Group Method with Arithmetic Mean （UPGMA，非加权组

平均法)

生物信息学复习笔记

生物信息学填空，选择，计算，简答，名词解释几代测序的代表平台，优缺点一代DNA测序技术用的是1975年由桑格（Sanger）和考尔森（Coulson）开创的链终止法 Sanger法核心原理是：由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应，在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP（分为：ddATP,ddCTP,ddGTP 和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列第一代测序技术的主要特点是测序读长可达1000bp，准确性高达99.999%，但其测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用以Roche公司的454技术、illumina公司的Solexa，Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了（1）DNA待测文库构建利用超声波把待测的DNA样本打断成小片段，目前除了组装之外和一些其他的特殊要求之外，主要是打断成200-500bp长的序列片段，并在这些小片段的两端添加上不同的接头，构建出单链DNA文库。（2）Flowcell

Flowcell是用于吸附流动DNA片段的槽道，当文库建好后，这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel，每个channel的表面都附有很多接头，这些接头能和建库过程中加在DNA片段两端的接头相互配对（这就是为什么flowcell 能吸附建库后的DNA的原因），并能支持DNA在其表面进行桥式PCR的扩增。（3）桥式PCR扩增与变性桥式PCR以Flowcell表面所固定的接头为模板，进行桥形扩增，如图4.a 所示。经过不断的扩增和变性循环，最终每个DNA片段都将在各自的位置上集中成束，每一个束都含有单个DNA模板的很多分拷贝，进行这一过程的目的在于实现将碱基的信号强度放大，以达到测序所需的信号要求。（4）测序测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP（如同Sanger测序法）。这些dNTP的3’-OH被化学方法所保护，因而每次只能添加一个dNTP。在dNTP被添加到合成链上后，所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着，再加入激发荧光所需的缓冲液，用激光激发荧光信号，并有光学设备完成荧光信号的记录，最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后，再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团，以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题，它的主要测序错误来源是碱基的替换，目前它的测序错误率在1%-1.5%之间，测序周期以人类基因组重测序为例，30x测序深度大约为1周。第二代测序技术大大降低了测序成本的同时，还大幅提高了测序速度，并且保持了高准确性以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术，被称之为第三代测序技术。

生物信息学题库说课材料

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能 4.下面哪种数据库源于mRNA信息：■ dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■ PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变： A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■ blastx 18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说： A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法： A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA） 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是： A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■ 10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是： A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以： A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp： A. 20000■. 200000 C. 2000000 D. 20000000

生物信息学复习

试卷习题--课后习题--概念题 1. EST【Expressed Sequence Tag (表达序列标签) :Randomly selected, partial cDNA sequence; represents it’s corresponding mRNA. dbEST is a large database of ESTs at GenBank, NCBI.】。 2. STS【Sequence Tagged Site （序列标签位点），Short cDNA sequences （200 to 500bp）of regions that have been physically mapped. STSs provide unique landmarks, or identifiers, throughout the genome. Useful as a framework for further sequencing。】 3. Sequence Alignment 【The process of lining up two or more sequences (DNA, RNA or amino acid) to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology】 4. 序列相似性【是序列比对过程中，用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基所占比例的术语】。 5. 同源序列【是指从某一共同祖先经趋异进化而形成的不同序列】 6. Algorithm（算法）【A systematic procedure for solving a problem in a finite number of steps, typically involving a repetition of operations. Once specified, an algorithm can be written in a computer language and run as a program.】 7. 序列相似性搜索【将查询序列（query sequence）与整个数据库中的所有序列进行比对，从数据库中获得与其最相似序列的过程。能最快速的获得有关查询序列的大量有价值的参考信息，对于进一步分析其结构和功能都会有很大的帮助。】 8. 序列同源性分析【是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小】。 9. Orthologs（直系同源）【Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function】。 10. Paralogs（旁系同源）【Homologous sequences within a single species that arose by gene duplication】。 11. A Position-specific scoring matrix (PSSM) is defined as a table that contains probability information of amino acids or nucleotides at each position of an ungapped multiple sequence alignment. 12. A profile is a PSSM with penalty information regarding insertions and deletions for a sequence family. 13. 核酸序列预测【指利用一些计算方式（计算机程序）从基因组序列中发现基因及其表达调控元件的位置和结构的过程，包括基因预测和表达调控元件预测】。 14. ORF【一个开放阅读框（ORF, open reading frame）是一个(中间)没有终止密码子的蛋白质编码序列】。 15. Motif（模体）【A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA. It is often associated with a distinct structural site performing a particular function. A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.】16. Domain（结构域）【A domain is also a conserved sequence pattern, defined as an independent functional and structural unit. Domains are normally longer than motifs. A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.】 17. Homology Modeling【同源建模方法：如果两个蛋白质序列在80个以上残基的序列比对中显示出25％的一致性，那么这两个蛋白质就具有相似的结构，这就是同源建模方法的理论基础。如果一条结构未知的序列(通常称为目标序列)可以在已知结构库中找到一条或一

生物信息学复习题及答案(打印)

一、名词解释： 1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。 3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。 4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。 5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。 6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E 值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源

生物信息学现状与展望

研究生课程考试卷学号、姓名： j20112001 苗天锦年级、专业：2011生物化学与分子生物学培养层次：硕士课程名称：生物信息学授课学时学分： 32学时 2学分考试成绩：授课或主讲教师签字：

生物信息学现状与展望摘要：生物信息学是一门新兴学科，起步于20世纪90年代，至今已进入"后基因组时代"，本文对生物信息学的产生背景及其研究现状等方面进行了综述，并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。关键词：生物信息学；生物信息学背景；发展前景一、生物信息学概述 1.生物信息学发展历史随着生物科学技术的迅猛发展，生物信息数据资源的增长呈现爆炸之势，同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能，为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用，一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构（双螺旋）。Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA 聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。Meselson与Stahl （1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai（1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作，人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图，预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

生物信息学复习资料

第一章 1.生物信息学：用数学的、统计的、计算的方法来解决生物问题，这基于用DNA、氨基酸及相关信息。即生物+信息学，其中生物是指从基因型到表型：DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现：数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划：①前基因组时代(1990年前)：通过序列之间的对比，寻找序列变化，确定序列功能。②基因组时代(1990年后～2001年)迅猛发展：标志性的工作包括基因寻找和识别，数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究：研究内容发展到基因和基因组的功能分析，即功能基因组，学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年，联合公布人类基因组草图 3.基因芯片：又称DNA芯片，由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理：杂交测序方法，在一定条件下，载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交，如果把样品中的核酸片段进行标记，在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记，未处理的细胞总mRNA用Cy3标记，颜色？将两者杂交形成固相探针，包含cDNA和寡核苷酸，最后进行结果观察和信息分析。、EMBL、DDBJ 5.数据挖掘：①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想：判断、聚类、关联。数据挖掘模型：①监督模型、预测模型②无监督模型：聚类分析和关联分析②数据降维：主成分分析和因子分析。第二章： 1.Sanger法：①1977年，提出了“双脱氧核苷酸末端终止测序方法”②技术基础：PCR扩增；双脱氧核苷酸的扩增终止；电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点：1.测序通量低2.成本高、流程多④方法、原理：每个反应含有所以四种dNTP使之扩增，并混入限量的一种不同的ddNTP使之终止，由于ddNTP缺乏延伸所需要的3’-OH基团，使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止，终止点由反应中相应的双脱氧而定，每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术（2005）①特点：1.PCR反应空间限定在特定的微小载体中。降低成本，实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤：(1)制备模板，单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础：基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点：高通量、没有电泳的步骤，成本降低缺点：读取片段长度短、准确率下降 3．Read contig Scaffold ①Read:测序读到的碱基序列片段，测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold：通过pair ends信息确定出的contig排列，中间有gap 4.测序的应用：①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序（RNA Seq）:①定义：把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有：tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法：获得cell总RNA，然后根据实验需要，对RNA样品进行处理，处理好的RNA再进行片段化，然后反转录形成cRNA，获得cDNA文库，然后在cDNA片段接上接头，最后用新一代高通量测序进行测序④作用：(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

网上生物信息学教程

网上生物信息学教程EMBL biocomputing tutorials https://www.360docs.net/doc/2515100753.html,/Embnetut/Gcg/index.html Plant genome dababase tutorial https://www.360docs.net/doc/2515100753.html,/pgdic 生物信息学机 NCBI https://www.360docs.net/doc/2515100753.html,/ International Nucleotide Sequence Database Collaboration. https://www.360docs.net/doc/2515100753.html,/collab/ EBI https://www.360docs.net/doc/2515100753.html,/ USDA https://www.360docs.net/doc/2515100753.html,/ Sanger Centre https://www.360docs.net/doc/2515100753.html,/ 北京大学生物信息学中心 https://www.360docs.net/doc/2515100753.html, 数据库信息发布及其它 GenBank Release Notes ftp://https://www.360docs.net/doc/2515100753.html,/genbank/gbrel.txt dbEST summary report https://www.360docs.net/doc/2515100753.html,/dbEST/dbESTsummarv.html EMBL release notes http://www.bio.unizh.ch/db/docu.html?data=emrel Eukaryotic promoter database release notes http://www.genome.ad.jp/dbget/dbget2.html KEGG release notes http://www.genome.jp/kegg/docs/relnote.html 核苷酸数据库 GenBank https://www.360docs.net/doc/2515100753.html,/ dbEST https://www.360docs.net/doc/2515100753.html,/dbEST/index.html dbSTS https://www.360docs.net/doc/2515100753.html,/dbSTS/index.html dbGSS https://www.360docs.net/doc/2515100753.html,/dbGSS/index.html

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能 4.下面哪种数据库源于mRNA信息：■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变： A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说：A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法：A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA） 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是：A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是：A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以：A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp：A. 20000■. 200000 C. 2000000 D. 20000000

生物信息学期末考试重点

第一讲生物信息学（Bioinformatics）是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科，它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析，达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。生物信息学不仅是一门学科，更是一种重要的研究开发平台与工具，是今后进行几乎所有生命科学研究的推手。生物技术与生物信息学的区别及联系生物信息学的发展历史 ?人类基因组计划（HGP） ?人类基因组计划由美国科学家于1985年提出，1990年启动。根据该计划，在2015年要把人体约4万个基因的密码全部揭开，同时绘制出人类基因的谱图，也就是说，要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划，被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展，海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后，才能成为有用的信息和知识。换句话说，人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。：

】第二讲回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质细胞膜与细胞核之间的区域：包含液体流质，夹杂物存储的营养、分泌物、天然色素和细胞器细胞器细胞内完成特定功能的结构：线粒体、核糖体、高尔基体、溶酶体等细胞核最大的细胞器 DNA的结构碱基（腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G）。核苷酸核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖（五碳糖）、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对，也就是A、T、C、G 基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。大部分的基因大约是1000-4000个核苷酸那么长。基因通过控制蛋白质的合成，从微观和宏观上影响细胞、组织和器官的产生。基因在染色体上。

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来，生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。美国早在1988年在国会的支持下就成立了国家生物技术信息中心（NCBI），其目的是进行计算分子生物学的基础研究，构建和散布分子生物学数据库；欧洲于1993年3月就着手建立欧洲生物信息学研究所（EBI），日本也于1995年4月组建了信息生物学中心（CIB）。目前，绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生，他们共同组成了 DDBJ/EMBL/Gen Bank国际核酸序列数据库，每天交换数据，同步更新。以西欧各国为主的欧洲分子生物学网络组织（EuropeanMolecular Biology Network, EMB Net）是目前国际最大的分子生物信息研究、开发和服务机构，通过计算机网络使英、德法、瑞士等国生物信息资源实现共享。在共享网络资源的同时，他们又分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术，服务于本国生物（医学）研究和开发，有些服务也开放于全世界。从专业出版业来看,1970年，出现了《Computer Methods and Programs in Biomedicine》这本期刊；到1985年4月，就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在，我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。但是由于起步较晚及诸多原因，我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数，可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%，而美国则发表2160篇占全部的39%之多（统计数据截至2004年2月15日）。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%，差距相当大[4]。在生物信息学领域，一些著名院士和教授在各自领域取得了一定成绩，显露出蓬勃发展的势头，有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）

生物信息学复习总结

生物信息学复习笔记

生物信息学题库说课材料

生物信息学复习

生物信息学 复习题及答案(打印)

生物信息学现状与展望

生物信息学复习资料

网上生物信息学教程

生物信息学题库

生物信息学期末考试重点

国内外生物信息学发展状况

生物信息学复习

最新生物信息学考试复习

生物信息学复习题及答案(打印)