生物信息学作业

合集下载

小学生物生物信息学小测验

6.以下哪个数据库不是存储基因组序列的数据库？
- A. GenBank
- B. RefSeq
- C. Ensembl
- D. UniProt
7.生物信息学中，将大量生物数据进行比较分析，以寻找生物学规律的方法称为____。
- A.数据挖掘
- B.统计分析
- C.机器学习
- D.比较基因组学
8.生物信息学中的生物标记物主要应用于____。
- A.疾病诊断
- B.疾病治疗
- C.疾病预防
- D.药物研发
9.生物信息学中的模式识别主要基于____。
- A.机器学习
- B.统计学
- C.计算机视觉
- D.人工智能
10.生物信息学中的数据标准化主要是为了解决____问题。
- A.数据质量
- B.数据重复
- C.数据异构
- D.数据缺失
##二、判断题（每题2分，共10分）
- B.疾病治疗
- C.疾病预防
- D.药物研发
8.生物信息学中的数据标准化主要是为了解决____问题。
- A.数据质量
- B.数据重复
- C.数据异构
- D.数据缺失
9.生物信息学中的同义词消歧主要是为了____。
- A.提高数据一致性
- B.提高数据多样性
- C.降低数据冗余
- D.增加数据噪声
小学生物生物信息学小测验
#小学生物信息学小测验
##一、选择题（每题2分，共20分）
1.生物信息学的定义是利用计算机技术对生物信息进行____。
- A.采集
- B.存储
- C.分析
- D.传播
2.下列哪个不属于生物信息学的研究领域？

生物信息学习题

一：名词解释1.生物信息学2.NCBI3.PubMed4.生物芯片5.BLAST6.UniProt7.电子克隆8.EMBL二：填空题1.基因芯片可以分为2. 人类基因组全序列分析分两大步骤即制图和测序，并最终绘制出四张图谱：3. 分子系统发生分析主要分为三个步骤即4. 国际上最主要的三大核酸序列数据库分别是5. 蛋白质得分矩阵有7. 文献是掌握科研进展的最直接方式，目前由NCBI维护的大型文献资源是。

3. 用于核酸序列比对中常见的三种得分矩阵，分别为4. 根据生物芯片探针分子类型的不同，可以将生物芯片哪三种，5. 核酸序列分析所获得的信息主要有（举例说明四个）6. 限制性酶切分析是分子生物学实验中的日常工作之一，这方面最好的限制酶数据库是三：选择题1、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族，或该序列可能包含何种结构域或功能位点，应使用：（）A: PROSITE数据库 B: DDBJ数据库C: PIR数据库 D: PDB数据库2、构建序列进化树的一般步骤不包括：（）A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树3、BLAST教案所程序中，哪个方法是不存在的？（）A：BLASTP B：BLASTN C：BLASTX D:BLASTQ4. 以下常见的几个物种，哪一个目前还没有完成全基因组测序：（）A: 茶树 B: 玉米 C: 水稻 D: 小鼠5、向核酸序列数据库（GenBank/EMBL/DDBJ）提交数据，应该使用下面哪个软件：（）。

A： Blast B：Sequin C：SRS D：Swiss-Model6、在蛋白质序列数据库中比较查询手头未知的蛋白质序列，应使用Blast中哪个具体的算法：（）。

A：BLASTX B：tBLASTN C：BLASTP D：BLASTN7、下列中属于一级蛋白质结构数据库的是：（）A：EMBL B：DDBJ C：PDB D：SWISS-PROT8、下面不属于SWISS-PROT蛋白质数据库的注释范畴的是：（）A: 与其它蛋白质的相似性 B: 蛋白质的二级结构C: 由于缺乏该蛋白质而引起的疾病 D: 核酸的功能描述9、下列属于蛋白质二级结构预测的软件程序是（）A： BLASTX B：SOPMA C：DNAstar D：GO10. 如果做DNA结构分析，应该考虑用下面哪个数据库：（）A：GenBank B： PIR C：NDB D：UniProt四：简单题1．简述Entrez的设计概念和使用方法？2. 简述生物大分子PDB存储的生物分子种类和数据结构特点？3.简述生物信息学的研究意义？4 简述蛋白质序列分析的基本内容以及常用的软件？5. 简述Swiss-Prot的数据结构？6、简述序列多重比对的意义？7、简述生物信息学的发展历史？五：论述题1.论述蛋白质相互作用研究的意义，传统的实验方法和计算预测方法的应用？2.论述后基因组时代生物信息学面临的挑战和研究策略？3．论述生物信息学的应用？4. 论述如何利用基因芯片数据做聚类分析。

生物信息学作业(一)

生物信息学实验作业一1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。

答：（1）、NCBI: （National Center of Biotechnology Information，简称NCBI）美国国立生物技术信息中心。

其主页为：。

NCBI 是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

NCBI有一个多学科的研究小组包括计算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和结构生物学家，集中于计算分子生物学的基本的和应用的研究。

他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。

这些问题包括基因的组织，序列的分析，和结构的预测。

在1992年10月，NCBI承担起对GenBank DNA序列数据库的责任。

NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有：开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具，Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW 或FTP来获得。

NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。

主要任务：（1）建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统（2）实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的，先进方法的研究（3）加速生物技术研究者和医药治疗人员对数据库和软件的使用。

生物信息学习题

第六章分子系统发生分析（问题与练习）
1、构建系统发生树，应使用
A、BLAST
B、FASTA
C、UPGMA
D、Entrez
2、构建系统树的主要方法有
、
、
等。
3、根据生物分子数据进行系统发生分析有哪些优点？
4、在 5 个分类单元所形成的所有可能的有根系统发生树中，随机抽取一棵树是反映真实关
系的树的可能性是多少？从这些分类单元所有可能的无根系统发生树中，随机选择一棵
库
8、TreeBASE 系统主要用于
A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对
二、问答题
1、为什么说 SWISS-PROT 是最重要的蛋白质一级数据库？
2、构建蛋白质二级数据库的基本原则是什么？
3、构建蛋白质二级数据库的主要方法有哪些？
4、叙述 SCOP 数据库对蛋白质分类的主要依据
第八章后基因组时代的生物信息学（问题与练习）
1、比较生物还原论与生物综合论的异同 2、简述“后基因组生物信息学”的基本研究思路 3、后基因组生物信息学的主要挑战是什么？ 4、功能基因组系统学的基本特征是什么？ 5、说明后基因组生物信息学对信息流动的最新理解 6、列举几种预测蛋白质-蛋白质相互作用的理论方法 7、解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
1、蛋白质得分矩阵类型有、
、、
和
等。
2、对位排列主要有局部比对和三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y

生物信息学作业

生物信息学试题
1、构建分子系统树的主要方法有哪些？并简要说明构建分子进化树
的一般步骤。

（20分）
答：（1）构建进化树的方法包括两种：一类是序列类似性比较，主
要是基于氨基酸相对突变率矩阵（常用PAM250）计算不同序列差异性积分作为它们的差异性量度（序列进化树）；另一类在难以通过序
列比较构建序列进化树的情况下，通过蛋白质结构比较包括刚体结构
叠合和多结构特征比较等方法建立结构进化树
(2)序列比对——选取所需序列——软件绘制
具体如下：
a测序获取序列或者在NCBI上搜索所需的目的序列
b在NCBI上做blast：比对相似度较高的基因，并以fast格式下载，整合在*txt文档中。

c比对序列，比对序列转化成*meg格式
d打开保存的*meg格式文件，构建系统进化树
2、氨基酸序列打分矩阵PAM和BLOSUM中序号有什么意义？它们各自
的规律是什么？（10分）
（1）PAM矩阵：基于进化的点突变模型，如果两种氨基酸替换频繁，说明
自然界接受这种替换，那么这对氨基酸替换得分就高。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变。

BLOSUM矩阵：首先寻找氨基酸模式，即有意义的一段氨基酸片断，分别比
较相同的氨基酸模式之间氨基酸的保守性（某种氨基酸对另一种氨基酸的取代数据），然后，以所有60％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM60；以所有80％保守性的氨基酸模式之间的比较数据为根据，产生。

生物信息学作业

乳腺癌易感基因BRCA1的研究班级：5061专业：药剂学姓名：孙建梅一、实验目的:（1）掌握中文文献全文的检索和获得方法。

（2）掌握Pubmed数据库文献的检索和交大图书馆英文数据库全文的获得方法。

（3）掌握核酸序列搜索的方法。

（4）掌握核酸序列相似性分析的方法。

（5）掌握PCR引物设计软件的原理、使用及特点。

（6）掌握蛋白质序列搜索的方法。

（7）掌握蛋白质序列分析常用软件的使用方法。

二、研究背景:乳腺癌易感基因(BRCA1)的突变率与35%～40%的家族性乳腺癌和卵巢癌有关。

该基因常以染色体显性方式遗传,并有很高的外显率。

外显率在乳腺癌为60%~80%,卵巢癌也可达15%~40%。

该基因作为一种抑癌基因, 不仅能抑制细胞生长, 还参与细胞周期调控、基因转录调节、DNA 损伤修复及其凋亡等重要细胞活动, 在维持基因稳定性中起重要作用。

BRCA1是目前所发现的最重要的乳腺癌易感基因之一，本人选择其为研究对象。

三、实验方法、步骤及结果:1．在中国知网（CNKI）中查找中文文献：2．在PubMed中查找英文文献：3 在Genbank中查找BRCA1基因及其序列：登陆NCBI主页，网址：/guide/，选择gene数据库4. 使用NCBI网站中的BLAST工具进行序列比对登陆/，选择核酸序列比对nucleotide BLAST，界面显示如下,输入登录号，NM-007294.3，点击“BLAST”。

结果如下：与其匹配的核苷酸序列和基因组序列如下：1, mRNA”，登录号：NM_007294.3。

variant 2, mRNA”，登录号：NM_007300.3。

5．蛋白质序列的比对检索页面：结果输出：6. 根据序列，设计PCR引物：（1）利用peimer3进行引物设计登陆引物设计软件primer3网址/primer3/。

输入FASTA格式的核苷酸序列，运算得到：上游引物：5’caccctctgctctgggtaaa 3’下游引物：5’aagctcattcttggggtcct 3’产物：5680bp。

生物信息学作业1.doc

生物信息学实验作业试验一一．找到编码拟南芥（arabidopsis）phyA（光敏色素A）基因的核酸序列编号, 并记录查找过程。

GI：224576211步骤1．进入NCBI主页2．搜索arabidopsis phyA3．Arabidopsis thaliana phytochrome A (PHYA) gene, partial cds4．VERSION：GI：224576211二．以phyA为检索词，在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献，记录检索出的条目数目。

Results: 614三．仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释，理解各字段的含义，并比较NCBI 与EMBL中序列格式的异同。

实验二一．分析你感兴趣核酸序列的分子质量、碱基组成。

Composition 35 A; 25 C; 35 G; 15 T; 0 OTHERPercentage: 32% A; 23% C; 32% G; 14% T; 0%OTHERMolecular Weight (kDa): ssDNA: 34.26 dsDNA: 67.8二．列出你所分析核酸序列（或部分序列）的互补序列、反向序列、反向互补序列、DNA双链序列和RNA 序列。

R S1 ACTACTCGAG AAGCAGCGAC AGAGGCGTTA GCCCGCTCAG CAGACTGGCA GTTCTCTACC61 GACAAAAAAG AGGTAGGAGG CACAGTAATG ATACAGGCGT AGCAGGAGGGC S1 CCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 TGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTR C S1 TGATGAGCTC TTCGTCGCTG TCTCCGCAAT CGGGCGAGTC GTCTGACCGT CAAGAGATGG61 CTGTTTTTTC TCCATCCTCC GTGTCATTAC TATGTCCGCA TCGTCCTCCCD DNA S1 GGGAGGACGA TGCGGACATA GTAATGACAC GGAGGATGGA GAAAAAACAG CCATCTCTTGCCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 ACGGTCAGAC GACTCGCCCG ATTGCGGAGA CAGCGACGAA GAGCTCATCATGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTRNA S1 GGGAGGACGA UGCGGACAUA GUAAUGACAC GGAGGAUGGA GAAAAAACAG CCAUCUCUUG61 ACGGUCAGAC GACUCGCCCG AUUGCGGAGA CAGCGACGAA GAGCUCAUCA三.列出核酸序列的限制性酶切位点分析结果（酶及识别位点）。

生物信息学习题

1单选(以下哪位科学家获得了两次诺贝尔奖？A.桑格（Frederick Sanger）B.沃森（James Waston）C.霍利（Robert W.Holley）D.克里克（Francis Crick）2单选(‍被称为“DNA之父”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.桑格（Frederick Sanger）3单选(被称为“计算机之父，人工智能之父”的是哪位科学家？A.莱布尼兹（Gottfried W Leibniz）B.图灵（Alan Mathison Turing）C.帕斯卡（Blaise Pascal）D.桑格（Frederick Sanger）4单选(‍被称为“现代实验生物学奠基人”的是哪位科学家？A.摩尔根（Thomas H.Morgen）B.达尔文（Charles Darwin）C.桑格（Frederick Sanger）D.孟德尔（Gregor J.Mendel）5单选(被称为“遗传学的奠基人，现代遗传学之父”的是哪位科学家A.孟德尔（Gregor J.Mendel）B.沃森（James Waston）C.查加夫（Erwin Chargaff）D.摩尔根（Thomas H.Morgen）1单选(‍从GenBank的哪一项注释中可以找到关于编码蛋白的信息？A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述，哪个是正确的？A.GenBank里的一条数据库记录对应一个完整的基因。

B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。

C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。

D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。

3多选(以下关系式正确的是？A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号（Accession）和基因座名（Locus）指的都是一条序列在数据库中的编号，他们永远都是相同的。

生物信息学作业10

调和序列
1 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Y Y F F Y y 2 D D E D E d 3 G G G G G 4 G G G G G G 5 A I I A A/I 6 V L L V 7 V V V 8 E E E Q Q 9 A A A A A 1 L L L V L
多序列比对的方法

同源性分析中常常要通过多序列比对来找出序列之间的相互关系，和blast的局部匹配搜索不同，多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程，特别是序列数目多，且序列长的情况下。
Clustal程序有许多版本。 Clustal是免费软件，很容易从互联网上下载，和其它软件一起，广泛用于序列分析。Clustal所支持的数据格式包括EMBL/SWISSPROT、PIR、Pearson/FastA以及 Clustal本身定义的格式。它的输出格式是Clustal格式。
FASTA格式
以上这个FASTA文件中包含了gi号码、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。第一行（〉）表示一个新的序列文件的开始，为标记符。后面可以加上文字说明， gi号码、GenBank检索号码、LOCUS名称等信息。第二行序列本身，为DNA或蛋白质的标准符号。通常核苷酸符号大小写均可，而氨基酸一般用大写字母。
正因为存在这样的关系，很多时候对序列的相似性和同源性就没有做很明显的区分，造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80％一说。不能把相似性和同源性混为一谈。所谓“具有50%同源性”，或“这些序列高度同源”等说法，都是不确切的，应该避免使用。
序列相似性比较和序列同源性分析

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CDK2基因和蛋白质序列的生物信息学分析姓名：学号：专业：1前言细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2)，又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase)，其基因定位于人类基因组的12号染色体上的q13染色带上。

CDK2基因全长6013bp，这部分中有7个外显子和6个内含子，7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。

在翻译过程中，该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译，属于调控序列。

mRNA上只有中间的部分编码蛋白质。

CDK2基因可以转录为两种mRNA。

其中，变体1长度为2325bp，编码298个氨基酸；变体2长度为2223bp，编码264个氨基酸。

这两种蛋白质为CDK2的同型蛋白，功能相同，具有调控细胞分裂的功能，主要在G1期到S期和S期到G2期这两个阶段起作用。

CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中，但只在进行分裂的细胞中行使功能，这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。

CDK2可以与细胞周期蛋白A、B1、B3、E等结合后，参与细胞周期调控。

由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症，故CDK2基因可以被看作癌基因，其活性和表达量可以作为衡量癌症的指标。

CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控，还能与类Rb蛋白p107或转录因子E2F结合，促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。

而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。

在CDK2分子中，被称为T环的氨基酸环阻断了活性部位，妨碍激酶履行它的酶功能，而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。

CDK2与周期蛋白结合时，周期蛋白将T环转出2nm以上，又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。

CDK2的活性不仅与周期蛋白有关，还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。

一般情况下，与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化，但此时复合体还没有活性，只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后，复合体才有活性。

细胞中存在多种因子对CDK2进行修饰调节，此外还存在对其活性起负性调控的蛋白质，即CDK激酶抑制物，例如p21CIP/WAF1、p27KIP2等。

前面提到，CDK2基因转录的产物有两种。

这两种mRNA的不同之处在于变体1由全部7个外显子组成，而变体2缺失外显子5，由剩余的6个外显子组成。

这样翻译成的两种同型蛋白的长度就相差34个氨基酸。

2 材料和方法：2.1序列数据来源采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索，CDK2蛋白的记录有1013个。

而采用基因名称对NCBI非冗余核酸数据库进行检索，CDK2蛋白的记录有680个。

采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。

2.2序列分析方法2.2.1 序列比对方法将以上序列数据以fasta格式作成一个文件后，用ClustalX2进行全序列自动比对。

比对过程中采取自动比对和手动比对相结合，输出格式为Clustal格式（.aln）。

2.2.2分子系统发育分析方法用MEGA4.0（Molecular Evolutionary Genetics Analysis 4.0）进行系统发育分析。

采用MEGA4.0的邻接法（Neighbor-joining method, NJ）和最大简约法（Maximum parsimony method, MP）建树。

NJ方法中采用Poission校正的氨基酸取代模型，在MP方法中采用CNI的方法搜索最简约树。

在两种方法中对空位的处理都采取全部删除（Complete deletion）策略，同时采用自举检验(bootstrap test，重抽样500次)估计系统树中结点的置信值（BCL值）。

2.2.3蛋白质家族和基序与结构域分析方法所研究蛋白质在PFAM、PROSITE等蛋白质二次数据库中的分类情况2.2.4蛋白质三级结构与结构分类分析所研究蛋白质在蛋白质结构数据库中的分类情况3 结果3.1 序列的查询情况CDK2在HomoloGene数据库中只有1条记录，即：HomoloGene:74409. Gene conserved in Eukaryota，其中有18个物种的19条蛋白质序列。

3.2 序列的比对情况从19条蛋白质序列的比对结果可以看出，这些序列的高度同源区较多，大致可分为7个区域。

这些区域的序列有较高的保守性，是蛋白质的功能区。

个别序列有十几到几十个长度不等的插入序列，这可能与蛋白质的外显子剪接或编码基因的突变有关，这一区域在功能上的作用较小。

以蛋白质的起始氨基酸为例，19条序列的起始氨基酸均为甲硫氨酸，但比对的结果却是有5条序列的的前几个氨基酸被认为是插入的。

这可能的原因是如果认为19条序列的起始氨基酸均为甲硫氨酸，则其中有5个因为会给比对体系带来过多的空位，从而降低了整个体系的评分。

3.3 序列之间的遗传距离DescriptionData Type : Amino acid Analysis : Pairwise distance calculation ->Compute : Distances only Include Sites : ->Gaps/Missing Data : Complete DeletionSubstitution Model : ->Model : Amino: Poisson correction ->Substitutions to Include : All ->Pattern among Lineages : Same (Homogeneous) ->Rates among sites : Uniform ratesNo. of Sites : 284 d : Estimate[1] Homo_sapiens [2] Pan_troglodytes [3] Canis_familiaris [4] Bos_taurus [5] Mus_musculus [6] Rattus_norvegicus [7] Danio_rerio [8] Drosophila_melanogaster [9] Anopheles_gambiae [10] Schizosaccharomyces_pombe[11] Saccharomyces_cerevisiae [12] Kluyveromyces_lactis [13] Ashbya_gossypii [14] Magnaporthe_grisea[15] Neurospora_crassa [16] Arabidopsis_thaliana [17]Oryza_sativa_1 [18]Oryza_sativa_2 [19] Plasmodium_falciparum[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18][ 1][ 2] 0.000[ 3] 0.011 0.011[ 4] 0.014 0.014 0.011[ 5] 0.011 0.011 0.007 0.004[ 6] 0.011 0.011 0.007 0.004 0.000[ 7] 0.100 0.100 0.088 0.092 0.092 0.092[ 8] 0.423 0.423 0.434 0.434 0.434 0.434 0.439[ 9] 0.507 0.507 0.501 0.507 0.501 0.501 0.496 0.429[10] 0.391 0.391 0.402 0.402 0.397 0.397 0.413 0.519 0.606[11] 0.456 0.456 0.456 0.450 0.456 0.456 0.450 0.568 0.568 0.413[12] 0.484 0.484 0.484 0.478 0.484 0.484 0.478 0.549 0.580 0.407 0.124[13] 0.462 0.462 0.462 0.462 0.462 0.462 0.450 0.561 0.586 0.407 0.136 0.088[14] 0.391 0.391 0.402 0.402 0.397 0.397 0.423 0.531 0.586 0.351 0.331 0.321 0.297[15] 0.381 0.381 0.386 0.381 0.386 0.386 0.407 0.519 0.580 0.361 0.316 0.326 0.316 0.104[16] 0.366 0.366 0.366 0.366 0.366 0.366 0.356 0.525 0.531 0.445 0.467 0.473 0.467 0.423 0.402[17] 0.361 0.361 0.361 0.371 0.371 0.371 0.366 0.543 0.549 0.434 0.456 0.467 0.445 0.381 0.381 0.173[18] 0.407 0.407 0.402 0.397 0.397 0.397 0.402 0.599 0.561 0.439 0.467 0.473 0.456 0.423 0.402 0.164 0.168[19] 0.462 0.462 0.462 0.467 0.462 0.462 0.467 0.612 0.638 0.574 0.543 0.543 0.549 0.537 0.561 0.434 0.439 0.4563.4 序列/物种之间的系统发生重建结果分子系统发育分析结果中NJ法和MP法分析结果见图1及2。

Homo sapiensPan troglodytesMus musculusRattus norvegicusBos taurusCanis familiarisDanio rerioDrosophila melanogasterAnopheles gambiaeSchizosaccharomyces pombeMagnaporthe griseaNeurospora crassaSaccharomyces cerevisiaeKluyveromyces lactisAshbya gossypiiOryza sativa 1Arabidopsis thalianaOryza sativa 2Plasmodium falciparum 图1：CDK2蛋白分子进化树：NJ（Neighbor joining）分析，分枝上显示的数字是Bootstap检验获得的BCL (bootstrap confidence level) 值。