生物信息学基础百问

生物信息学基础三百问

一、引言(Basic knowledge)

1、什么是生物信息学?

2、生物信息学的目的意义有哪些?

3、生物信息学研究的对象是什么?

4、生物信息学的研究内容有哪些?

5、生物信息学研究的基本方法有哪些?

6、生物信息学的英译名是什么?如何而来?

7、生物信息学发展历程中主要有哪些事件?

8、何谓生物信息学算法?

9、主要有哪些生物信息学算法?

10、生物信息学与其他生物学学科有何关系?

11、学好生物信息学为什么还要学习分子生物学?

12、能否将生物信息学研究和学习分为几个层面?

13、本书生物信息学基础指的是什么?

14、我为什么要学习生物信息学?

15、不会生物信息学算法,能否使用多数生物信息学工具?

16、不会计算机编程,能否开展网上资源的数据挖掘?

二、生物信息数据库(Databases)

1、什么是生物信息学数据库?

2、主要生物信息学综合数据库有哪些?

3、何谓NCBI?它提供了哪些数据库资源和系统?

4、何谓一级二级数据库?

5、核酸数据库有哪些?

6、核酸数据库常见格式有哪些?

7、DNA参数数据库有哪些?

8、人类基因组序列综合数据库有哪些?

9、模式生物基因组数据库有哪些?

10、动物基因组数据库主要有哪些?

11、植物基因组数据库主要有哪些?

12、基因突变与遗传病相关的数据库有哪些?

13、微生物基因组综合信息数据库有哪些?

14、基因组信息数据库有哪些?

15、比较基因组学数据库主要有哪些?

16、重复序列数据库有哪些?

17、转录因子与调控元件数据库有哪些?

18、基因表达数据库主要有哪些?

19、RNA数据库有哪些?

20、蛋白质综合数据有主要哪些?

21、何谓蛋白质知识库?

22、何谓蛋白质参考子集库?

23、何谓蛋白质文档库?

24、蛋白质组学数据库有哪些?

25、结构数据库有哪些?

26、序列模体(motif,也译为基序)数据库有哪些?

27、什么是蛋白质功能点数据库?

28、蛋白质分子模型数据库主要有哪些?

29、蛋白质结构与功能关系分类数据库有哪些?

30、直系同源聚类数据库有哪些?

31、GO数据库的主要功能有哪些?

32、BLOCKS数据库的主要功能有哪些?

33、SMART数据库的主要功能有哪些?

34、PDB数据库的主要功能有哪些?

35、SWISS-PROT数据库的主要功能有哪些?

36、蛋白质家族数据库有哪些?

37、有关酶的数据库有哪些?

38、代谢途径数据库有哪些?

39、大分子相互作用数据库有哪些?

40、植物病原细菌功能基因组学数据库有哪些?

41、宏基因组学数据库有哪些?

42、转基因生物数据库有哪些?

43、农作物基因组数据库有哪些?

44、禽畜基因组数据库有哪些?

45、细胞器生物信息数据库和资源有哪些?

三、网络资源检索(information retrieval)

1、网络生物信息的挖掘主要有哪些方法?

2、什么是信息检索?

3、信息检索常用的策略有哪些?

4、NCBI数据库中主要的数据检索系统是哪个?

5、学好NCBI对我们有什么好处?(陈国利)为什么说NCBI对于生命科学研究者来说具

有十分重要的意义?(密克)

6、EntreZ系统检索规则有哪些?

7、简介检索策略表达式的建立与编辑。

8、Pubmed有哪些特色菜单?

9、何谓命令式检索?

10、生物信息数据的存储格式有哪些?

11、请详细注释GenBank数据格式。

12、简要介绍生物大分子结构数据存储格式。

13、向GenBank数据递交核酸序列有哪些方法?

14、如何进行数据库更新?(米塞诺P270)?

15、假设有几千个独立的研究人员向GenBank中提交数据,在GenBank中如何进行数据质

量控制?(乔纳森P33)

16、EMBL-EBI里面的SRS平台如何使用?(陈琦)

17、FTP协议下载数据以及软件安装具体是如何操作的?(梁照东李磊)

18、如何与EBI进行联系(米塞诺P282)?

19、分析蛋白质的数据库除了Expasy外还有什么数据库?有什么特点?(陈琦)

20、如何进行物种检索?

21、水稻的蛋白质中有哪些超过了300000Da?(乔纳森p33)

22、有哪些获取DNA和蛋白质序列的方法?(乔纳森p23)

23、什么是识别序列的标签?(乔纳森p22)

24、索引号码有哪些类型?

25、MyNCBI如何进行注册?(梁照东李磊)MyNCBI有何功能用途?(密克)

26、如何从NCBI下载一个物种的全基因组序列?(杨丽超)

27、如何在NCBI中进行文献检索?(韦缘)

28、向NCBI提交序列可不可以是一部分的cDNA序列?(刘兴艳张建玲)

29、如何利用NCBI 查找一个新基因的序列?(刘兴艳张建玲)

30、如何在NCBI上搜索某个物种β球蛋白基因的第一个外显子序列?(刘兴艳张建玲)

31、如何将基因序列上传至NCBI?(覃振萍)如何向NCBI提交序列?(吴三民)

32、我有软件设计了几对引物,一些文献说最后很需要在NCBI上的BLAST比对,我不清楚

为什么?比对完后,我又如何确定哪对引物是否合适?(吴帆)

33、在PubMed 与PMC中,如何准确查询文献?(梁照东李磊)

34、在NCBI中怎样进行蛋白质序列查询?(梁照东李磊)

35、NCBI中的SRA是什么意思?(梁照东李磊)

36、clipboard的作用是什么?如何使用?(罗奉奉)

37、知道一个酶的英文怎么在NCBI上查找基因? (吴三民)

38、什么是参考序列RefSeq?RefSeq记录的特征是什么?(吴三民)

39、RefSeq和genbank的数据有什么区别?(吴三民)

40、PubMed数据库的全文如何获取? (陈国利)

41、怎样才能在NCBI实现大批量数据的一一对应? (陈国利)

42、如何访问RefSeq?怎样引用RefSeq的数据?(丁猛)

43、NCBI有种类繁多的数据库,列举其中常用的五个并说明其包含的内容和用途?(密克)

44、NCBI有哪些的分子数据库?分别可以查询到什么内容?(陈承晓)

45、NCBI集成了数十种小的软件请下载一种本尝试使用? (密克)

46、如何在NCBI上搜索一个蛋白质?(赵建宇)

47、怎么用NCBI查询蛋白质的mRNA序列?(赵建宇)

48、如何在NCBI上查找与已知蛋白质相关的文献?(赵建宇)

49、PubMed主要有哪些检索途径?(罗奉奉)

50、如何正确输入自由检索途径的检索词?(罗奉奉)

51、期刊检索和著者检索输入应注意什么?(罗奉奉)

52、在pubmed central的辅助检索工具中可以在何处限定检索词匹配?(罗奉奉)

53、在preview/index中如何添加索引词?(罗奉奉)

54、在辅助检索工具中可以在何处限定检索词匹配?(罗奉奉)

55、PubMed和PubMed central的区别?(罗奉奉)

56、如何用NCBI查找已知基因的序列?它的具体步骤是什么?(农清栋)

57、如何在NCBI上找到HNF-4的第4个外显子的序列?(农清栋)

58、利用NCBI查找基因序列时,得到的序列号的开头一般都有两个字母:

AF,AY,EF,DQ,NC,EU,FJ,这些字母分别代表什么意思呢?有的为一个字母或三个字母有什么区别?(范素华)

59、如果克隆一个基因时,在NCBI上查询该基因出来很多条序列,怎么确定用哪一条比较

好?(范素华)

60、利用NCBI怎么可以知道目的基因位于整个RNA的哪个位置?(范素华)

61、在nucleotide数据库中,在限制范围中的STSs和TPA各代表什么意思?(农清栋)

62、在nucleotide数据库中,在详细参数(Details)中URL是什么意思?(农清栋)

63、怎样在PubMed中获取全文?(梁伟)

64、什么是非偏型cDNA文库?(吴兰兰)

65、Find conserved domains in your

sequence (cds)这个比对的作用是什么?(吴兰兰)

66、核酸序列分析和蛋白质序列分析有何区别?是否可以互换?(吴兰兰)

67、序列比对后的结果中怎么区分相似性和同源性?(吴兰兰)分数多高可以认为两条序列

具有显著的相似性?(张水龙)

68、如何使用GO处理大批量蛋白? 如何对批量的蛋白数据进行分类和功能注释?(覃振

萍)

69、在实验中获得了一个新基因并测定了其序列,根据生物信息学的知识,如何推测该基因的

编码产物的生物学功能?(梁照东李磊)

70、怎样解读一段序列? (梁照东李磊)

71、如何分析蛋白质亲疏水性(主要是如何看亲疏水性的图)?(杨丽超)

72、有哪些网站可以进行基因启动子预测,如何分析预测结构?(杨丽超)

73、如何使用ExPASy的酶数据库预测酶的催化位点结合位点或基团?(杨丽超)

74、用多重序列比对进行蛋白质结构预测的好处是什么?(杨霞)

75、怎么进行蛋白质序列分析?(杨霞)

76、怎么确定蛋白质多个序列之间的相似区域(如保守域)?(杨霞)

77、怎么进行蛋白质结构与功能的生物信息学研究?(杨霞)

78、对于一个蛋白质,我们怎样进行二硫键预测?(杨霞)

79、蛋白质三级结构预测方法中同源建模和折叠识别有什么区别?(杨霞)

80、什么是基于神经网络的蛋白质二级结构预测问题?(杨霞)

81、域家族超家族如何定义?之间关系如何?(陈琦)

82、为什么同一序列在不同的数据库里分析会出现不同的结果?(陈琦)

83、如何通过质谱资料鉴定蛋白质?(廖舟翔)

84、如何通过等电点与分子量信息来鉴定蛋白质?(廖舟翔)

85、如何通过酶切肽段指纹图谱来鉴定蛋白质?(廖舟翔)

86、假设给你一条蛋白质序列,要求预测该蛋白质的结构。你计划采用什么策略来预测该蛋

白质的结构?(黄明慧)

87、如何对核酸序列进行预测和鉴定?(韦缘)

88、如何对蛋白质的一级二级三级结构进行分析?(韦缘)如何确定一蛋白质的结构域?(汪

小波周敏)

89、如何预测信号肽?(韦缘)

90、如何分析给定蛋白质序列代谢途径?(韦缘)

91、DNA序列比较的根本任务是什么?(曾华贺)

92、什么是基因识别?(曾华贺)

93、为什么要进行蛋白质结构预测?(曾华贺)

94、蛋白质二级结构预测的主要策略和方法?(曾华贺)

95、如何分析密码子的偏好性?(陆雁)

96、如何识别和屏蔽重复序列?(陆雁)

97、鉴定一个蛋白质要从哪几个理化性质进行分析?(吴秋菊)

98、如何查找连续的mRNA。cDNA。蛋白序列?(陈国利)

99、怎样观察蛋白质中突变位点的3D结构?(曹启龙)

100、怎样观察一个蛋白质的3D结构?(曹启龙)

101、怎样对比分析两个或多个蛋白质的结构?(曹启龙)

102、什么是CDTree? (曹启龙)

103、如何观察这个蛋白质的三维结构,及cn3D的应用?(赵建宇)

104、如何寻找一个蛋白质的家族及其保守序列?(赵建宇)

105、如何利用NCBI查询板栗疫病菌的核糖体蛋白相关基因,查到其相关基因后如何看其与其他真菌核糖体蛋白基因的相似性及保守性?(范素华)

106、同源建模是什么?(黄坚丽)如果没有同源建模,怎么预测一个蛋白质的三级结构?

(周辉)

107、在KEGG中,怎么由已知的几种很少的中间代谢物推测出可能的代谢途径?(宋张杨)108、如果我研究的菌的代谢途径以前没有人做过,该怎么利用KEGG分析该菌的代谢途径?(宋张杨)

109、蛋白质功能预测的发展方向是什么?(蔡琦)

110、如何获取蛋白质序列信息?请以PIR为例进行蛋白质序列检索。(蔡琦)

111、核酸序列预测与鉴定的步骤及注意得问题有哪些?(蔡琦)

112、代谢途径方面,具体对于某一个物种,它可能拥有自己特异的代谢途径,我们如何才能找到特异的代谢途径,用不同的代谢途径分析软件所得出的代谢形式也不相同,我们如何去取舍?(刘三)

113、分析基因代谢途径的工具主要有哪些?如何使用KEGG分析基因的代谢途径?(田会会)

114、蛋白质鉴定的工具有哪些?蛋白质二级结构,三级结构预测方法有哪些及网站有哪些?

(田会会)

115、怎样将某个物种的蛋白质序列用gene ontology注释?(汪小波周敏)

116、结构域,模体,折叠子,二级结构的区别?(张水龙)

117、一些蛋白质相互作用的网站。(张水龙)

118、什么是InterProScan?有什么特点和作用?(陈琦)

119、profile的原理是什么?有什么优势?(陈琦)

120、motif和pattern之间有什么联系?(陈琦)

四、生物数据相似性搜索(Sequence alignment)

1、何谓序列比对?简述序列比对的原理。

2、序列比对的进化基础有哪些?

3、相似性、一致性、同源性分别是什么,有什么区别?(赵高超)

4、序列比对的记分规则如何?

5、何谓取代矩阵?有哪些类型?

6、什么叫空位罚分?有没有理论依据?

7、比对的统计学显著性是如何确定的?统计学意义如何?

8、反向测序结果可以直接放到NCBI中的BLAST 进行比对吗?NCBI中是否存在DNA的

两条链?(薛番艳)

9、BLAST原理是什么?(吴兰兰)BLAST功能的作用是什么?如何进BLAST?(陈承晓)

10、如何看BLAST结果中的E值?(覃振萍)

11、什么是多序列比对?常用工具有哪些?多序列比对的意义?(覃振萍)

12、在DNA-STAR 的EditSeq中进行BLAST时,显示Line44of the search report contains

unexpected input ,不知道是什么原因(吴帆)

13、关于BLAST涉及的几个算法的内容?(梁照东李磊)

14、不同的打分矩阵是会出现不同的结果的,如何去对待这些不同的结果以及这是否将影响

我们最终的结论呢?(梁照东李磊)

15、Primer-BLAST的大体使用方法?(梁照东李磊)

16、如何进行本地的BLAST的下载及安装? (梁照东李磊)

17、PHI-BLAST是什么意思?PSI-BLAST是什么意思?BLASTp是什么意思?(梁照东李

磊)

18、BLAST主要分几种?各在什么情况下使用?(牛祥娜)

19、如何用电子邮件的形式进行BLAST的查询?(梁照东李磊)

20、NCBI进行比对分析时,Mask for lookup table only有什么具体的涵义?Low complexity

regions有什么具体的涵义?Mask lower case letters有什么具体的涵义?Species-specific repeats有什么具体的涵义?(梁照东李磊)

21、详细一点讲述一下BLAST结果的数据结构是怎样的?(梁照东李磊)

22、如何进行BLAST的双重比对?(梁照东李磊)

23、在BLAST时,如何将测序结果进行去载体比对?(杨丽超)

24、如何对核酸序列进行BLAST?(韦缘)

25、用BLAST验证引物特异性时,主要看哪些指标?(吴三民)

26、BLAST中,E值和P值分别是什么,它们有什么意义?(吴三民)

27、从NCBI的EST数据库查询得到K067G11 Cassava root 210-day-old plants cDNA library

Manihot esculentacDNA,mRNA sequence。其中的K067G11是指什么?(吴三民)

28、BLAST的全称是什么,NCBI的BLAST包含几个程序,分别在什么情况下使用?(丁

猛)

29、多重比对与双重比对有什么异同,最常用的多重比对工具是什么,它有哪些输出文档,

分别有什么进一步用途?(丁猛)

30、怎样用NCBI/BLAST 做蛋白质同源性分析?(赵建宇)

31、ncbi中BLAST时蛋白序列比对和核酸序列比对的结果有什么不同?(赵建宇)

32、利用NCBI的GeneBank查找某个基因,自己设计引物,并进行PCR扩增后拿PCR的

扩增结果进行测序,在WORD中比较测序结果与查找的基因序列完全一样,可是在NCBI 的BLAST中却没有结果,可能的原因有哪些?(范素华)

33、如果一个基因是从mRNA反转录出来的cDNA中做RACE扩增出来的,进行测序后,

在NCBI上BLASTX后,query序列翻译后的氨基酸序列中有一小段是用小写字母显示的,但是检索到的相似蛋白序列中同一区域的氨基酸序列是大写的,请问这是什么意

思?(范素华)

34、蛋白质比对和基因比对有何不同?(吴小建)

35、用NCBI进行引物比对的具体方法? (陈国利)

五、本机软件篇(Local biological software)

1、生物学常用的本地软件有哪些?

2、引物为17个碱基来做PCR行吗?有没有效果?(刘兴艳张建玲)

3、引物设计中mer是什么意思?(刘兴艳张建玲)

4、做RT-PCR引物设计,需要根据物种密码子的偏好性来设计引物,请问哪里有物种密码

子偏好数据库下载?(刘兴艳张建玲)

5、使用NTI寻找某序列的酶切位点时,有时不能显示其所有的酶切位点,该如何操作才能

达到全部显示?(薛番艳)

6、NTI中模拟琼脂糖电泳,或者聚丙烯酰胺胶等是怎么回事,是验证我们设计的引物吗?

如何导入模板?(薛番艳)

7、引物的好坏凭什么判断?大小还是Tm值?又或者其他的?(吴兰兰)

8、Primer-BLAST与其他引物设计工具的优劣势比较。(吴兰兰)

9、设计出只扩增某一特定剪接体变异体基因的特异性产物是什么意思?如何设计?(吴兰

兰)

10、怎样验证引物可用性?(梁照东李磊)

11、如何用oligo设计基因敲除的引物?(梁照东李磊)

12、设计引物的一般原则是什么?(牛祥娜)

13、设计引物的一般过程是什么?(牛祥娜)

14、V ector NTI 10.0 的常用安装方法。(梁照东李磊)

15、如何使用V ector NTI中的GenomBench组件?(廖舟翔)

16、怎样设计平末端连接目的片段引物?(黄明慧)

17、请问NCBI的Primer-BLAST怎么用?(陈国利)

18、18如何通过Primer-BLAST检测所设计引物的可用性?(密克)

19、19如何使用V ector NTI进行引物的设计?(林琼珊)

20、20在V ector NTI中怎样根据实验要求设定引物设计的相关参数?(林琼珊)

21、21用V ector NTI设计好的引物有哪些保存途径?(林琼珊)

22、22怎样对设计好的引物进行分析和编辑?(林琼珊)

23、23引物的发夹环和二聚体结构对PCR有何影响?(林琼珊)

24、24在V ector NTI的引物设计中,Find PCR Primers和其他各种引物设计的方法(如

Amplify SelectionAmplify Features等)有什么区别?(林琼珊)

25、25在V ector NTI中,如何进行序列拼接?(林琼珊)

26、26哪种格式的文件可以直接载入V ector NTI中进行序列拼接?(林琼珊)

27、27在V ector NTI中,对于已经载入的abi格式的序列,如何观看其定序的讯号情况?(林

琼珊)

28、28在V ector NTI中,如何单独查看每个碱基的讯号强度?(林琼珊)

29、29在V ector NTI中,如何放大或缩小查看某一段序列讯号?(林琼珊)

30、30在V ector NTI中,怎样判断讯号干扰?(林琼珊)

31、31在V ector NTI中,修改重叠区域的讯号有哪些方法?(林琼珊)

32、32在V ector NTI中,如何将某一段序列进行粘贴取代?取代后的讯号图谱有什么变化?

(林琼珊)

33、33在V ector NTI中,对于已经拼接好的序列,如何寻找其Open Reading Fragments?(林

琼珊)

34、34(在V ector NTI中)如何对序列进行转译?(林琼珊)

35、35在V ector NTI中,怎样将拼接好的序列进行输出保存?(林琼珊)

36、36在V ector NTI中,怎样将拼接的整个操作过程进行保存便于下次直接使用?(林琼

珊)

37、37在V ector NTI中,如果对拼接效果不满意,如何取消拼接?(林琼珊)

38、38在引物设计时,保护碱基的加入有什么原则和注意事项?(宋张杨)

39、39怎样在PCR产物中引入酶切位点?(梁伟)

40、40如何在NTI观看蛋白质中特定序列的三维结构并将结构输出?(熊伍平)

41、(二)作图软件

42、1质粒作图时箭头的方向怎么确定?(刘兴艳张建玲)

43、2质粒绘图的常用软件及用法。(梁照东李磊)

44、3V AST功能的作用是什么?如何进行V AST?(陈承晓)

45、使用V ecScreen测定载体序列污染时,能不能选定特定的载体,怎么选定?(薛番艳)

46、2在使用SNP时,如果输入的是细菌序列,该选择那个数据库?(薛番艳)

47、3如何转换出一条DNA单链的互补链?有哪些软件可以实现?(薛番艳)

48、4Seq序列如何转化为Fasta格式?(覃振萍)

49、5如何判定序列中载体是否受到污染?(陆雁)

50、6如何利用Map viewer 查找基因序列mRNA序列?(范素华)

51、7利用Map viewer 查找基因序列最大的特点是什么?(范素华)

52、8利用Map viewer 查找基因序列mRNA序列时,在Sequence Format(序列输出格式)

的下拉式选择菜单中,选择FASTA格式和选择GenBank格式有什么不同?(范素华)

53、9在Antheprot 6.0中,如何输入正确的蛋白质序列进行序列编辑分析?(黄坚丽)

54、10Antheprot程序中可以分析显示蛋白质的六种理化特性,它们分别是?(黄坚丽)

55、11Antheprot程序可采取哪些方法对蛋白质二级结构进行预测?(黄坚丽)

56、12怎样实现序列格式之间的转化?(熊伍平)

57、实现基因调控网络用什么工具比较好,MatlabC++还是Java?(刘兴艳张建玲)

58、trace archives是用来做什么的?(刘兴艳张建玲)

59、如何安装一些基本生物信息学软件(举例说明)?(韦缘)

60、什么是V AST?V AST的主要功能包括哪些?(曹启龙)

61、怎么利用V AST查找一个蛋白质?(曹启龙)

62、怎样理解V AST中的图解?(曹启龙)

63、Domains & Structures包含哪几大版块?(曹启龙)

64、怎样利用下载和利用Cn3D?(曹启龙)

65、SeqV erter有几大功能?(刘筱梦)

66、在使用SeqV erter中,出现输入序列的格式错误该如何解决?(刘筱梦)

67、如何(使用SeqV erter)将多个序列文件合并?(刘筱梦)

68、目前生物信息学开发的软件有很多种,例如,关于启动子预测,蛋白质的三级结构的预

测,就有很多的应用软件,所以就很有必要知道具体哪个软件的可信度有多高,或者是一个软件预测有,而另一个软件预测没有,到底我们相信它有,还是没有?(刘三)

69、本地BLAST,用“-m”命令转换不同格式的输出结果,输出在文本文档中的每一项数据

表示什么?(吴帆)

70、本地BLAST处理大批量数据比对后,生成的结果是TXT格式文件。除了复制粘贴,

怎样一次性地把TXT格式的比对结果放到Excel中以便分析?(吴帆)

71、一段核苷酸序列,做完format以后,再去比对,原来序列中的N被随机替换为了A或

T,请问是什么原因,是不是要设置什么参数才不会发生替换呢?(吴帆)

72、BLAST本地化后,对于自定义数据库,BLAST html结果中,如何加上自己定义的链接

地址?(吴帆)

六、系统发育与分子进化

1、什么是系统发生?

2、分子进化的中性进化是什么?

3、什么叫分子钟?

4、什么是进化树,常用构建进化树的模型有哪些,包括哪些基本步骤?适用于什么样的情

况?

5、基因树和物种树的概念是什么?两者是什么关系?

6、建立进化树的时候是用全长cDNA还是只用开放阅读框?

7、我用了spss软件对数据做了聚类分析,得到的树状结构没有置信度。现在需要置信度,

所以希望通过距离矩阵在MEGA里来构具有置信度的NJ树,请问怎么导入距离矩阵表进入MEGA构树?

8、phylip能否用自动批处理程序来直接串联运行整个建树过程?

9、如何做一个假单胞菌属的系统发育树?

10、构建进化树的算法有哪些?各有什么异同?

11、Clustal 做多重比对的原理及用法?

12、MEGA4.0如何设置树的距离长度参数?

13、进化树上的数字表示什么?

14、怎样处理序列才能是序列都符合建树要求?

15、MEGA4的进化树怎么看?

16、怎么用MEGA4软件统计碱基转换和颠换数?

17、怎么做成那种左下角是遗传距离,右上角是转换/颠换数的表格?(丰丙政)

18、用MEGA4做进化树打开的文件是什么格式的,怎么得到这些格式的文件?(丰丙政)

19、Mega4和phlip建树有什么区别?(丰丙政)

20、如何用Mega4进行序列比对?(丰丙政)

21、treeview有几个功能?(蒋中伟黄萍)

22、clutalX的颜色代表什么?(蒋中伟黄萍)

23、clutalX的比对结果如何分析?(蒋中伟黄萍)

24、clutalX的文件输入的格式,文件输出的格式?(蒋中伟黄萍)

25、构建进化树的算法主要分为哪两类?(蒋中伟黄萍)

26、clutalX和clutalW有什么区别?(蒋中伟黄萍)

27、什么是有根树和无根树?其构建过程有何不同?(牛祥娜吴小建)

28、可以构建系统进化树的条件是什么?对序列有和要求?(牛祥娜吴小建)

29、在测序回来的片段中如何确定是否含有载体序列?(吴小建)

30、用MEGA构建进化树会得到2个不同的树,Original tree和Bootstrap consensus tree,请

问应该选择哪个树?(赵高超)

31、进化树分支上显示的数字Branch lengths表示什么,该数字采用什么为单位?(赵高超)

32、进化树分支节点上的数字表示什么?(赵高超)

33、我有一个序列,用该序列BLAST得到的一致性99%的若干个相似序列一起构建的进化

树结果分支节点上的Bootstrap值很低,请问如何解决?(赵高超)

34、相同的一组序列用不同的软件,但是采用同样的算法和模型,得到的进化树差异很大,

请问如何选择?(赵高超)

35、连接T载体测序得到的序列,构建进化树有时会得到奇怪的结果(该序列与其相似序

列进化距离很大,与BLAST结果矛盾),请问如何解决?(赵高超)

七、算法

1、什么是隐马尔科夫模型(HMM)? (陈琦)

2、什么是空位罚分?如何设置空位罚分?(陈琦)

3、什么是矩阵(Matrix)?不同的矩阵之间有什么联系?是否存在最合适矩阵,如何选择?

(陈琦)

4、序列比对中常见的打分系统有哪些?(吴秋菊)

5、什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST

选择使用的矩阵是什么(丁猛)

八、综合分析

1、如何分析DNA测序数据?

2、如何对一段DNA进行基因注释?

3、原核生物基因组注释的工具有哪些?

4、蛋白质理化性质包含哪些?如何快速计算一段蛋白质序列的理化性质?

5、基因注释,一个基因组上具有相同生物学的基因有很多,例如转氨酶,脱羧酶有很多,

只是具体功能不一样,但是我们所需要的一个基因没有,是不是基因注释出来问题或者基因组没有相关的基因。或者从有报道具有相关的功能的基因进行BLAST,比对的分值高的是不是就是我们所要的?(刘三)

6、如何查找家蚕plk基因的调控区序列,基因结构?(刘兴艳张建玲)

7、我有很多序列但很多都是冗余序列,请问去冗余序列软件都有哪些呢?(刘兴艳张建玲)

8、在确定一种拟南芥蛋白质在细胞内的具体位置时,需要用到RT-PCR去分离这种蛋白质

的cDNA,在引物设计时要用到GFP来标记融合蛋白,应该选择在植物体的哪个组织或器官来进行cDNA的分离?选择哪一种表达载体来构建GFP融合蛋白的依据是什么?

(刘兴艳张建玲)

9、如何检测保守序列的负选择位点?(刘兴艳张建玲)

10、在GENBANK中查到序列号为AY186045(Lactobacillus murinus)AF157049

(Lactobacillus murinus)的2个菌,这2个菌之间是什么关系?(刘兴艳张建玲)11、如何寻找某个蛋白(在很多物种中都存在)的基因序列,例如氯霉素基因,卡那霉素基

因等抗生素基因?(薛番艳)

12、蛋白质可能存在的修饰有哪几种,如何预测?

13、国内哪些高校或研究机构生物信息学做得比较好?(梁伟)

14、做细菌基因组学研究对计算机的配置和网络有哪些基本要求?(梁伟)

15、如何检索出一篇想要的中文或者外文文献?(熊伍平)如何高效地进行文献检索?(吴

小建)

16、查询下载文献,如果图书馆没有购买资源的时候,我们该怎么办?还有对于最新文献我

们如何快速拿到新的论文。(刘三)

17、EntreZ 的内容和特点?(田会会)

18、什么是CpG 岛?设计引物时又没有特殊要求?原核生物富含GC区的地方,该如何理

解?(田会会)

19、我们可以用生物信息学做什么?(汪小波、周敏)

20、文献有哪些形式?如何获得?(汪小波、周敏)

21、外文文献检索的一些标识符的意义?(张水龙)

九、计算机知识

1、什么是计算机网络?它主要功能有哪些?

2、计算机网络按其覆盖范围的不同通常分为哪几类?各类的特点是什么?

3、计算机网络的拓扑结构主要有哪些?

4、什么是网络协议?常用的网络协议有哪些?

5、什么是TCP/IP?

6、针对TCP/IP安全设计缺陷的攻击有哪些?

7、什么是MAC地址?

8、什么是IP地址?

9、什么是域名?

10、什么是域名服务(DNS)?

11、什么是WWW服务?

12、什么是超级链接?

13、什么是HTML语言?

14、什么是文件传输(FTP)服务?

15、什么是电子邮件(E-mail)服务?

16、什么是远程登录(Telnet)服务?

17、什么是电子布告栏(BBS)服务?

18、什么是因特网?

19、什么是端口号?

20、常用端口号有哪些?

21、什么是Cookies?

22、后缀为DLL的文件是什么文件?

23、什么是进程?

24、什么是计算机安全?其特性是什么?

25、国际通用的计算机安全标准是什么?

26、我国的计算机安全标准是怎样划分的?

27、什么是计算机网络安全?

28、计算机网络安全特性包括哪些方面?

29、对计算机网络安全的威胁主要来自哪些方面?

30、常用的网络安全机制有哪些?

31、常用的网络安全防范手段有哪些?

32、什么是加密技术?

33、网络传输加密方法有哪些?

34、什么是链路加密?

35、什么是节点对节点加密?

36、什么是端对端加密?

37、网络存储加密方法有哪些?

38、网络身份认证方法有哪些?

39、什么是防火墙?它是如何确保网络安全的?

40、防火墙可分为哪几类?

41、防火墙有哪些局限性?

42、网络防火墙有什么功能?

43、如何在个人计算机上正确配置网络防火墙?

44、选择防火墙应遵循的原则是什么?

45、什么是VPN?

46、Web服务器记录用户的哪些信息?

47、什么是无线局域网(WLAN)技术?

48、无线网络存在的安全问题主要有哪些?

49、什么是访问控制?

50、访问控制方法有哪些?

51、什么是蓝牙技术?

52、怎样使用ping命令?

53、为什么有时u盘无法双击打开?

54、如何清除Cookies?

55、如何关掉笔记本上多余的接口?

56、如何关闭计算机网络端口?

57、如何紧急恢复受损的系统?

58、如何解决DLL文件丢失的问题?

59、硬盘主引导区有什么作用?如何备份硬盘分区表?

60、怎样清除计算机中存在的默认共享?

61、如何删除硬盘上的怪文件?

62、怎样禁止其他人对桌面进行任意设置?

63、如何保护电子邮件安全?

64、上网记录有哪些?如何清除?

65、怎样避免感染u盘(闪盘)病毒?

66、怎样清除U盘病毒?

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

计算机在生物信息学中的应用_王帆

2012年第35期生物信息学是利用计算机为工具,用数学及信息科学的理论和方法研究生命现象,对生物信息进行收集、加工、存储、检索和分析的科学。生物信息学的核心是基因组信息学,基因组学是研究生物基因组和如何利用基因的一门学问,该学科提供基因组信息以及相关数据系统,试图解决生物、医学和工业领域的重大问题。对于基因组学研究所产生的大量数据必须借助于先进的计算机技术收集和分析处理这些生物学信息,因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。 1.序列比对 序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。 序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。 2.数据库搜索 随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。 分子生物学的三大核心数据库是GenBank 核酸序列数据库,SWISS-PROT 蛋白质序列数据库和PDB 生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。 3.基因组序列分析 基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA 序列的,建立快速而又准确的DNA 序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序 列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的治疗提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。 4.蛋白质结构预测 蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。 蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST 、FASTA 、CLUSTALW 产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。 在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。 蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。 图4.1蛋白质结构(下转第100页) 计算机在生物信息学中的应用 王帆刘帅 (长春工程学院计算机基础教学中心吉林 长春 130012) 【摘要】生物信息学是一门新兴的、正在迅速发展的交叉学科,它不仅对认识生物体的起源与进化研究有重要意义,而且还可以为人类诊断疾病及物种的改良提供一定的理论依据。生物研究过程中产生的海量数据又需要具有数据处理和分析能力的大容量、高性能的超级计算机的支持,因此计算机技术在生物信息学的研究中显得尤为重要,本文就简单介绍了计算机在生物信息学研究中的哪些方面起到了不可忽略的作用。 【关键词】生物信息学;计算机科学;基因组学 作者简介:王帆(1980—),男,长春人,毕业于长春理工大学,本科学历,信息与计算科学专业。 刘帅(1979—),女,长春人,东北师范大学硕士研究生,主要研究方向为计算机软件与理论 。 ◇高教论述◇

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.360docs.net/doc/fd10553750.html,。 Entrez的网址是:https://www.360docs.net/doc/fd10553750.html,/entrez/。 BankIt的网址是:https://www.360docs.net/doc/fd10553750.html,/BankIt。 Sequin的相关网址是:https://www.360docs.net/doc/fd10553750.html,/Sequin/。 数据库网址是:https://www.360docs.net/doc/fd10553750.html,/embl/。

生物信息学基本知识

1.DNA:遗传物质(遗传信息的载体) 双螺旋结构,A,C,G,T四种基本字符的复杂文本 2.基因(Gene):具有遗传效应的DNA分子片段 3.基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR一个物种中所有基因的整体组成 4.人类基因组:3.0×109bp模式生物 5.HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 6.HGP的终极目标 阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。 遗传图谱的建立为基因识别和完成基因定位创造了条件。 8.遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。 9.物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10.转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11.序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12.大规模测序基本策略 逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司) 13.基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区 识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别那些转录表达的DNA片段 从cDNA文库中挑取并克隆。 14.基因组多态性(Polymorphism):是指在一个生物群体中,同时和经常存在两种或多种不连续的变异型或基因型(genotype)或等位基因(allele),亦称遗传多态性(genetic

生物信息学在医学领域的应用前沿

生物信息学在医学领域的应用前沿 摘要:生物信息学是有生命科学、信息学、数学、物理、化学等学科相互交融而形成的新兴学科。生物信息数据库几乎覆盖了生命科学的各个领域,截止至2010年,总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。 关键词:生物信息学;医学;基因;应用 生物信息学是20世纪80年代以来随着人类基因组生命科学与信息科学以及数学、物理、化学等学科相互交融而形成的新兴学科,是当今最具发展前途的学科之一。人类基因组计划的顺利推进产生了海量基因数据,这些数据中蕴藏着丰富的生物学内涵,如果能充分挖掘并加以利用,可能揭示出很多对人类有用的信息。生物信息学已经成为生物学、医学、农学、遗传学、细胞生物学等学科发展的强大推动力量。随着生物信息学研究的深入与发展,它已不断渗透到医学领域的研究中。近年来,伴随着对基因组的研究不断深入,部分应用领域取得了令人瞩目的突破,其潜在的经济利益更是吸引了众多国家、企业及大量科研人员投入到相关研究中,生物信息学得到了迅猛的发展。 一、主要数据库 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。截止至2010年,生物信息数据库总数已达1230个。生物信息数据可可分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释,如Genbank数据库、SWISS-PROT数据库;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理,如人类基因组图谱库GDB。 在医学领域中常用的生物信息数据库主要有:核酸类数据库,如NCBI核苷酸序列数据库(Gen Bank )、欧洲核苷酸序列数据库(EMBL)、日本DNA 数据库(DDB)等;蛋白相关数据库,如蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(HR)、Entrez 的蛋白三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等;疾病相关数据库,包括综合临床数据库,如NCBI疾病基因数据库、Gene Cards等;遗传性疾病数据库,如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(Gene Dis)等;肿瘤相关数据库,如肿瘤基因组解剖工程(CGAP)等;心血管疾病相关数据库,如心血管疾病相关生物医学数据库(Cardio)、心脏疾病计划及临床决策支持系统(HDP &CDM)等;免疫性疾病数据库,如免疫功能分子数据库( HMM)、免疫缺陷资源库(IDR)等;药物相关数据库,如药物和疾病数据库(Drugs)、FDA药品评审与研究中心(CDER)等。 二、生物信息学在医学领域的应用 2.1 生物信息学在医学基础研究中的应用 2.1.1 新基因的发现与鉴定 疾病的发生发展与特异基因的改变有关,鉴定与疾病相关的基因是科学家在积极探索的一个方向,对治疗某些疑难杂症带来新的契机。发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。现在很多疾病的致病基因已经发现,包括癌症、肥胖、哮喘、心脑血管病等,其中与癌症相关的原癌基因约有1000个,抑癌基因约有100个。 目前发现新基因的主要方法有以下3种:①通过多序列比对从基因组DNA序列中预测新基因,其本质是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。②基因的电子克隆,即以计算机和互联网为手段,通过发展新算法,对生物信息数据库中存储的表达序列标签进行修正、聚类、拼接和组装,获得完整的基因序列,以期发现新基因。③发现单核苷酸多态性。 例如,2010年我国学者通过生物信息学EST 拼接技术,RT-PCR等技术,克隆出30个人类未知功能的新基因,并通过生物信息学分析该基因

生物信息学基本分析

核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析。 碱基同源性分析 运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下:https://www.360docs.net/doc/fd10553750.html,/BLAST/ 参数选择:Translated query-protein database [blastx];nr;stander1 开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对基因做开放性阅读框分析,网址如下: https://www.360docs.net/doc/fd10553750.html,/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。 网址如下:http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSM Expect:0.01 Filter:Low complexity Search mode:multiple hits 1-pass 同源物种分析 用DNAMAN软件将蛋白质序列相关基因序列比对,根据结果绘出系统进化树,并进行分析。 蛋白质一级序列的基本分析 运用BioEdit(版本7.0.5.3)软件对基因ORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。 二级结构和功能分析 信号肽预测 利用丹麦科技大学(DTU)的CBS服务器蛋白质序列的信号肽(signal peptide)预测,进入Prediction Serves 页面。 网址如下:http://www.cbs.dtu.dk/services/SignalP/ 参数选择: Eukaryotes;Both;GIF (inline);Standard; 疏水性分析 利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)的ExPASy服务器上的ProtScale程序对ORF 翻译后的氨基酸序列做疏水性分析 网址如下: https://www.360docs.net/doc/fd10553750.html,/cgi-bin/protscale.pl 参数选择:

生物信息学复习题及答案

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学基础知识

分子生物学基础知识太仓生命信息研究所 2011-7

前言 本文仅适用于对非生物专业的员工进行基础知识普及。如有深入学习的要求,请选用正规权威教材。 本教材以蛋白质、DNA、RNA、复制、转录和翻译为主要讲解内容,目的是帮助员工理解在工作中会遇到的常见生物学概念及术语 目录 前言 (2) 目录 (2) 蛋白质 (3) 1. 什么是蛋白质 (3) 2. 蛋白质的3D结构 (5) DNA (7) 1. DNA的组成—4种碱基 (7) 2. DNA的复制 (8) 3. DNA转录为RNA (9) 4. mRNA翻译成氨基酸序列 (11)

蛋白质 1.什么是蛋白质 蛋白质是由20中基本氨基酸链接而成的,生物体的大部分是有蛋白质构成的。每种氨基酸由4部分组成:碳原子C,羧基coo-,氨基H3N和R group。 20中氨基酸按照不同的排列和不同的长度,就形成了蛋白质。不同的R group把氨基酸分为5类: 无极性脂肪类R Group:

芳香类R Group 有极性,无电荷R Group

正电荷R Group 负电荷R Group 2.蛋白质的3D结构 氨基酸链在三维空间里呈现出一定的结构。各个氨基酸分子于相邻的氨基酸之间有氢键连接。 一级结构:氨基酸的排列顺序,可以用氨基酸的缩写在书面上表达。 氨基和羧基之间的氢键使得单个的氨基酸分子能够链接起来。

二级结构:单条氨基酸链所形成的2D形态。常见的有Alpha helix Beta sheet。 Alpha helix:氨基酸分子按顺时针或逆时针的方向螺旋上升。 Beta sheet:多条氨基酸分子链并列在一起。 三级结构:氨基酸链在各个方向的形态综合在一起。

生物信息学基本知识

1. DNA: 遗传物质(遗传信息的载体)à双螺旋结构,A, C, G, T四种基本字符的复杂文本 2. 基因(Gene):具有遗传效应的DNA分子片段 3. 基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR 一个物种中所有基因的整体组成 4. 人类基因组:3.2×109 bp 5.HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 6.HGP的终极目标 阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。 遗传图谱的建立为基因识别和完成基因定位创造了条件。 8. 遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。 9. 物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10. 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11. 序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12. 大规模测序基本策略 逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司) 13. 基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区 识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别那些转录表达的DNA片段 从cDNA文库中挑取并克隆。 14. 基因组多态性(Polymorphism):是指在一个生物群体中,同时和经常存在两种或多种不连续的变异型或基因型(genotype)或等位基因(allele),亦称遗传多态性(genetic

生物信息学

摘要:生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。 关键字:生物信息学、产生背景、发展现状、前景 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”。 一、生物信息学产生的背景 生物信息学是80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。事实上,它是一门理论概念与实践应用并重的学科。 生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。美国人类基因组计划中给基因组信息学的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。 自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。 数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.360docs.net/doc/fd10553750.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.360docs.net/doc/fd10553750.html,/dbEST/index.html (3)UniGene 数据库 https://www.360docs.net/doc/fd10553750.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.360docs.net/doc/fd10553750.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.360docs.net/doc/fd10553750.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.360docs.net/doc/fd10553750.html,/HTGS/ (7)基因组数据库 https://www.360docs.net/doc/fd10553750.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.360docs.net/doc/fd10553750.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.360docs.net/doc/fd10553750.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.360docs.net/doc/fd10553750.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.360docs.net/doc/fd10553750.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.360docs.net/doc/fd10553750.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.360docs.net/doc/fd10553750.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.360docs.net/doc/fd10553750.html, (2)NDB(Nucleic Acid Database) https://www.360docs.net/doc/fd10553750.html,/ (3)DNA-Binding Protein Database https://www.360docs.net/doc/fd10553750.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

相关文档
最新文档