《生物信息学》练习题剖析
大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。
ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。
2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。
GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。
共享——农业大学生物信息学课后练习题及答案汇总

1.美国核酸数据库GenBank从1979年开始建设,1982年正式运行(NCBI);
EMBL数据库也于1982年开始服务(EBI);
1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务(NIG)。
是一种经校阅过的蛋白质序列数据库,首先于1978年在瑞
EMBL)合作,目
1.同步法就是所有序列同时进行比对,而不是两两比对或分组进行比对。基
因此这类方法对于计算
由于利用多维动态规划矩阵对于实际数据进行序列比对不太现实,因此
、 blast程序用途,clustal程序用途。
系统发育分析
、什么是系统发育分析
系统发育分析是研究物种进化和系统分类的一种方法,研究对象为携带遗传
、什么是系统发育分析
、生物进化理论包括达尔文进化论、孟德尔遗传、中性进化论
、分子时钟假说及其重大意义
、DNA突变模式:替代,插入,缺失,倒位,核苷酸替代:转换,颠换
、系统发育树分为三种类型:分枝图、进化树、时间度量树
、系统发育树构建分为哪四步,结合所学软件,分别介绍每一步所用的程序或
EMBL和新成立的瑞士生物信息学研究所(SIB)共同维护。
是由NBRF蛋白质序列数据库、Munich蛋白质序列信息中心(MIPS)
(JIPID)共同维护的国际上最大的公共蛋白质序列
蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分,结构数
(Protein Data Bank)是国际上唯一的生物大分子结构数据档案库,
(人和鼠的α血红素),这样的基因应被称做直系同源基
orthologous。
在物种I和物种II中,基因a通过基因复制产生基因a1和基因a2。物
生物信息学复习题及答案(陶士珩)剖析

生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。
序列相似序列并不一定是同源序列。
2(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。
3(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。
基因复制事件是促进新基因进化的重要推动力。
4(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。
5 : ( ) a . 总是不计入总数中。
6.点矩阵():构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。
衡量序列之间相似性是否显著的期望值。
E值大小说明了可以找到与查询序列()相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。
8值:得分为所要求的分值比对或更好的比对随机发生的概率。
它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的(高分片段对)得分的期望分布联系起来计算的。
通常使用低于0.05来定义统计的显著性。
19.打分矩阵():在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。
10.空位():在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
11:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有, 等工具,还具有文献数据库。
《生物信息学》试卷(A)

武汉大学2007—2008学年度高校教师研修班《生物信息学》试卷(A)及答案一、翻译下列名词并解释。
(每题5分,共25分)1. EST2. ORF3. BLAST4. ANN5. HGP二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有和二维核磁共振技术。
2、BLAST对序列格式的要求是常见的格式。
3、系统发育树由一系列和组成,其中每个代表一个分类单元,而代表物种之间的进化关系。
、、等。
6. 目前已经是最广泛使用的系统发育程序。
三、解释说明: 请按要求对下列GenBank文件作解释说明。
(每小题4分,共20分)1、LOCUS行中的第3项mRNA linear表示,这里是。
2、DEFINITION行在GenBank记录中用以3 ACCESSION 是,是从数据库中检索一个记录的主要。
4. FEATURES后面部分是,直接表达了记录的生物背景知识,5 CDS 30…533 表示。
四、问答。
(共35分)1简述国际上有哪几个著名的核酸序列数据库?(10分)2何谓序列比对的相似性和同源性,它们之间有何联系和区别(10分)3试述发现基因的一般过程(15分)《生物信息学》试卷(A)答案一、翻译下列名词并解释。
(每题5分,共25分)1. EST expressed sequence tag 表达序列标签2. ORF Open Reading Frame, 开放阅读框3. BLAST Basic Local Alignment Search T ool 局部相似性基本查询工具4. ANN Artificial Neural Network, 人工神经网络5. HGP Human genome project 人类基因组计划二、填空(每空2分,共20分)1、蛋白质空间结构测定常用的方法有X射线晶体衍射法和二维核磁共振技术。
2、BLAST对序列格式的要求是常见的FASTA格式。
3、系统发育树由一系列节点和分支组成,其中每个节点代表一个分类单元,而节点之间的连线代表物种之间的进化关系。
共享——农业大学生物信息学课后练习题及答案汇总

2014级山东农业大学大二下学期期末生物信息学课后练习题及答案第一章绪论1、什么是生物信息学?答:广义的生物信息学:生命科学与数学、计算机科学和信息科学交汇融合形成的一门交叉学科应用先进的数据管理技术、数学分析模型和计算软件对各种生物信息进行提取、储存处理和分析,旨在掌握复杂生命现象的形成模式与演化规律。
狭义的生物信息学:应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也被称为分子生物信息学。
2、列举5个在生物信息学发展史上有重要意义的事件(技术发明或软件创新)答:1953年,由沃森和克里克提出DNA双螺旋结构模型,并发表于NATURE杂志。
(Nature, 1953)。
1955年,桑格采用二硝基氟苯(FDNB)法,首次成功地完成了第一个蛋白质-牛胰岛素的序列分析。
1965年,祖卡坎德尔和鲍林提出的“分子钟”理论。
(Evolving genes and proteins, 1965)1977年,桑格等发表双脱氧链末端终止法,测定ϕX174序列。
(PNAS, 1977)1988年,人类基因组计划提出。
(Science, 1986)1995年,H. influenza genome第一个测序成功的基因组。
(Science, 1995)2001年,人类基因组草图公布。
(Nature, 2001; Science, 2001)2005年,新一代测序技术出现。
(Nature, 2005)3、生物信息学的研究内容都有哪些?答:1.获取人和各种生物的完整基因组2.发现新基因和新的单核苷酸多态性3.基因组中非编码区信息结构分析4.完整基因组的比较研究5.功能基因组研究6.生物大分子结构模拟与药物设计7.生物信息学的发展与应用研究第二章生物信息学资源1、什么是一级数据库,什么是二级数据库答:1.数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。
生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。
(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。
(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。
2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。
(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。
探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。
探针的来源较灵活。
(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。
Cy3发红色荧光,Cy5发绿色荧光。
3、用不同的激发光照射,测定两种样品中DNA的表达量。
生物信息学期末考试答案分析解析

一、名词Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
Consensus sequence:共有序列——决定启动序列的转录活性大小。
各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。
数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。
EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。
Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
Homology:同源性——是两个对象间的肯定或者否定的关系。
如两个基因在进化上是否曾具有共同祖先。
从足够的相似性能够判定二者之间的同源性。
Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。
以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。
在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
生物信息学练习题

生物信息学练习题例题绪论1.以下哪个是今天“生物信息学”的正确英语拼写?(B )A.biocompB.bioinformaticsC.bioinformatiqueD.bio-informatics2.被称为“遗传学的奠基人,现代遗传学之父”的是哪位科学家? (B )A .沃森(James Waston)B .孟德尔(Gregor J . Mendel)C .查加夫(Erwin Chargaff)D .米歇尔(Friedrich Miescher)3.总的来说,位于染色体内超过(C )个碱基的DNA ,构成了人类基因组。
A .30000000B .30000000000C .3000000000D .3000000004.人类基因组计划于(A )年启动,于2003年完成。
A.1990B.1995C.1998D.19915.Proteomics的含义是(C )A.生物信息学B.基因组学C.蛋白质组学D.表观遗传学6.HGP是(C )A.在线人类孟德尔遗传数据B.国家核酸数据库C.人类基因组计划D.水稻基因组计划7.被誉为“生物信息学之父”的科学家是(D )A.DulbeccoB.SangerC.吴瑞D.林华安8.没有直接参与人类基因组计划的国家是(C)A.英国B.中国C.俄罗斯D.德国9.生物信息学属于多学科交叉,其联系下列(ABCD )等多个学科A.生物统计学B.病理学C.信息学D.动物学10.生物信息学是由(ACD )等学科相互交叉而形成的一门新兴学科A.计算机科学B.高等数学C.生物学D.应用数学11.生物信息学通过对生物学实验数据的获取、(ABCD ),进而达到揭示实验数据所蕴含的生物学意义的目的A.分析B.检索C.加工D.存储1.单核苷酸标记是( B )。
A.RFLPB.SNPC.SSRD.RAPD2.OMIM是( A )。
A.在线人类孟德尔遗传数据库B.国家核酸数据库C.人类基因组计划D.水稻基因组计划3.NCBI的含义是( A )。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果
比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;
2.用Clustalx打开txt文本,保存为*.phy文件;
3.用seqboot程序打开phy文件,输出结果文件*_seqboot
4.用protdist程序打开*_seqboot文件,输出为*_protdist文件
5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件
6. 用consense程序打开*_neighbor文件,输出为*_consense文件
7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)
(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3: NP_190855.1
一级结构
网址:/tools/protparam.html
Number of amino acids: 456 氨基酸数目
Molecular weight: 51154.5 相对分子质量
Theoretical pI: 8.69 理论 pI 值
Amino acid composition 氨基酸组成
Ala (A) 30 6.6%
Arg (R) 28 6.1%
Asn (N) 15 3.3%
Asp (D) 27 5.9%
Cys (C) 5 1.1%
Gln (Q) 18 3.9%
Glu (E) 28 6.1%
Gly (G) 37 8.1%
His (H) 16 3.5%
Ile (I) 16 3.5%
Leu (L) 42 9.2%
Lys (K) 32 7.0%
Met (M) 5 1.1%
Phe (F) 17 3.7%
Pro (P) 16 3.5%
Ser (S) 46 10.1%
Thr (T) 21 4.6%
Trp (W) 8 1.8%
Tyr (Y) 19 4.2%
Val (V) 30 6.6%
Pyl (O) 0 0.0%
Sec (U) 0 0.0%
(B) 0 0.0%
(Z) 0 0.0%
(X) 0 0.0%
正/负电荷残基数
Total number of negatively charged residues (Asp + Glu): 55
Total number of positively charged residues (Arg + Lys): 60
Atomic composition: 原子组成
Carbon C 2270
Hydrogen H 3531
Nitrogen N 645
Oxygen O 686
Sulfur S 10
Formula: C2270H3531N645O686S10 分子式
Total number of atoms: 7142 总原子数
Extinction coefficients: 消光系数
Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.
Ext. coefficient 72560
Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310
Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reduced
Estimated half-life: 半衰期
The N-terminal of the sequence considered is M (Met).
The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).
>20 hours (yeast, in vivo).
>10 hours (Escherichia coli, in vivo).
Instability index: 不稳定系数
The instability index (II) is computed to be 48.99
This classifies the protein as unstable.
Aliphatic index: 75.26 脂肪系数
Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性
/tools/protscale.html
蛋白质亲疏水性分析
所用氨基酸标度信息
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490
分析所用参数信息
Weights for window positions 1,..,9, using linear weight variation model:
1 2 3 4 5 6 7 8 9
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
edge center edge
跨膜结构预测结果(没有跨膜结构)
信号肽分析:
二级结构预测
三级结构预测
网站/~phyre
2、在拟南芥基因组数据库中(/)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
(1)在基因全长序列中标识出5′UTR,exon,intron以及3′UTR等基因特征(具体到碱基数)。
登录网站/ ,输入登录号At3G52870,然后点击Search,结果:
(2)分别利用PLACE和PlantCARE工具对该基因的启动子(假设启动
子是ATG上游2000bp)进行分析,试比较分析的结果。
PLACE分析
Place结果有以下3种呈现方式:
①grouped by signal
该结果没有显示启动子区的碱基序列,结果则是按照名字的首字母排序。
②mapped to sequence scan
③by sequence order
同grouped by signal 显示的结果相似,不过Factor or Site Name的序号由大到小排列。
等
Plantcare分析
网址http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
点击“Search for CARE”,进入,输入fasta格式的基因序列
PlantCARE不仅列出了“+”链和“-”链,且有颜色标示启动子区的各个顺式作用元件和反式作用因子。
如下:
PlantCARE较PLACE更简洁方便,容易查找。
且有function一项,说明这些元件在其结构中的作用。
如下:
(3)预测该基因的功能,并在PubMed中查找一篇相关文献。
Gene Finding
(/berry.phtml)的Gene Finding工具在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH”。