中国科学院大学生物信息学期末考试资料,陈润生老师

中国科学院大学生物信息学期末考试资料,陈润生老师
中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习

1.生物学中的7个数学故事

(1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。

(2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。

(3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。

(4)关联分析通过假设检验看两个特征的关联有无统计显著性。

(5) 序列比对设计合适的算法可以有效降低计算复杂度。

(6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。

(7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。

2. DNA、protein、RNA序列比对及其算法

序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。

(1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。

算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。

算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。

(2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分

算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。

动态规划算法优缺点:

优点:对于一个给定的计分函数集合,能找到最优的比对

缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。

序列比对的定义,存在哪几种算法,打分矩阵是什么意思

序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列;

算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法;

打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。

1.动态规划算法,给个表格可以把数字填出:

3. 序列比对搜索工具FASTA和BLAST(这一部分我们没有讲,也看看吧)

(1)FASTA EBI(European Bioinformatics Institute)的序列比对数据库搜索工具

步骤:①找到所有的热点(hot-spots)(精确匹配的对数:1或2个氨基酸;4或6个核苷酸);

②给热点打分,定位十个最好的diagonal run

③将sub-alignments通过gap连接成一个alignment;

④将动态规划算法应用于得分最高的alignment附近的局部区域,找到得分最高的alignment。(2)BLAST NCBI(National Center for Biotechnology Information)的序列比对数据库搜索工具

步骤:①预处理查询:从搜索中编译出short-hit得分的word list,对于BLOSUM打分,搜索词的长度w是3,阈值T是13;为每个搜索词建立neighborhood words)。

②扫描数据库,对于每一个word list,鉴定所有与数据库序列完全匹配的word(方法1:哈希表;方法2:有限状态机)。

③搜索最优的alignment。

④评估比对的统计显著性。

3.Dynamic Programming,FASTA,BLAST的算法比较

动态规划算法:由于用到了两个序列的全部信息,因此敏感性最好

由于计算了很多无用区域,浪费了时间,因此运行速度慢

FASTA:不如动态规划算法和BLAST算法敏感,运行时间快于动态规划算法

BLAST:比FASTA算法敏感性好,并且对结果进行了统计评估,BLAST 消除了搜索的噪音,因此运行比FASTA 更快。

4. 两种打分矩阵

PAM矩阵:基于氨基酸进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。

PAM矩阵的制作步骤:①构建序列相似(大于85%)的比对;

②计算氨基酸j 的相对突变率mj(j被其他氨基酸替换的次数);

③针对每个氨基酸对i和j , 计算j被i替换次数;

④替换次数除以相对突变率(mj);

⑤利用每个氨基酸出现的频度对j进行标准化;

⑥取常用对数,得到PAM-1(i,j);

⑦将PAM-1自乘N次,可以得到PAM-n。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变(但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸),最常用的是PAM250,250%期望的突变,PAM250= (PAM1)250。

BLOSUM矩阵:根据蛋白质模块数据库BLOCKS 中蛋白质序列的高度保守部分的比对而得到的。BLOSUM矩阵的数目(例如:BLOSUM 62)表示收集Blocks资料库中序列一致性为62%的序列,再由这些序列推导出计分矩阵,数目越低,差异越大。

5. 如何把写好的文件上传到服务器,并以网页的形式展现出来?

1),安装并运行winscp,在session对话框输入主机名,端口号,用户名和密码,点击login,登陆

2),将要运行的文件(如:test.html)拖到unix中的相应目录文件夹下,如:

hanclass/2010280167150xx/目录下,然后在浏览器中输入:

http://210.77.20.246/hanclass/2010280167150xx/test.html,即可运行。

6. 展示html要用什么服务器,什么浏览器?

放在服务器特定的文件夹中(对放入什么文件夹不作要求)。放在www底下。

7. R与Bioconductor有什么关系?

R 是一个有着强大统计分析及作图功能的软件系统,在GUN 协议General Public Licence下免费发行。R是S 语言的一个分支,R的使用与S-PLUS 有很多类似之处,两个软件有一定的兼容性。不依赖于操作系统,可以在运行于UNIX, Windows和Macintosh 的操

作系统上

BioconductorR语言的延伸是一个开源和开放式的软件开发项目,目标是建立多方面的、强有力的基因组数据统计与图形分析方法。Bioconductor的应用功能主要是以包(package)的集成形式呈现在用户面前,Bioconductor 提供了大量开放式的生物信息学软件包。嵌入到R 中,进行各种生物信息学的数据处理和分析以及绘图。

8. 新一代测序技术如何影响进化基因组学的发展

新一代测序技术,可用较低的成本产生大量的序列信息,解决了以前进化基因组学中难以解决的问题:①深入的群体调查;②研究正选择的基因座;③Standing变异和de novo突变:④通过系统发生重建研究致癌突变;⑤古基因组学;⑥靶向非模式生物;⑦转录组进化。

9. 数据库NCBI, ENSEMBL

NCBI是美国国家生物技术信息中心。该中心保存GenBank的基因测序数据。

Ensemble是一个全自动的基因注释软件。由英国Sanger研究所和欧洲生物信息学研究所共同协作运营。

10. 分子进化研究方法

距离法

①邻接法:在所有可能拓扑结构中选择分支长度和S最小的作为最优树。

②UPGMA:基于层次聚类

最大简约法:对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构作为最优树。

最大似然法:以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系统树。

软件:PAML(Phylogenetic Analysis by Maximum Likelihood),即最大似然法分析,是伦敦大学的杨子恒(Yang Ziheng)教授开发的一套基于最大似然估计来对蛋白质和核酸序列进行系统发育分析的软件,对学术使用是免费的。

PAML 可实现系统发育树的构建、祖先序列估计、进化模拟和KaKs 计算等功能。其中分支及位点KaKs 的计算是本软件包的特色功能。

11. RNA二级结构(茎、环)

答:RNA二级结构是由非共价键维持,包括氢键和碱基堆积力。典型的碱基配对方式为A-U, G-C, G-U。

单链RNA分子中存在的反向重复序列,通过氢键形成碱基互补配对结构。双链区称为茎(stem),而不能配对的单链区部分称为环(loop)。茎内的其中一条链多出若干碱基不形成配对,这样的结构称为凸环(bulge loop);茎内的两条链都多出若干碱基不能配对,这样的结构称为内环(internal/interior loop);一条单链,其两端为茎,这样的结构称为发夹环(hairpin loop)

12. 非编码RNA(Non-coding RNA)有哪些,分别起什么作用?

蛋白质编码基因的数目与物种的复杂度不符,在人类和其他生物的基因组的大多数非蛋白编码区存在转录活性。主要的非编码RNA及其功能,如下所述:

(1)transfer RNAs (tRNA),即转移RNA:蛋白质翻译过程中,转运氨基酸分子,作为氨基酸与mRNA 上的接头分子。

(2)ribosomal RNAs(rRNA),即核糖体RNA:蛋白质合成的场所。

(3) small nuclear RNAs(snRNAs),即小核RNA:与蛋白质形成核糖核蛋白颗粒,在RNA剪接中发挥作用。

(4) small nucleolar RNAs,即小核仁RNA (snoRNAs):Pre-rRNA(即前体rRNA)在成熟而具有功能之前要进行修饰,如甲基化、尿嘧啶转变成假尿嘧啶。snoRNAs就起这样的修饰作用。

(5) small interfering RNAs (siRNAs),即小干扰RNA:在RNA干扰中发挥作用,使双链RNA 降解,基因沉默。

(6) microRNAs (miRNAs),即微小RNA:类似于siRNAs,通过与靶基因mRNA碱基互补配对引导沉默复合体(RISC)降解mRNA或阻止其翻译。

(7) PIWI-interacting RNAs (piRNAs):是维持生殖细胞完整性和可育性所必须的一类小分子RNA。

(8) antisense RNAs,即反义RNA:与mRNA特异性互补配对,抑制该mRNA的加工和翻译。

13. RNA二级结构预测原理及算法的局限性

(1)单个序列预测:配对得到的结构自由能最低;碱基配对的能量是在37℃,bulge loop 大于3个碱基的时候获得的。

(2)共进化分析:根据同源序列之间的共演进性,将两个或多个序列的保守的碱基对进行

比较。

算法包括:热动力学最小自由能量算法;动态规划算法;mfold算法。

算法的局限性:

①难以处理pseudo-knots。

②当RNA分子大小增加时,预测的准确性将会降低。

③不能估计预测的准确性。

14. 蛋白质结构预测的方法和原理,有什么软件?

⑴同源模建(Homology modeling)

原理:进化上相关的序列呈现出相似的三维结构,即序列相似性表明了结构相似性。

主要步骤:

①鉴定有已知结构的相关序列

②将靶序列比对到模板结构上

③用已知模板模建结构上保守的区域

④模建与模板不同的侧链和环

⑤通过构象抽样精炼和比价模型的质量

(2)折叠识别(Fold Recognition)

原理:蛋白质的结构比序列更为保守,自然界的蛋白质折叠类型的数目是有限的.

主要步骤:搜索序列表征→构建核心折叠模板文库(排除同源后的)→基于打分函数的模板排序→从文库中选择最优化的模板。

(3)从头计算法(ab initio method)。

原理:基于两个假设:天然结构只由蛋白质的氨基酸序列决定:天然结构是自由能最小的构象。

三种方法:

①分子动力学

软件:CHARMM,NAMD

②格子模型

③片段组装个

蛋白质结构预测的实用工具软件:phyre,HH-pred

15. 芯片表达值是怎么算出来的?

(1)MAS 4.0平均差异算法

没考虑每个探针序列的不同

PMj - MMj = q + ej, j = 1, …, J·

(2)MBEI: Model-Based Expression Index

考虑探针的影响

PMij - MMij =θiφj +εij, εij ~ N(0, σ2)

(3)MAS 5.0

对公式PMij - MMij =θiφj +εi进行了对数转换:

log(PMij- CTij) = log(θi) +εij, wherej = 1,…,J.

CT:当MM

log转换的原因:

①由于杂交,杂交信号强度趋向于指数分布

②log化后,low value和very high value的就能被凸显出来,更易于发现差异表达基因。(4),RMA:Robust Multiarray Analysis

Log2n(PMij-BG) =θi+ αj+εij,其中θi是指第i个样品中探针集的表达水平的对数,αj 是指探针集中第j个探针的探针效应,εij表示随机误差

规一化(normalization)是干什么用的?方法和意义1表达差异来源:基因表达差异or样本准备、检测设备(扫描仪)差异?==》因此需要归一化。

2方法

Basic idea:–order value in each array排序

–take average across probes取平均

–Substitute probe intensity with average

–Put in original order恢复顺序

1,便于理解和交流

2,便于技术转移

16. 差异基因表达

(1)SAM:Significance analysis of microarrays

SAM基于样品间表达水平的差异,寻找差异显著基因。能够估计错误识别率(False Discovery Rate (FDR)),且是一个交互性很强的算法,允许用户根据统计检验分布动态改变临界值,来获得更好结果。

方法:

1)将实验分为两组,对每个基因计算d-value (observed d-value)。

2)按d-value升序排列每个基因

3)将两组间的基因随机打乱,按d-value升序重新排列打乱的基因

4)重复3)多次,获得每个基因的expected d-value

5)以observed d-value对expected d-value绘图,得到结果。

6)根据每次排列,计算阳性以及阴性显著性基因,这些显著性基因的数据的中位数即为错误识别率的中位数。

(2)Rank Products

首先对每个重复实验中基因的表达量多少进行排序,然后将排好序的每个重复中该基因的排序位置除以基因总数所的数,然后将结果连乘,即为该基因的RP 值。根据RP 值来判断基因表达量的上调或者下调。如:

RP 优点:直观,非参统计,统计结果可信度高,当重复实验较少时,在noisy 数据存

在下,检测到的表达量变化的基因,可靠性更好。

17. 聚类

(1)层次聚类:

Initialize: 每一个元素都为一个类

Iterate:

计算所有点之间的距离,形成距离矩阵,按照距离最近的原则,选择两个最近的元素合并这两个最近的元素为一个新元素,新元素看作一个类

计算其余点到这个新元素距离,可以是单连接,全连接,平均连接,形心连接Halt: when required number of clusters is reached

二.k-means聚类:

1. 决定要产生几类,及确定k值

2. 随机产生k个点,当做k类的中心

3. 分别计算每个元素到k个点的距离,距离最近的元素被归为第i(i=1,2……k)类

4. 重新计算第i(i=1,2……k)类的中心,

5. 重复2,3 步,直到第i类没有发生变化

18.网络的基本概念

生物网络模型:

节点(N):蛋白,肽段或非蛋白生物分子;

边(L):生物之间的相互关系(调控、反应、转化、激活、抑制)

=2L/N,K 的分布:P(k)~K-γ

scalefree network:富人越富,穷人越穷。对随机的攻击的承受力很强,但对有组织的协同进攻很脆弱。

整体论主张一个系统(宇宙、人体等)中各部分为一有机之整,而不能割裂或分开来理解。此作理解。。生物学研究中的还原论表现最为明显,有人试图把生命运动形式归结为物理-化学运动形式,用物理-化学运动规律取代生物学规律。20世纪初的还原论者把人类社会运动还原为低等动物的运动,把生物学规律还原为分子运动规律,再继续还原为物理-化学过程。现代生物还原论借用分子生物学取得的成就,认为就像遗传过程可以还原为化学相互作用一样,所有生物现象都可归结为物理-化学运动。生物学中的还原论还主张学科之间的还原,如果一门学科的理论、规律可以说明另一学科的理论、规律,则后一学科可以向前一学科还原。

与还原论相反的是整体论,这种哲学认为,将系统打碎成为它的组成部分的做法是受限制的,对于高度复杂的系统,这种做法就行不通,因此我们应该以整体的系统论观点来考察事物。比

如考察一台复杂的机器,还原论者可能会立即拿起螺丝刀和扳手将机器拆散成几千、几万个零部件,并分别进行考察,这显然耗时费力,效果还不一定很理想。整体论者不这么干,他们采取比较简单一些的办法,不拆散机器,而是试图启动运行这台机器,输入一些指令性的操作,观察机器的反应,从而建立起输入──输出之间的联系,这样就能了解整台机器的功能。整体论基本上是功能主义者,他们试图了解的主要是系统的整体功能,但对系统如何实现这些功能并不过分操心。这样做可以将问题简化,但当然也有可能会丢失一些比较重要的信息。

两道概率题

贝叶斯定理在检测吸毒者时很有用。假设一个常规的检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高?令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

?P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。

?P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。

?P(+|D)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。

?P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1-99%。

?P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):

尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大约33%,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指D,雇员吸毒)越难发生,发生误判的可能性越大。

中国科学院遗传与发育生物学研究所博士研究生遗传学入学试题

博士研究生入学考试试题 一九九六年分子遗传学 一、请说明高等动植物的基因工程与大肠杆菌基因工程的异同。什么是当前真核生物基因工 程的前沿?你认为目前动植物基因工程进一步发展的瓶颈是什么?(20分) 二、在遗传学的发展中模式生物的应用起了重要的作用,请用一种你最熟悉的模式生物,较 为系统地阐述应用该模式生物进行研究对分子遗传学的贡献。(15分) 三、从突变产生的机制看能否实现定向突变?试从离体和活体两种情况予以说明。(15分) 四、什么是基因组大小与C值的矛盾?造成这种矛盾的因素有哪些?如何估计真核生物基因 组的基因数目?在进化过程中自然选择是否作用于基因组的大小,请阐述你的观点。(15分) 五、水稻黄矮病毒含有负链RNA基因组,在完成对该病毒核衣壳蛋白基因(N)序列测定的 基础上,将N的编码序列置于水稻Actl基因(是一种组成性表达的基因)的启动子下游,通过基因枪方法导入一个水稻的粳稻品种,研究结果表明转基因的水稻植株在攻毒试验中表现出对黄矮病毒的抗性。请你进一步设计实验,证明以下两点: 1.转基因水稻的抗性确实是由于N基因导入水稻基因组表达的结果,而不是在转化过程中由于突变造成的; 2.转基因水稻的抗性是由于N基因的转录产物造成的,而不是该基因的翻译产物造成的。(20分) 六、限制性核酸内切酶在分子遗传学中广泛地用于各类研究,请具体地说明限制性内切酶在 研究工作中的应用范围。 (15分)

1997年博士研究生入学试题 分子遗传学(A卷) 一、在通过测序获得一个基因组克隆的DNA序列后,怎样才能了解该序列可能具有的基因功能,请提出你的研究方案。(20分) 二、请简单介绍你的硕士论文研究(或相当于硕士论文研究)的工作。如果这些工作涉及分子遗传学,请提出你深入研究的设想;如果你以前的工作与分子遗传学无关,也请你提出深入到分子水平的设想。(20分) 三、请指出目前阶段基因工程技术的局限性,并分析这些局限性的原因(你可以在人类基因冶疗,动物基因工程和植物基因工程三个方面任选一个来回答,也可以都回答)。(20分) 四、请说明基因组计划与生物技术的关系。(20分) 五、请说明真核生物染色体的结构和组成在分子水平上的特征。(20分)

北京大学 2010年 普通生物学期末考试题

北京大学生命科学学院考试专用纸姓名:学号:考试类别: 考试科目:普通生物学A 考试日期:2010-6-11阅卷教师:佟向军 以下为答题纸,共7 页

一、填空(每空0.5分,共35分) 1.我们的身体无法利用纤维素,是因为我们消化道内的________酶仅能水解________ 键,而无法水解_________键。构成淀粉和纤维素的单体都是________。 2.根据是否有细胞核膜来区分,细胞分为_______细胞和_______细胞。细胞骨架包括________、________以及________三种成分。其中:有丝分裂时,形成纺锤丝的是______,与胞质分裂相关的是________,与肌肉收缩有关的是______。 3.光合作用的光反应阶段在______进行,它又可分为光系统I和光系统II。前者的产物是______,后者的产物是________。光合作用的暗反应在___________进行,其主要作用是固定______,这一过程称为__________循环。4.细胞通讯与信号传递,对细胞的生命活动很重要。在这一过程中,能引起细胞反应的信号分子叫做________,包括______和______两大类。细胞本身与信号分子结合的蛋白质叫做________,它们在细胞中的位置各不相同,脂溶性信号分子的结合蛋白,主要位于__________,水溶性信号分子的结合蛋白,主要位于________。在细胞内,起第二信使作用的有________(举一例即可)。5.细胞周期包括_____、________、_______和______四个时期。DNA复制在____期。调节细胞周期的因子叫做____________,它由______和______两种蛋白组成。细胞周期有_____个检验点,它们分别位于____________期。 6.人的α-珠蛋白基因位于16p13.33, 其中16代表________________,p代表_________,13代表_______________。 7.DNA的复制是__________方式,即两条DNA链解开,分别以各自为____________,按照____________________原则,合成其互补链。复制所需要的酶主要是________________;复制无法从头开始,需要________________,它的成分是________________。新链的延伸方向是____________________,因此一条链连续复制,称为______________,另一条链复制不连续,称为____________,不连续的DNA片段叫做______________。 8.原核生物基因表达调控的主要方式是________________,它由____________、

生物信息学论文

生物信息学的进展综述 韩雪晴 (生物工程1201班,学号:201224340124) 摘要:生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性系统科学。80年代以来新兴的一门边缘学科,信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系,生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利,对此作了简单的分析。 关键词:生物信息学;进展;序列比对;生物芯片 A review of the advances in Bioinformatics Han Xueqing (Bioengineering, Class1201,Student ID:201224340124) Abstract: Bioinformatics is the science of comprehensive system of information content and information flows to a study on the biological and bio related in the system. The edge of an emerging discipline since 80, has broad prospects in which information. With the human genome project was completed and the development of bioinformatics are inextricably linked, for the life science research development of bioinformatics for the development of life science has also brought a lot of convenience, has made the simple analysis. Keywords: bioinformatics;progress;Sequence alignment;biochip 1、生物信息学的产生背景 生物信息学是20世纪80年代末开始,随着基因组测序数据迅猛增加而逐渐兴起的一门学科[1]。应用系统生物学的方法认识生物体代谢、发育、分化、进化以及疾患发生规律的不可或缺的工具[2]。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 2、生物信息学研究内容 主要是利用计算机存储核酸和蛋白质序列,通过研究科学的算法,编制相应的软件对序列进行分析、比较与预测,从中发现规律。白细胞介素-6(IL-6)是机体重要的免疫因子,但在两栖类中未见报道。采用生物信息学方法对两栖类模式动物非洲爪蟾IL-6进行分析[3]。以人IL-6基因对非洲爪蟾数据库进行搜索、分析,并采用RT-PCR方法对所得序列进行验证。结果表明,非洲爪蟾IL-6基因位于scaffold_52基因架上,具有保守的IL-6家族基序[4]。采用生物信息新方法进行不同物种的免疫基因挖掘、克隆,是一种有效的方法[5]。 2.1序列比对 比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA[6]。序列数据库搜索最著名且最常用的工具之一便是BLAST算法。FASTA算法是另一族常用的序列比对及搜索工具[7]。 2.2结构比对 比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。 2.3蛋白质结构预测 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构[8]。 3、生物信息学的新技术

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

2017年中科院遗传学考研参考书

中国科学院大学硕士研究生入学考试 《遗传学》考试大纲 本《遗传学》考试大纲适用于中国科学院大学生命科学相关专业的硕士研究生入学考试。遗传学的主要内容包括经典遗传学、细胞遗传学、分子遗传学和发育遗传学等。要求考生掌握基本概念、原理,从个体、细胞、和分子水平对遗传学有较完整和系统的认识,掌握遗传学的基本规律和应用,熟悉遗传学的基本概念及规律,并能综合、灵活运用所学知识分析问题和解决问题。 一、考试科目基本要求及适用范围概述 熟练掌握遗传学的基本原理与知识,了解遗传学研究的新进展与新概念,了解遗传学研究相关的新技术。 二、考试形式和试卷结构(题型) 考试形式:闭卷,笔试;考试时间:180分钟;总分:150分 试卷结构:名词解释,简答题,遗传学计算题 三、考试内容与要求 (一)染色体遗传学与细胞遗传学 1.理解细胞分裂的过程与意义; 2.掌握有丝分裂与减数分裂的异同,了解染色体在有丝分裂和减数分裂 中的行为; 3.了解果蝇唾液腺染色体的特征和形成原因; 4.掌握染色体学说的主要内容; 5.掌握真核生物染色体的组装与结构模型。

(二)经典遗传学 1.熟练掌握孟德尔的遗传分离定律和遗传自由组合定律的原理; 2.了解性染色体决定性别的主要类型,理解伴性遗传规律; 3.熟练运用基因的连锁与交换定律进行重组频率的计算,掌握三点测交法的原理与应用; 4.掌握谱系的遗传分析方法; 5.理解遗传互补检测的原理,熟练掌握遗传互补检测的原理与应用; 6.理解剂量补偿效应的概念; 7.熟练掌握基因型(genotype)、表现型(phenotype)、外显率(penetrance)、表现度(expressivity)等概念,掌握表型比率的计算方法; 8.掌握等位基因、复等位基因、非等位基因等概念; 9.了解基因突变互作的主要类型与原理。 (三)基因与基因组的结构与功能 1.熟练掌握DNA双螺旋模型。了解DNA的其它构型; 2.了解基因概念的发展,掌握基因的类型,理解基因与DNA的关系; 3.掌握基因组结构特点和功能的对应关系; 4.理解等位基因、等位突变的性质与特点; 5.了解真核生物、原核生物基因组序列的类型与特点; 6.理解基因家族的概念; 7.了解基因的丢失、扩增、重排的特点与意义; 8.掌握重组测验进行基因定位的原理,理解图位克隆的原理,了解遗 传拯救(rescue)或分子遗传互补实验确定基因功能的原理。 (四)遗传重组与遗传分析 1.掌握同源重组、位点特异重组的原理与特点; 2.熟练掌握遗传重组作图的原理与应用; 3.掌握缺失作图的原理和方法;

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

2020-2021年中国科学院大学生态学考研招生情况、分数线、参考书目等信息汇总

一、动物研究所简介 动物研究所历史悠久,人才辈出,贡献卓著。1962年由昆虫研究所和动物研究所合并成为现在的动物研究所。动物研究所目前拥有三个国家重点实验室,即干细胞与生殖生物学国家重点实验室、膜生物学国家重点实验室、农业虫害鼠害综合治理研究国家重点实验室;建立了动物生态与保护生物学院重点实验室和动物进化与系统学院重点实验室;有馆藏量近800万号的动物标本馆;还建立了国家动物博物馆,以及众多的野外观察研究台站和基地。研究所主要定位在围绕农业、生态、环境和人类健康及其人与自然协调并存等方面的重大需求和科学问题,在珍稀濒危动物保护、有害动物控制、资源动物可持续利用、动物疾病预警与防控、生殖与发育生物学、动物系统学和进化生物学等领域开展基础性、前瞻性、战略性研究。动物研究所在2003年全国一级学科生物学学科评估中整体水平排名第二,2009年全国一级学科生物学学科评估中整体水平排名第五,在2005年及2010年获得全国优秀博士后流动站荣誉称号。1981年,国务院学位委员会批准动物研究所为我国首批具有博士、硕士学位授予权单位;1987年获准开展具有研究生毕业同等学力的在职人员理学硕士学位、博士学位资格授予工作;1988年经全国博士后管委会批准建立博士后科研流动站;1994年获准为博士生导师自行评定单位;1997年、2000年先后两次被评为中国科学院博士生重点培养基地;1998年被国务院学位委员会批准为一级学科(生物学)博士、硕士学位授予权单位;2008年,动物研究所“生态学”获得北京市重点学科建设资助;2011年,生态学、动物学、发育生物学、细胞生物学四个学科被中科院评为重点学科。2010年,增设生物工程硕士培养点;2011年,成功增列生物医学工程、免疫学、病理学与病理生理学三个学术型硕士培养点。2014年,成功增列基因组学博士及硕士培养点。2016年,成功增列免疫学、病理学与病理生理学两个学术型博士培养点。2017年,成功增列再生医学博士及硕士培养点。现有在学研究生600多人。 二、中国科学院大学生态学专业招生情况、考试科目

北京大学操作系统期末试题有答案

操作系统原理试题 一. 名词解释题 1. 中断—— 2. 进程控制块(PCB)――它是进程实体的一部分,是操作系统最重要的记录型数据结构, 是进程存在的唯一标识 3. 虚时钟 4. 段式管理 5. 文件控制块(FCB) 6. 对换(SWAPPING) 7. 系统调用 8. 绝对路径名 9. 特别文件 10.虚设备技术 11.管道 12.中断接收 13.恢复现场 14.页式管理 15.作业步 16.字符流文件 17.通道 18.页面淘汰 19.多道程序设计 20.死锁 21.当前目录 22.快表 23.作业调度 24.原语 25.中断屏蔽 26.地址映射 27.文件目录 28.死锁避免 29.原语 31. CPU 状态 32.虚存

二 . 填空题 1. 分时系统追求的目标是 __及时响应 ___. 2. 用户进程从目态 (常态)转换为管态 (特态)的唯一途径是 ___ 中断 ________ . 3. 从静态的观点看 , 操作系统中的进程是由程序段、数据和 __ 作业控制块 PCB__ 三 部分组成 . 4. 在系统内核中必须包括的处理模块有进程调度、原语管理和 __中断处理 __. 5. 批处理操作系统中 , 作业存在的唯一标志是 _作业控制块 PCB ___. 6. 操作系统中的一种同步机制 , 由共享资源的数据及其在该数据上的一组操作组成 , 该同步机制称为 _管程 ______________ . 7. 在可变分区存储管理中 , 为实现地址映射 , 一般由硬件提供两个寄存器 , 一个是基 址寄存器 , 另一个是 _限长寄存器 ___. 8. 联想寄存器 (相联存储器 ) 的最重要、最独到的特点是 _按内容并行查找 ___. 9. 在虚拟段式存储管理中 , 若逻辑地址的段内地址大于段表中该段的段长 , 则发生 __ 地址越界 __中断 . 10. 文件系统中若文件的物理结构采用顺序结构 , 则文件控制快 FCB 中关于文件的物 理位置应包括 ___ 首块地址和文件长度 _. 11. 在操作系统设计时确定资源分配算法 , 以消除发生死锁的任何可能性 , 这种解决死 锁的方法是 __死锁预防 __. 12. 选择对资源需求不同的作业进行合理搭配 , 并投入运行是由 _作业调度算法 ___来完 成的. 13. 实时系统应具有两个基本特征 : 及时性和 ___可靠性 ___. 14. 磁带上的文件只能采用 _顺序 ______ 存取方式 . 15. 不让死锁发生的策略可以分成静态和动态的两种 , 死锁避免属于 __动态的 ___. 16. 在 UNIX 系统中 , 文件分成三类 , 即普通文件 , 目录文件和 ___特殊文件 __. 17. 在磁盘调度策略中有可能使 I/O 请求无限期等待的调度算法是 __最短寻道时间优先 18. 进程获得了除CPU 外的所有资源,一旦获得CPU 即可执行,这时进程处于—就绪 _ 状态 . 19. ______________________________________________________ 为实现CPU 与外部设备的并行工作,系统必须引入一通道 ____________________________________ 硬件基础. 20. 操作系统为保证不经文件拥有者授权 , 任何其它用户不能使用该文件所提出的解决 措施是 ___文件保密 __. 21. 两个或两个以上程序在计算机系统中同处于开始和结束之间的状态 , 这就称为 __ 并发 ___. 33. 磁盘调度 34. 缓冲技术 36. 进程调度 37. 虚设备 39. 死锁预防 40. 临界资源 — 42. 交换技术 43. 互斥区 段时间内只允许一个进程访问的资源,也称为独立资源

航天火箭公司(航天704所) - 首页-中国科学院大学就业网

航天火箭公司(航天704所) 2013年应届毕业生专场招聘会日程安排 友情提示: 1.具体时间地点,请以学校通知为准。 2.招聘会类型说明: 1)航天704所专场是航天火箭公司自行组织的招聘宣讲会,时间大约1个小时,内容包括三个部分:(1)播放宣传纪实短片,(2)介绍公司情况、招聘需求及相应的政策等,(3)现场接收应聘材料。2)航天科技集团专场:展会式招聘,由于场地限制,当场只能张贴海报,发放宣传页,接收简历。3.若有意应聘航天火箭公司(航天704所)的同学,请提前填妥《应聘申请表》。宣讲会后将《应聘申请表》、简历和成绩单等应聘材料一并递交给工作人员。 4.建议有意向的同学们参加航天704所专场,以较为全面的了解单位情况,提高应聘的针对性和有效性。 5.由于每场招聘会的内容相同,同学们可根据自己情况选择适合时间参加其中任何一场。如希望详细了解单位情况,建议参加航天704所专场。 日期学校招聘会类型9月14日周五西安电子科技大学航天704所专场 9月15日周六西北工业大学航天704所专场 9月15日周六大连理工大学航天科技集团专场 9月18日周二哈尔滨工业大学航天704所专场 9月19日周三哈尔滨工程大学航天704所专场 9月22日周六哈尔滨工业大学航天科技集团专场 9月23日周日北京航空航天大学航天704所专场 9月24日周一北京理工大学航天704所专场 9月25日周二长春理工大学航天科技集团专场 9月25日周二中科院研究生院航天704所专场 9月27日周四天津大学航天科技集团专场 10月11日周四电子科技大学(成都)航天704所专场 10月11日周四南京航空航天大学航天704所专场 10月11日周四东南大学航天704所专场 10月12日周五南京理工大学航天704所专场 10月14日周日南京理工大学航天科技集团专场 10月15日周一南京航空航天大学航天科技集团专场 10月17日周三上海交通大学航天科技集团专场 10月19日周五浙江大学航天科技集团专场 10月19日周五中国科学技术大学航天704所专场 10月21日周日中国科学技术大学航天科技集团专场 10月22日周一华中科技大学航天704所专场 10月22日周一武汉大学航天704所专场 10月23日周二华中科技大学航天科技集团专场 10月24日周三武汉大学航天科技集团专场 10月27日周六西北工业大学航天科技集团专场 10月28日周日西安电子科技大学航天科技集团专场 11月1日周四四川大学航天科技集团专场 11月2日周五电子科技大学(成都)航天科技集团专场 11月2日周五厦门大学航天704所专场 11月4日周日重庆大学航天科技集团专场 11月9日周五清华大学航天科技集团专场 11月10日周六北京航空航天大学航天科技集团专场 11月11日周日北京理工大学航天科技集团专场

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

被人们忽视的重点大学,实力超过很多985211大学

被人们忽视的重点大学,实力超过很多985211大 学 中国科学院大学 中国科学院大学,这所高校虽然不是985院校,但是其背靠中国科学院这棵大树,近些年的发展势头非常迅猛,目前的实力也已经 形成比肩清华北大之势,很多人都说我国有很多被大家忽略的重点 高校,其实中国科学院大学才是真正被大家忽略的“重点高校”。 那么作为“双非”大学的中国科学院大学,又有哪些不一样的地方呢? 从学科建设的角度分析,中国科学院大学可是强势到让一众985 院校“汗颜”,在全国高校第四轮学科评估中,中国科学院大学的“A+”学科数量仅次于北京大学和清华大学(北大清华各21个),共 有18个学科获得这一最好成绩,其A类学科总数量也是名列前茅, 位居中国高校第四名(共有30个A类学科)。学科评估的结果反映了 一所高校的学科发展和科研水平,非985高校的中国科学院大学能 够甩开诸多985院校,难道不是潜伏在我们身边的“重点高校”吗? 中国科学院大学学科评估结果 中国科学院大学其实最早只进行研究生教育,早前也叫中国科学院研究生院,只是在2012年进行了更名,并在随后才开始本科生教育。目前,中国科学院大学已经成为我国非常难考的大学之一(其在 开始本科教育时就是高起点、高要求)。想要报考中国科学院大学, 不单单要达到985院校的分数线,更要达到中国顶尖名校的分数线(比如上海交通大学、复旦大学、浙江大学等名校)。 虽然不是985院校,但是现在的中国科学院大学已经进入我国“双一流”高校的队伍,要知道,没有985、211高校的“牌子”, 进入“双一流”的院校在全国仅有25所,足见中国科学院大学的实 力突出,其在我国理工类专业学科领域内,都有着非常强劲的实力。

北京大学“学术英语阅读”2017年上学期期末考试真题

2017—2018学年度第一学期期末考试 学术英语阅读 院/系_________________ 姓名_________________ 班级_________________ 学号_________________ Direction Read the following passage. While you’re reading, please pay special attention to the underlined or shaded words, phrases and sentences. You’ll be asked to explain them in English later after reading. The Price of Preference Shelby Steele 5 10 15 20 25 30 In a few short years, many blacks and a considerable number of whites would say that I was sanctimoniously (圣洁地) making affirmative action①into a test of character. They would say that this small preference is the meagerest recompense for centuries of unrelieved oppression. And to these arguments other very obvious facts must be added. In America, many marginally competent or flatly incompetent whites are hired every day—some because their white skin suits the conscious or unconscious racial preference of their employers. The white children of alumni are often grandfathered into elite universities in what can only be seen as a residual benefit of historic white privilege. Worse, white incompetence is always an individual matter, but for blacks it is often confirmation of ugly stereotypes. Given that unfairness cuts both ways, doesn’t it only balance the scales of history, doesn’t this repay, in a small way, the systematic denial under which my children’s grandfather lived out his days? In theory, affirmative action certainly has all the moral symmetry that fairness requires—the injustice of historical and even contemporary white advantage is offset (补偿) with black advantage; preference replaces prejudice, inclusion (1) answers exclusion. It is reformist and corrective, even repentant and redemptive (忏悔与救赎的). And I would never sneer at these good intentions. Born in the late forties in Chicago, I started my education (a charitable term in this case) in a segregated (种族隔离的) school and suffered all the indignities that come to blacks in a segregated society. My father, born in the South, made it only to the third grade before the white man’s fields took permanent priority (永久性优先) over his formal education. And though he educated himself into an advanced reader with an almost professorial authority, he could only drive a truck for a living, and never earned more than $90 a week in his entire life. So yes, it is crucial to my sense of citizenship, to my ability to identify with the spirit and the interests of America, to know that this country, however imperfectly, recognizes its past sins and wishes to correct them. Yet good intentions can blind us to the effects they generate when implemented. In our society affirmative action is, among other things, a (2) testament to white goodwill and to black power, and in the midst of these heavy investments its effects can be hard to see. But after twenty years of implementation I think that affirmative action has shown itself to be more bad than good and that blacks—whom I will focus on in this essay—now stand to lose more from it than they gain. In talking with affirmative action administrators and with blacks and whites in general, I found that supporters of affirmative action focus on its good intentions while detractors (反对者) emphasize its negative effects. Proponents talk about “diversity” and “pluralism”; opponents speak of (3) “reverse discrimination”, the unfairness of quotas (指标) and set-asides (保留名额). [1] It was virtually impossible to find people outside either camp. The closest I came was a white male manager at a large computer ①Affirmative action is the policy of favoring members of a disadvantaged group who suffer or have suffered from discrimination within a culture. 平权运动,扶持政策

生物信息学(第二版)

《精要速览系列-先锋版生物信息学(第二版)》 D.R.Westhead,J.H.Parish & R.M.Twyman 科学出版社2004 A生物信息学概述 相关学习网站https://www.360docs.net/doc/3713035047.html,/inbioinformatics B数据采集 DNA,RNA和蛋白质测序 1.DNA测序原理 DNA中核苷酸的顺序是通过链式终止测序【也称为脱氧测序(dideoxy sequencing)或以发明人命名的Sanger方法】来确定。 2.DNA序列的类型 基因组DNA,是直接从基因组中得到,包括自然状态的基因 复制DNA(copy DNA, cDNA),通过反转录mRNA得到的 重组DNA,包括载体序列如质粒,修饰过的病毒和在实验室使用的其他遗传元件等 3.基因组测序策略 散弹法测序(shotgun sequence)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组 克隆重叠群测序(clone contig)DNA片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成 4.序列质量控制 通过在DNA双链上进行多次读取完成高质量序列数据的测定 可使用如Phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。 载体序列和重复的DNA片段被屏蔽后,使用Phred等程序将序列拼接成重叠群 (contigs),剩下的不一致部分通过人工修饰解决 5.单遍测序 低质量的序列数据可以由单次读段(read)产生(单遍测序,single-pass sequencing)。 尽管不很准确,但单遍测序如ESTs和GSS s,可以低廉的价格快速大量的产生 6.RNA测序 因为有大量的小核苷酸(minor nucleotide)(化学改变的核苷)存在于转移RNA (tRNA)和核糖体RNA(rRNA)中,所以RNA测序不能像DNA测序那样直接进行。 需要用特殊的方法来识别被改变的核苷,包括生化实验,核磁共振谱(NRM spectroscopy)和质谱(MS)技术 7.蛋白质测序 蛋白质序列可以通过DNA序列推断得到,而RNA测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰(比如剪接或二硫键的形成) 大部分蛋白质测序是通过质谱(MS)技术进行的

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

相关文档
最新文档