生物信息学简答题讲解学习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学简答题
1. 生物分子至少携带着三种信息
遗传信息功能相关的结构信息进化信息
2. 生物信息学的目标和任务
收集和管理生物分子数据
数据分析和挖掘
开发分析工具和实用软件
3. 生物信息学研究意义
认识生物本质
改变生物学的研究方式
在医学上的重要意义
4. 生物信息学与实验生物学的关系
实验生物学(传统生物学or现代生物学):是实验性的;为生物信息学提供相应的数据生物信息学:生物信息的搜集、整理、注释、管理;建立并利用生物信息学数据库;开发生物信息学软件;研究生物信息学算法
生物信息学对实验数据分析与利用的结果,为进一步合理、有效地设计实验方案,研究方向等提供有力的指导和合理的建议。使得新的生物学研究的出发点是理论的
生物信息学分析的结果必须通过生物实验科学来进一步验证
5. 生物信息学主要研究内容
1、生物分子数据的收集与管理
2、数据库搜索及序列比较
3、基因组序列分析
4、基因表达数据的分析与处理
5、蛋白质结构与功能预测
6、代谢途径分析与解析
6. 生物分子数据库应满足:
(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性(6)非冗余性
7. 一个数据库记录(entry)一般由两部分组成:
1. 原始序列数据
2. 描述这些数据生物学信息的注释
8. FASTA格式
序列分析软件最常用的格式,包括三部分:
在注释行的第一列用字符“>”标识,后面是序列的名字和来源;
标准的单字符标记的序列;序列中没有数字或其他非字符。
可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。
9. SWISS-PROT的三个特点:注释、非冗余、交叉索引
(1)注释 SWISS-PROT数据分为核心数据和注释两大类。
(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。
(3)与其它数据库的连接:对于每一个登录项,有指向其它数据库的指针10. SWISS-PROT数据的来源:
(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;
(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据
11. 导致的结果:
冗余数据可能导致的潜在错误
如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大;
序列间不同部分的显著相关,在数据样本抽样时可能是有偏的和不正确的;如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离
12. 消除误差合理利用数据库:
严格、合理地构建数据库
去除污染的序列,合理地把握数据库的非冗余和冗余的标准
合理、恰当地使用数据库
结合实验研究,合理有效利用数据库
坚持实验第一原则,实践是检验真理的唯一标准
13. Entrez系统的使用
进入NCBI主页(www.ncbi.nlm.nih),即可看到位于页面上部的数据库检索栏,其缺省检索选项为核酸序列数据库All Databases,应该先选择适当的数据库,然后在检索栏中输入需要查询的内容。
14. 如何设计科研计划
资料查询资料汇总分析优劣寻找出路制定方案斗胆创新
15. 序列比较的根本任务是:
寻找序列之间的相似性辨别序列之间的差异
16. 目的:
1.相似序列:相似的结构,相似的功能
2.判别序列之间的同源性
3.推测序列之间的进化关系
17. 序列比对的基本思想,
是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位(一般用”-”来表示),以表示插入或删除(图2)来比较两个(双序列比对)或多个序列(多序列比对),使得这些序列获得最大匹配。
18. 蛋白质打分矩阵
等价矩阵
氨基酸突变代价矩阵GCM
疏水矩阵
PAM矩阵
BLOSUM矩阵
PAM矩阵
19. BLAST程序结果解读
程序名称、版本号以及文献引用出处
检索序列的名称、数据库名称;
图示主要比对结果
列出相似性值较高的序列条目,以及它们在数据库中的编号和简要说明,每个条目后面给出相似性分数值Score和期望频率值E,
以相似性分数值大小为序排列,
相似性分数越高,相似性越大;
E值则表示随机击中(匹配)其他序列的可能性,E值越大,随机匹配的可能性也越大。
最后给出检测序列和目标序列的比对结果。
20. 核酸序列分析的主要任务
预测基因的编码区
分析基因表达的调控特点
21. 分析的步骤
(1)找出序列中的非编码区
序列中载体污染的剔除
重复元件的发现
CpG岛
启动子位点
Poly-A位点
间质缔合区(Matrix association region,MAR)
转录因子结合位点
(2)找到和鉴定基因
序列的编码区(外显子)
构建基因的外显子模型
数据库相似性搜索
与模式生物基因组的同源区比对
22. 核酸序列分析应注意的问题
对真核生物序列,首先遮蔽重复序列