生物信息学重点

合集下载

博士后生生物学生物信息学知识点归纳总结

博士后生生物学生物信息学知识点归纳总结生物信息学是生物学与信息学的交叉学科，研究如何应用信息技术和计算机科学来处理生物学的大数据和解决生物学问题。

作为一个博士后生物学研究者，了解生物信息学的基本知识点至关重要。

本文将对生物信息学的一些重要知识点进行归纳总结，以供参考。

基本概念1. 生物信息学：生物学与信息学的交叉学科，研究如何应用信息技术和计算机科学来处理生物学的大数据和解决生物学问题。

2. 生物学数据库：收集、存储和管理生物学数据的电子资源，如基因组数据库、蛋白质数据库等。

3. 序列分析：研究DNA、RNA或蛋白质的序列特征，如序列比对、同源性分析、起始子和剪接位点预测等。

4. 结构分析：研究蛋白质的三维结构特征，如蛋白质折叠预测、蛋白质结构比对、结构域识别等。

生物序列分析1. 序列比对：将两个或多个序列进行比对，寻找相同或相似的区域，并分析其功能和进化关系。

2. 序列分类：通过比对已知序列进行分类，如BLAST (Basic Local Alignment Search Tool) 分析。

3. 同源性分析：鉴定不同物种或同一物种的不同序列中的相同区域，例如保守结构域的识别。

4. 基因预测：根据DNA序列，预测其中的基因区域和基因结构，如编码蛋白质的氨基酸序列。

生物结构分析1. 蛋白质折叠预测：根据蛋白质的氨基酸序列，预测其三维结构，有助于理解蛋白质的功能。

2. 蛋白质结构比对：将两个或多个蛋白质的三维结构进行比对，以分析其结构、功能和进化关系。

3. 动力学模拟：使用计算方法对蛋白质和其他生物大分子进行模拟，研究其结构和运动特性。

4. 蛋白质结构域识别：识别蛋白质中独立的功能模块，有助于理解蛋白质的功能和相互作用。

5. 蛋白质互作网络：分析蛋白质相互作用网络，研究生物体内蛋白质的相互作用和信号传递。

基因组学与转录组学1. 基因组测序：对生物体的基因组进行高通量测序，生成大量的DNA序列数据，如全基因组测序和全外显子组测序。

生物学中的生物信息学知识点

生物学中的生物信息学知识点生物信息学是生物学和信息学的交叉学科，将计算机科学、统计学和数学等方法应用于生物学的研究中，以解决生物大数据处理、基因组学、蛋白质组学和生物信息分析等领域的问题。

下面将介绍生物信息学的几个重要知识点。

1. DNA、RNA和蛋白质序列分析DNA、RNA和蛋白质是生物体中三种重要的生物分子，它们的序列信息对于理解生物体的功能和进化有着重要意义。

生物信息学通过各种序列分析方法，如序列比对、序列搜索和序列模式识别，可以揭示DNA、RNA和蛋白质的结构、功能和相互作用等信息。

2. 基因组学和转录组学基因组学是研究生物体基因组的结构和功能的学科。

生物信息学在基因组学领域中发挥着关键作用，能够进行基因组测序、基因注释和基因调控网络的分析。

转录组学是研究生物体基因在特定的时间和空间上的表达模式和调控机制的学科，生物信息学可通过基于高通量测序技术的转录组数据分析，揭示基因表达的规律和调控网络。

3. 蛋白质结构预测和功能注释蛋白质是生物体中最重要的功能分子，其结构与功能密切相关。

通过生物信息学方法，如蛋白质结构预测和功能注释，可以推测蛋白质的结构和功能。

这对于理解蛋白质的生物学功能、药物设计和疾病的研究具有重要意义。

4. 基因调控网络分析生物体内的基因调控网络是复杂的，涉及到多个基因和调控元件的相互作用。

生物信息学可以通过整合转录组、表观基因组学和蛋白质互作数据等信息，构建和分析基因调控网络，揭示基因调控的机制和关键节点。

5. 生物序列和结构数据库为了方便生物信息学研究者进行序列和结构信息的存储和检索，建立了多个公共数据库，如GenBank、Uniprot和PDB等。

这些数据库包含了大量的生物序列和结构数据，为生物信息学研究提供了重要的资源。

6. 高通量测序技术及其数据分析高通量测序技术的出现使得获取生物序列信息的速度大大提高。

生物信息学通过批量处理和分析测序数据，揭示基因组的结构、功能和进化信息。

生物信息学复习重点

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。

生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。

从生物分子获得和挖掘深层次生物学知识。

人类基因组计划(HGP：获得遗传图、物理图、序列图、转录图；终极目标：阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。

其中我国承担了人类3 号染色体短臂。

记录：一个数据库记录一般由两部分组成：原始序列数据和描述这些数据生物学信息的注释。

冗余：在一个数据库存在着多个相同的项，如两个或者更多的记录中有一个相同序列Fasta 格式开始于一个标识符：">" ，然后是一行描述。

GenBank格式：每个基因描述可有多个描述行，包含一行以LOUCU开头描述行，基因序列以ORIGN开头，以/结尾。

EMBL入口标识符ID，序列开始标识符SQ结束是/。

数据库的特点：①数据库是可以检索的，即具有检索功能；②数据库应该是定时更新的，即不断有新版内容发布；③数据库是交叉引用的，特别是在互联网时代，数据库应该通过超链接与其他数据库相连。

EST序列：表达序列标签对cDNA文库测序得到的，是转录的DNA序列。

STS序列：序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。

STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列，用于产生作图位点。

GSS序列：基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。

HTG序列：高通量基因组序列三大数据库：NCBI(GenBank)：美国生物技术中心，建立了一系列生物信息数据和各种服务。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

生物信息学基本概念(重点名词解释)

生物信息学基本概念（重点名词解释）什么是高通量测序？高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

什么是Sanger法测序（一代测序）?Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。

直到掺入一种链终止核苷酸为止。

每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。

由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。

终止点由反应中相应的双脱氧而定。

每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

什么是基因组重测序（Genome Re-sequencing）?全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。

随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。

通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

什么是de novo测序?de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息(bioinformation)学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

生物信息学的基本概念和技术

生物信息学的基本概念和技术生物信息学是他卫生医疗、农业种植、环境保护等方面的一个新兴学科，是应用计算机科学、统计学和生物学等知识，研究生物的基因、蛋白质、基因组和表达及其相关信息的一个综合性、交叉性学科。

生物信息学的主要研究内容包括基因组学、转录组学、蛋白质组学、代谢组学等。

本文将重点对生物信息学的基本概念和技术进行介绍。

一、生物信息学的基本概念1. 基因组学基因组学是生物信息学的一个重要分支，是研究生物基因组组成以及基因组结构和功能的学科。

基因组是指定义生物遗传信息总体的基因及其调控区域，包括DNA的全套本体以及其中有关基因编码的蛋白质和RNA的信息。

基因组学主要包括基因序列测定、基因变异的检测和鉴定、基因调控区域的研究等。

2. 转录组学转录组学研究的是细胞或者组织细胞内所有基因的信息表达模式和规律，包括轻量级、重量级RNA的结构、功能和表达差异。

转录组学的研究方法包括基于RNA测序技术的定量和基因表达分析、转录因子分析、芯片技术等。

3. 蛋白质组学蛋白质组学是以蛋白质为研究对象，探讨蛋白质的种类、品质和数量，以及其在细胞和生物体内的作用、相互作用等问题。

蛋白质组学主要包括蛋白质质谱学、二维电泳技术等。

4. 代谢组学代谢组学是指在全体生物组织和细胞水平上，系统地研究代谢产物谱、代谢途径、代谢物代谢酶和代谢控制等方面的科学。

代谢组学是从代谢物的角度来理解生物体的状态，代谢组学主要采用高通量技术，如质谱分析，核磁共振（NMR）技术等。

二、生物信息学的技术1. DNA测序技术DNA测序是分析DNA序列的基础技术，是基因组和转录组学、蛋白质组学和代谢组学研究的重要前提。

DNA测序的技术不断更新，测序平台主要分为第二代和第三代测序技术，其中第二代测序技术是基于测量表明目标分子序列的合成以及检测分子中不同碱基的不同光学或电性质的方法，而第三代测序技术是通过读取单个分子的序列，并识别单个核苷酸以测定DNA序列。

生物信息学重点

⽣物信息学重点⼀、名解1.⽣物信息学：（狭义）专指应⽤信息技术储存和分析基因组测序所产⽣的分⼦序列及其相关数据的学科；（⼴义）指⽣命科学与数学、计算机科学和信息科学等交汇融合所形成的⼀门交叉学科。

2.⼈类基因组测序计划：3基因组学：以基因组分析为⼿段，研究基因组的结构组成、时序表达模式和功能，并提供有关⽣物物种及其细胞功能的进化信息。

p1504基因组：是指⼀个⽣物体、细胞器或病毒的整套基因。

p1505.⽐较基因组学：是指基因组学与⽣物信息学的⼀个重要分⽀。

通过模式⽣物基因组之间或模式⽣物基因组与⼈类基因组之间的⽐较与鉴别，可以为研究⽣物进化和分离⼈类遗传病的候选基因以及预测新的基因功能提供依据。

p1666功能基因组：表达⼀定功能的全部基因所组成的DNA序列，包括编码基因和调控基因。

功能基因组学：利⽤结构基因组学研究所得的各种来源的信息，建⽴与发展各种技术和实验模型来测定基因及基因组⾮编码序列的⽣物学功能。

7蛋⽩质组：是指⼀个基因组中各个基因编码产⽣的蛋⽩质的总体，即⼀个基因组的全部蛋⽩产物及其表达情况。

p1798蛋⽩质组学：指应⽤各种技术⼿段来研究蛋⽩质组的⼀门新兴科学，其⽬的是从整体的⾓度分析细胞内动态变化的蛋⽩质组成成分、表达⽔平与修饰状态，了解蛋⽩质之间的相互作⽤与联系，揭⽰蛋⽩质功能与细胞⽣命活动规律。

9功能蛋⽩质组学：（功能蛋⽩质组，即细胞在⼀定阶段或与某⼀⽣理现象相关的所有蛋⽩）。

10序列对位排列：通过插⼊间隔的⽅法使不同长度的序列对齐，达到长度⼀致。

11 基因组作图：是确定界标或基因在构成基因组的每条染⾊体上的位置，以及同条染⾊体上各个界标或基因之间的相对距离。

p15512 后基因组时代：其标志是⼤规模基因组分析、蛋⽩质组分析以及各种数据的⽐较和整合。

p3⼆填空题1⽣物信息学的发展⼤致经历了3个阶段，分别为前基因组时代、基因组时代、后基因组时代。

p22后基因组时代的标志性⼯作是（基因组分析）（蛋⽩质组分析）以及（各种数据的⽐较和整合）p33前基因组时代的标志性⼯作是⽣物数据库的建⽴、检索⼯具的开发以及DNA和蛋⽩质的序列分析p2 4基因组时代的标志性⼯作是（基因寻找和识别）（⽹络数据库系统的建⽴）以及（交互界⾯的开发）p2 5 ⼈类基因组计划的⽬标是完成四张图，分别是（遗传图谱）（物理图谱）（序列图谱）和（基因图谱）5 HGP由六个国家完成，我国完成了HGP的（1%，即３号染⾊体上3000万个碱基）的测序⼯作。

生物信息学研究的重点及未来展望

生物信息学研究的重点及未来展望生物信息学是近年来快速发展的学科之一，它将计算机技术应用于生物学领域，为生物学研究提供了一个新的角度和方法。

生物信息学可用于研究生物信息的收集、分析、存储、传输和管理，为生物学家提供了有效而全面的工具。

本文将探讨生物信息学研究的重点和未来展望。

一、生物信息学的研究重点（1）基因组学基因组学研究生物的基因组结构和基因组数据的分析。

基因组学的目标是确定细胞、病理学和进化基因组的组成、顺序和互作模式。

生物信息学在基因组学中的应用有：基于DNA序列比对的各种数据分析、预测和注释工具的设计和运用，如基因寻找、基因结构预测、基因重编码、引物设计、遗传计图制图等。

还可研究生物基因组中的单核苷酸多态性和单基因突变等。

（2）蛋白质组学蛋白质组学研究蛋白质的产生、表达、修饰、定位、互作和功能。

蛋白质质谱学技术是蛋白质组学的关键技术，可用于确定蛋白质种类和含量、识别蛋白质质量、分析蛋白质结构和特性等。

生物信息学在蛋白质组学中的应用主要包括：蛋白质序列识别、结构预测、动态域注释、基础蛋白质互作和复合物分析等。

（3）结构生物学结构生物学研究蛋白质、核酸和复合物的分子结构和功能，提供在药物研发中的重要信息。

生物信息学在结构生物学中的应用包括：蛋白质结构预测和模拟、基于结构的药物设计、3D可视化等。

（4）生物信息系统生物信息系统研究通过整合信息和数据流的不同来源，为生物学家提供生成、存储、共享和管理生物信息的新方法，并把这些信息加以整合以研究生物系统的疾病和功能等。

生物信息学在生物信息系统中的应用有：数据挖掘、数据标准化、数据库设计、数据流转和系统分析等。

（5）表观遗传学表观遗传学研究基因表达的调控及其与环境的相互作用，特别是生命特征及其遗传素材在发育生物中的表现。

生物信息学在表观遗传学中的应用有：基因组和表观基因组学的平台操作、分析和可视化工具的开发和布署等。

（6）系统生物学系统生物学是一种以整体、动态和系统的方式来研究生物学的学科，它致力于深入研究基因、蛋白质和代谢通路等生物大分子的互作和网络调控。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

序和实际距离排列的图谱。以定位的DNA标记序列如序列标签位点STS作为路标，以DNA实际长度即bp、kb、Mb为图距的基因组图谱。 • 8. 转录图谱以EST（expressed sequence tag ，表达序列标签）为标记，根据转录顺序的位置和距离绘制的图谱。 • 9. 序列图谱（分子水平的物理图谱）
• 6. 遗传图谱（Genetic map）又称连锁图谱（linkage map)或遗传连锁图谱(genetic linkage map) ，是指人类基因组内基因以及专一的多态性DNA标记(marker)相对位置的图谱，其研究经历了从经典的遗传图谱到现代遗传图谱的过程。
• 7. 物理图谱（Physical map） • 用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺
Genbank EMBL }---------------fasta格式 DDBJ 4 EBI欧洲生物信息研究所 SIB是瑞士的 5 Uniprot 特点
• 高质量 • 更新速度快 • 与其他数据库联系密切 • 使用快捷方便 • 分析工具齐全 6 结构数据库 PDB数据库：1971年建立于美国布鲁海克海文国家实验室。该数据库中收集了通过X射线衍射和核磁共振（NMR）试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。该数据库的管理者是结构生物信息学合作研究组织（Research Collaboration for Structural Bioinformatics， RCSB ） MMDB: 分子模型数据库 — 一个关于三维生物分子结构的数据库，结构来自于 X-ray 晶体衍射和 NMR 色谱分析 7 基因组结构数据库：
列逐一比对。
核酸序列6框翻译成蛋白质序
TBlastx 核酸
核酸
列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐
一进行比对。
17 克隆法：大片段contig 小片段测序拼装
有特异性的分子路标，拼接准确，错误少，但为确定分子路标而构
建图谱相当耗时。
全基因组鸟枪法：小片段测序计算机拼装
优点:不需预先了解任何基因组的情况
待填补的缺口，一是没有相应模板DNA的物理缺口，二是有模板 DNA但未测序的序列缺口。他们建立了插入片段为15-20kb的λ文库以备缺口填补。（只写红字内容即可）鸟枪法测序的缺点 1、随着所测基因组总量增大，所需测序的片段大量增加。 2、高等真核生物（如人类）基因组中有大量重复序列，导致判断失误。
NCBI UCSC ensemble 8 1986年1月29 日, 里根总统签署了一项声明,宣布1986年为美国国立医学图书馆150 周年纪念年。 9 Pubmed: MEDLINE PreMEDLINE Publisher supplied citations PubMed的特点
• 自动词语匹配 • 链接点多，部分在网上免费获得全文 • 也可以直接定购原文 10 MeSH是Medical Subject Headings的缩略词，即医学主题词，是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定，浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词，其中论述文献中心的主题词称主要主题词（major topic headings），论述主题某一方面的内容的词称为副主题词。短语检索: 如果在短语上加双引号，将不执行转换功能例如： “single cell” 布尔逻辑运算： AND、OR、NOT必须大写比如“single cell” AND “Vitamin C” 截词检索：* 例：输入bacter*，检出bacteria、bacterium等备注：将不执行转换功能；截词检索只限于单词，对词组无效， 11 NCBI功能：检索文献检索序列比对序列 12 High-Throughput Genomic Sequence (HTGS) 高通量基因组测序结果 Whole Genome Shotgun Sequences (WGS) 全基因组鸟枪法序列 EST：表达序列标签 STS：序列标签位点 GSS：基因组短序列 13 Dayhoff被称作生物信息学之父或许更合适。 14 PAM模型可用于寻找蛋白质的进化起源 BLOSUM模型则用于发现蛋白质的保守域 15 BLAST概念：(基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序
16 程序名查询序数据搜索方法
列
库
Blastn 核酸
核酸
核酸序列搜索逐一核酸数据库中的序列
Blastp
蛋白质
蛋白质
蛋白质序列搜索逐一蛋白质数据库中的序列
Blastx 核酸
蛋白质
核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的
Tblastn 蛋白质核酸核酸序列6框翻译后的蛋白质序
缺点:容易错误装配
18 2001年2月，文特尔小组所做的人类基因组测序报告发表在《科
学》杂志上
科林斯带领的公共资金支持的实验室联合体的报告同时发表在
《自然》杂志上
名词翻译：
• STS：序列标签位点 • EST：表达序列标签 • ORTHOLOGS：直系同源 • PARALOGS:旁系同源 • CDS：编码序列 • EXON：外显子 • ORF：开放阅读框 • PHI-BLAST：模式识别BLAST • PSI-BLAST：位置特异的迭代BLAST • SNP:单核苷酸多态性
生物信息学重点
1 生物信息学概念：生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。一是对海量数据的收集、整理与服务，也就是管好这些数据。另一个是从中发现新的规律，也是用好这些数据。 2 生物信息学数据库分类：一次数据库;二次数据库序列数据库：DNA序列和蛋白质序列；结构数据库：蛋白质结构；基因组数据库：人类基因组以及其他动物基因组。二次数据库比一次多一个文献数据库（专家库） 3序列数据库： NCBI EMBL DDBJ 检索系统： Entrze检索系统：NCBI SRS检索系统：EMBL、DDBJ 数据格式：
序列图谱是指整个人类基因组的核苷酸序列图，也是最详尽的物理图谱, 既包括可转录序列，也包括非转录序列，是转录序列、调节序列和功能未知序列的总和。
• 10.旁系同源用来描述在同一物种内由于基因复制而分离的同源基因。也可译作并系同源、横向同源。旁系同源体常见于同一物种，但也不是绝对如此。例如鼠的a球蛋白和b球蛋白基因是paralog；并且，鼠的a球蛋白和鸡的b球蛋白基因的关系也是paralog 简答题一什么是生物信息学？
• 生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。
• 1）基因组相关信息的收集、储存、管理与提供 • 2）新基因的发现与鉴定 • 3）非编码区信息结构分析 • 4）生物进化的研究 • 5）完整基因组的比较研究 • 6）基因组信息分析的方法研究 • 7）大规模基因功能表达谱的分析 • 8）蛋白质分子空间结构的预测、模拟和分子设计 • 9）药物设计二 PubMed检索的四个主要特点？ • 1）支持词汇自动转换 • 2）支持词组检索（需要加引号） • 3）支持布尔逻辑运算 • 4）支持截词检索三全基因组鸟枪法测序的步骤，鸟枪法测序的特点？全基因组鸟枪法测序的主要步骤是：第一，建立高度克隆片段的碱基总数应达到基因组5倍完成流感嗜血杆菌的基因组时，使用了14台测序仪，用三个月时间完成了必需的28,463个测序反应，测序总长度达6倍基因组。第三，序列集合。TIGR发展了新的软件，修改了序列集合规则以最大限度地排除错误的连锁匹配。第四，填补缺口。有两种
• 直系同源： Orthologs是指来自于不同物种的由垂直家系（物种形成）进化
而来的蛋白，并且典型的保留与原始蛋白有相同的功能。 • 序列模体（motif）：通常指蛋白序列中相邻或相近的一组具有保守性的残基，与蛋白质
分子及家族的功能有关。 • 计分矩阵（scoring matrix）：
记分矩阵是描述残基（氨基酸或碱基）在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数，一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中，一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。
名词解释 • Fasta格式：
FASTA格式又称Pearson的格式，该种序列格式要求序列的标题行以大于号">"开头，下一行起为具体的序列。一般建议每行的字符数不超过80个，以比对程序的处理。
• 医学主题词MeSH 是Medical Subject Headings的缩略词，即医学主题词，是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定，浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词，其中论述文献中心的主题词称主要主题词（major topic headings），论述主题某一方面的内容的词称为副主题词。