生物信息学复习提纲

合集下载

生物信息学期末复习资料（小字）

生物信息学期末复习资料（小字）名词解释或辨析。

1.生物信息学：生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.基因芯片：固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交，可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划：HGP，是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体（指单倍体)中所包含的30亿个碱基对组成的核苷酸序列，从而描绘人类基因组图谱，并且辨识其载有的基因及其序列，达到破译人类遗传信息的最终目的。

4.中心法则：分子生物学的基本法则，是1958年由克里克（Crick）提出的遗传信息传递的规律，包括由DNA到DNA的复制，由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现，表明还有由RNA逆转录形成DNA的机制，是对中心法则的补充和丰富。

5.相似性和同源性：相似性（similarity）和同源性（homology）是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时，他们的氨基酸或核苷酸序列通常有显著的一致性（identity）。

如果两条系列有一个共同进化的祖先，那么他们是同源的。

这里不存在同源性的程度问题，两条序列要么是同源的要么是不同源的。

1.生物信息学：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟，基因组遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

2.蛋白质组：指由一个基因组，或一个细胞、组织表达的所有蛋白质。

生物信息学重点tg

《生物信息学》复习要点红色表示为重点内容, 考试的比重较大.第一章生物信息学引论生物信息学；生物信息指哪些？contig；大规模测序的基本策略；功能基因组学；生物信息学的应用有哪些？什么事件大大促进了生物信息学的发展？（HGP）；生物信息学中最重要的贡献是什么（序列比对算法）？基因组测序完成的主要物种（如人，水稻，大肠杆菌，酵母，拟南芥，果蝇等）；我国自主产权的基因组测序有哪些?人类基因组计划的主要任务.第二章生物信息学的生物学基础碱性氨基酸和酸性氨基酸的种类；蛋白质二级结构有哪些？核苷酸序列中N表示什么？遗传密码的基本特征是什么？真核生物基因的一般结构？转录本；启动子(promoter)；EST；cDNA；内含子；外显子；UTR；TATA-box；ORF；起始密码子；终止密码子； poly(A)加尾信号；TSS；中心法则；真核生物基因表达的调控水平有哪些？*第三章生物数据库资源及其应用三大核酸数据库有哪些？蛋白质序列数据库有哪些？蛋白质结构数据库有哪些？掌握文献的PubMED检索规则；掌握核酸/蛋白质记录的检索规则；UniGene；GEO;创建最早使用最广泛的蛋白质数据库是什么？(SWISSPROT和PIR)；*第四章序列分析相似性；一致性；保守突变；同源性；序列比较的基本操作是什么？序列比较的方法有哪些？序列比较的矩阵作图法；最长公共子序列；空位罚分；打分矩阵；BLAST的全称；BLAST比对结果中图形颜色的意义以及score和E-value的含义；FASTA格式；BLAST几种工具的含义及其用途；nr数据库；EST数据库；检索某个基因序列的方法；如何通过生物信息学方法确定TSS？判断1个基因(EST)表达部位或特性的生物信息学方法有哪些?*第五章系统发生分析系统发生树；趋同进化；无根树；有根树；直系同源与旁系同源；系统发生树的构建方法种类；非加权组平均法原理；最大简约法原理；信息位点；Bootstrap；掌握非加权组平均法的构建方法；用ClustalX和MEGA软件构建进化树的流程是什么？第六章基因表达数据分析基因芯片聚类分析图中红色和绿色代表的含义*第八章电子克隆技术电子克隆（in silico cloning）；电子克隆的基本思路；电子克隆的操作步骤；电子克隆的条件是什么？判断1个基因5'端是否完整的方法； Kozak规则是什么？内含子的剪切规则？(GU..AG)其他:1)要了解BLAST的一般步骤和意义;2)了解序列分析的基本内容和意义;3)上机操作中涉及的重要网站和程序名称等（不需要记得网址）。

生物信息复习资料

生物信息复习资料生物信息复习资料生物信息学是一门综合性学科，涉及生物学、计算机科学和统计学等多个领域。

它的出现和发展，为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。

在生物信息学的学习和研究过程中，我们需要掌握一些基本的概念、技术和工具。

下面，我将为大家整理一些生物信息学的复习资料，希望能够对大家的学习有所帮助。

一、基本概念1. 生物信息学：生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。

它通过运用计算机科学和统计学的方法，挖掘和解释生物体内的基因、蛋白质等分子信息，从而揭示生物体内的生命规律和机制。

2. 基因组学：基因组学是研究生物体基因组结构、功能和演化的学科。

它通过对生物体DNA序列的测定和分析，揭示基因组的组成、基因的定位和功能等信息。

3. 蛋白质组学：蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。

它通过对生物体蛋白质的测定和分析，揭示蛋白质的组成、互作关系和功能等信息。

4. 基因表达谱：基因表达谱是指在特定条件下，生物体内基因的表达水平和模式。

通过对基因表达谱的分析，可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况，从而揭示基因的功能和调控机制。

二、常用技术和工具1. DNA测序技术：DNA测序技术是获取生物体基因组序列的重要方法。

常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。

其中，高通量测序技术如Illumina测序和Ion Torrent测序，具有高通量、高准确性和低成本的特点，广泛应用于基因组学和转录组学研究。

2. 生物信息学数据库：生物信息学数据库是存储和管理生物学数据的重要资源。

常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。

这些数据库提供了丰富的生物学数据，如基因序列、蛋白质序列、基因表达数据等，为生物信息学的研究和分析提供了基础。

生物信息学B复习要点

生物信息学B复习要点(总6页)--本页仅作为文档封面，使用时请直接删除即可----内页可以根据需求调整合适字体及大小--知识点：1.生物信息学：生物信息学是一门（交叉）学科，它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。

他综合的应用（数学）、（计算机科学）和（生物学）的各种工具，来阐明和理解大量数据中包含的生物学意义。

2. 人类基因组计划 :（human genome project,HGP）是一个国际合作项目，由美国/德国/法国/英国/日本和中国科学家共同参与。

其旨在测定组成人类染色体（指单倍体）中所包含的30亿个核苷酸序列的碱基组成，从而绘制人类基因组图谱，辨识并呈现其上的所有基因及其序列，进而破译人类遗传信息。

人类基因组计划是人类为了解自身的奥秘所迈出的重要一步，是继曼哈顿原子弹计划和阿波罗登月计划之后，人类科学史上的又一个伟大工程。

3. 一级数据库数据库：直接来源于实验获得的原始数据，只经过简单的归类整理和注释。

包括：基因组数据库，序列数据库（核酸和蛋白质）以及结构数据库。

4. 二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

5．公共序列数据库：1988 年3个数据库达成协议，组成合作联合体。

它们每天交换信息，并对数据库 DNA 序列记录的统一标准达成一致。

每个机构负责收集来自不同地理分布的数据（EMBL 负责欧洲， GenBank 负责美洲， DDBJ负责亚洲等），将所有信息汇总在一起，共同享有并向世界开放，故这 3 个数据库又被称为公共序列数据库。

6．主要核酸序列数据库: GenBank、EMBL、 DDBJ7．主要蛋白质序列数据库：Swissprot, PIR8. 蛋白质结构分类数据库包括：SCOP和CATH。

格式，又称Pearson 格式。

特点：最常用、最简单的序列注释格式命名规则：(理解即可)1、以大于号“>"起始2、标题行（ a single-line description) 位于文件的第一行，（中英均可）3、序列行随后，序列行中不允许有空间，每行文字不超过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC（International Union Of Pure And Applied Chemistry）核苷酸或氨基酸的符号5、核苷酸字符大小写均可，氨基酸字符应大写6、"-"单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用N表示，氨基酸用X表示8、氨基酸序列中“*”表示终止9、常保存为.txt文档GBFF序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

生物信息学复习大纲

复习大纲1．生物信息学引论⏹了解生物信息学在生命科学研究中的作用和地位；⏹生物信息学与基因组学之间的关系；⏹了解生物信息学的主要研究内容；⏹认识生物信息，理解静态的生物信息与动态的生物信息，理解生物分子是基本的生物信息载体，认识基因组信息的组织与奥秘；⏹掌握生物信息学的主要研究对象及其关系。

2．生物信息资源及数据库⏹了解主要的生物信息资源网站；⏹生物信息学数据库，包括核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库、基因组数据库；⏹熟悉代表性数据库。

3．数据结构及算法⏹了解常用生物信息分析的计算机方法；⏹掌握基本的数据结构；数组、列表（链表、栈、队列）、树、图⏹掌握Hash表、树、图；⏹理解算法与程序的关系；⏹掌握算法评价的方法（时空复杂度）。

4．序列两两比对 *****⏹相似序列与同源序列（直向同源，共生同源）；⏹序列的基本编辑操作和扩展操作；⏹打分函数；⏹打分矩阵（为什么要用打分矩阵？）⏹熟练掌握序列比对的点矩阵方法；⏹熟练掌握标准的基于动态规划的序列两两比对算法（反复求解两个前缀的最优比对），认识Needleman-Wunsch算法及Smith-Waterman算法与标准算法的关系；⏹了解准全局比对、连续Gap的处理方法；⏹了解相似序列比对算法的基本思想；⏹了解BLAST及其进行快速搜索的核心思想。

5．多序列比对⏹为什么不能用动态规划算法？其时空复杂度各位多少？⏹一般实现多序列比对的基本方法（转化为序列的两两比对）；⏹星型比对的基本思想；⏹树型比对的基本思想；基本过程；⏹保守序列表示的三种形式（重点：consensus, PSFM/PSSM；了解sequence Logo）。

6．基因组序列拼接⏹序列拼接的生物学背景及数学定义；⏹掌握基于覆盖图的序列拼接的基本方法；⏹理解序列拼接问题的求解过程生物学问题→数学抽象→数据结构→问题转化→算法设计→求解7. 系统发生分析⏹了解现代（分子）系统发生分析的核心思想；⏹系统发生树的表示形式；⏹基于距离的系统发生分析的基本过程；⏹掌握连锁聚类分析方法；⏹了解UPGMA与NJ这两种方法的特点，它们与连锁聚类的差别。

大学教育-医学-生信-生信复习提纲-基础16级-409

2019年基础医学专业本科生《生物信息学》复习提纲中山大学中山医学院医学信息学教研室编制基础数据库1)核酸数据库国际联盟INSDC的组成2)GenBank, ENA, DDBJ的内容特点3)1000Genomes的内容特点4)TCGA的内容特点5)UniProt的组成6)UniProtKB的内容特点7)UniProtKB_SwissProt的内容特点8)UniProtKB_TrEMBL的内容特点9)PDB的内容特点10)InterPro的内容特点11)Pfam的内容特点12)PRIDE的内容特点DNA序列变异数据库介绍概念1)DNA序列变异的定义2)认识DNA序列变异的意义3)DNA序列变异类型及其定义4)单核苷酸多态的定义，在基因组分布特点背后可能的原因5)序列转换(transitions)和颠换(transversions)的含义6)肿瘤突变特征 (Mutational Signatures)的理解数据库：7)dbSNP数据库的特点和实践操作8)dbVar数据库的特点和实践操作9)gnomAD数据库的内容特点10)疾病相关突变数据库11)OMIM数据库的特点12)MIM的数字前缀的意义13)GWAS Catalog数据库的内容特点14)ClinVar 数据库的内容特点15)HGMD数据库的内容特点16)COSMIC数据库的内容特点思考问题17)结合你对数据库了解，DNA序列变异数据库，假设想研究某疾病相关基因的重要突变，你如何从数据库中获取资料？序列比对1)同源性与相似性的区别2)直系同源与旁系同源的区别3)全局比对与局部比对的区别4)Pairwise （两序列）比对的含义5)BLAST与FASTA的使用及其优缺点6)序列比对中E值得含义7)迭代比对的含义8)PSIBLAST与PSISearch的使用9)多序列比对的含义10)Clustal Omega的使用思考问题11)如何通过序列比对鉴别短肽段？分子系统发育分析与多序列比对1)理解分子进化理论的概念和常见模式。

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学？生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么？任务：收集和管理生物分子数据；数据分析和挖掘；开放分析工具和实用软件；生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容：（1）序列比对；（2）基因预测；（3）药物设计；（4）蛋白质结构预测；（5）基因调控网络的预测；（6）蛋白质相互作用预测；（7）分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库：NCBI、ENA、DDBJ蛋白质数据库：Expasy、Uniprot蛋白质结构数据库：SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库：GO 、David、String、InAct蛋白质信号通路数据库：KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些？Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些？GenBank核酸序列数据库；UniPROT蛋白质序列数据库；PDB生物大分子结构数据库；6.Genbank格式与FASTA格式Genbank序列以10个为一组，在序列上标注碱基或者氨基酸残基数，查找和检索方便FASTA格式序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。

通常核苷酸符号大小写均可，而氨基酸一般用大写字母，文件中和每一行都不要超过80个字符（通常60个字符）7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比，直接比较核酸序列的同源性。

生物信息学复习资料

生物信息学复习资料第一章1、什么是生物信息学？生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的？林华安3、生物信息学的发展经过了哪些阶段？前基因组时代、基因组时代、后基因组时代4、HGP是什么意思？什么时候开始？什么时候全部结束？人类基因组计划、1990.10、20035、生物信息学的研究对象是什么？6、生物信息学的研究内容有哪些？获取人和各种生物的完整基因组、新基因的发现、SNP分析（单核苷酸多态性：single nucleotide polymorphism,SNP）、非编码区信息结构与分析、生物进化；全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么？阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求？时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级，每一级是如何让定义的，每一级各包含哪些数据库？一级数据库二级数据库；一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库：包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库：根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。

网站：NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库：EMBL、DDBJ、GenBank蛋白质序列数据库：PIR（Protein Information Resource）、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库：PDB（Protein Data Bank）蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么？NCBI提取工具：Entrez EBI提取工具：SRS65、GENBANK使用的基本信息单位是什么，包括哪几个部分，最后以什么字符结尾？基本信息单位：GBFF（GenBank flatfile, GenBank平面文件）格式：GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一哪几个部分：头部包含整个记录的信息（描述符）、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符：所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq？The Reference Sequence database 参考序列数据库RefSeq数据库，即RefSeq参考序列数据库，美国国家生物信息技术中心（NCBI）提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成，以什么字符开始？8.NCBI的在线和离线序列提交软件是什么？在线提交软件：Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源？同源性和相似性有什么区别？同源性：两条序列有一个共同的进化祖先，那么它们是同源的相似性：序列间相似性的量度同源性和相似性的区别：同源性是序列同源或者不同源的一种论断，而相似性或者一致性是一个序列相关性的量化，是两个不同的概念直系同源（orthology）：不同物种内的同源序列旁系同源（paralogy）：同一物种内的同源序列2、什么是序列比对、全局比对、局部比对？序列比对的关键问题是什么？序列比对：根据特定的计分规则，将两个或多个符号序列按位置比较排列后，得到最具相似性的排列的过程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学（4/6）HGP，类基因组计划（Human Genome Project）遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。

物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。

转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。

生物信息学：采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科结构生物学是以生物大分子特定空间结构、结构的特定运动与生物学功能的关系为基础，来阐明生命现象及其应用的科学。

系统发生（phylogeny）——是指生物形成或进化的历史系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;系统发生树（phylogenetic tree）——表示形式，描述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等等) 之间进化关系（系统发生树: 物种(遗传特征)之间的关系;进化树: 从低等到高等, 有始有终）EST：大量表达序列标签（Expressed Sequence Tag，EST）SSR：简单重复序列（SSR，simple sequenee Respts），也称作微卫星DNA (Mierosatellite DNA)是指一类由几个（多为1-6个）碱基组成的基元串联重复而成的DNA序列，在染色体上呈随机分布，由于重复次数不同及重复程度的不完全而造成了每个座位的多态性。

SNP：单核苷酸多态性PDB：蛋白质数据库（Protein Data Bank,PDB）▲生物信息学主要研究两种信息载体：DNA分子、蛋白质分子▲生物信息学研究的内容：课本上版本PPt简化版本1.生物信息的收集、储存、管理与提供2.基因组序列信息的提取和分析3.功能基因组分析4.生物分子设计5.药物设计6.生物信息分析的技术与方法研究7.应用于发展研究8.系统生物学研究1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测▲生物信息学之父：马来西亚的美籍学者林华安（Hwa A. Lim，林博士）▲生物信息学的热点领域：1.人类基因组计划2.人类蛋白质组计划3.新药开发中的应用 4.基因芯片5.生物信息学与医学▲生物分子信息的特征：生物分子信息数据量大、生物分子信息复杂、生物分子信息之间存在着密切的联系▲Linux系统的主要特征：开放性、多用户、多任务。

▲主要数据库有：基因组数据库（EMBL、GenBank、DDBJ）、蛋白质序列数据库（SWISS-PROT、PIR）、蛋白质结构数据库（PDB）▲目前对基因表达数据的处理主要是进行聚类分析，将表达模式相似的基因聚为一类，在此基础上寻找相关基因，分析基因的功能▲蛋白质的生物功能由蛋白质的结构所决定，蛋白质结构预测是了解蛋白质功能的重要途径▲蛋白质结构预测分为:二级结构预测、空间结构预测▲复杂结构分析方法：X射线晶体结构分析、多维核磁共振（NMR）波谱分析和电子显微镜二维晶体三维重构（电子晶体学，EC）等物理方法▲起始密码子：AUG 终止密码子：UAA AUG UGA (与启动子和终止子区别清楚，顺便UTR、ORF、顺式作用元件等基因上的名词也需要明白是什么东西)▲生物信息学研究的意义：1）认识生物本质。

了解生物分子信息的组织和结构，破译基因组信息，阐明生物信息之间的关系2）改变生物学的研究方式。

改变传统研究方式，引进现代信息学方法3）在医学上的重要意义。

为疾病的诊断和治疗提供依据；为设计新药提供依据▲基因组测序的基本策略有哪些？什么叫contig？逐个克隆法、全基因组鸟枪法、Contig（重叠群，基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段）▲什么事件大大促进了生物信息学的发展——人类基因组计划▲生物信息学中最重要的贡献是什么？Needleman和Wunsch提出了著名的序列比对算法，是生物信息学发展中最重要的贡献▲DNA序列分析可大体分为两类：（1）测序DNA序列分析；（2）特定DNA序列分析。

后者内容一般包括：DNA碱基组成、密码子偏向性、内部重复序列、酶切位点、编码区分析、二级结构预测等，但不局限于这些内容。

（可以回忆下大作业做的时候分析了哪些东西）▲一般地，单次测序的正确率在500bp左右▲PCR技术优点：特异、灵敏、产率高、快速、简便、重复性好、易自动化…▲引物设计原则：1.引物与模板的序列要紧密互补（近延长方向的必须互补）2.引物与引物之间避免形成稳定的二聚体或发夹结构3.引物不能在模板的非目的位点引发DNA聚合反应（即错配）（详细限制性条件见P31）▲电子克隆基本过程：1.将待分析核酸序列（或蛋白序列，称为种子序列）用blast软件搜索GenBank的EST数据库，选择与之具有较高一致性的EST序列（称匹配序列）。

2.将匹配序列与种子序列装配产生新生序列，此过程称为片断重叠群分析（Contig Analysis）。

（如果种子序列不是核酸，则不必拼装新序列）3.以新生序列作为种子序列重复上述过程，直至没有新的匹配序列入选，从而生成最后的新生序列，作为对种子序列的延伸产物。

4.对延伸产物进行ORF分析，确定cDNA的完整性。

▲ORF可靠性验证——Kozak规则：1）第4位的偏好碱基为G2）ATG的5’端约15bp范围内的侧翼序列内不含碱基T3）在第3、6、9位，G为偏好碱基4）除3、6、9位，在整个侧翼序列区中，C为偏好碱基（以上条件不需要全部满足，一般满足前两项即可）▲真核基因启动子在-25～-35区含有TATA序列，在-70～-80区含有CCAAT序列，在-80～-110区含有GCCACACCC或GGGCGGG序列。

▲蛋白质序列分析主要内容蛋白质序列分析蛋白质一级序列蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测卷曲螺旋预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质分类蛋白质家族分析▲不稳定系数>40则为稳定蛋白，否则为不稳定蛋白▲同源建模评价1.拉氏图：前三项（核心区+允许区+最大允许区）之和大于95%即可2. ERRA T: 计算0.35 nm范围之内，不同原子类型对之间形成的非键相互作用的数目（侧链）。

得分＞85比较好。

▲结构生物学以生物大分子三级结构的确定作为手段，研究生物大分子的结构与功能关系，探讨生物大分子的作用机制和原理作为研究目的。

▲蛋白质结构预测方法：同源建模，折叠识别和从头计算▲同源建模基本原理：1、一个蛋白质的结构由其氨基酸序列唯一的决定。

由一级结构，在理论上，足以获取其二级、三级结构。

2、三级结构的保守型远远大于一级结构的保守型。

☆应用限制：模板蛋白和目标蛋白的序列一致性需要大于30%▲同源建模步骤:1、模板蛋白搜索PDB数据库、BLAST(或PSI-BLAST) 、获取模板（一个或多个）2、比对结果的校正3、主链生成4、环区建模5、模型优化6、合理性检测▲系统发生树构建基本原理:从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.▲直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的，可能功能相同。

旁系同源(paralogs): 同源的基因是由于基因复制产生的，可能具有不同的功能。

这两个概念代表了两个不同的进化事件，而用于分子进化分析中的序列必须是直系同源的，才能真实反映进化过程。

▲祖先类群(ancestral group):如果一个类群（物种）至少有一个子裔群，这个原始的类群就称为祖先类群单系类群（monophyletic group）包含一个祖先类群所有子裔的群组称为单系类群，其成员间存在共同祖先关系并系类群（paraphyletic group）和复系类群(polyphyletic group)：不满足单系类群要求，各成员间又具有共同祖先特征的群组称为并系类群；各成员不具有共同衍生特征也不具有共同祖先特征，只具有同型特征的分类群组称为复系类群内类群（ingroup）：一项研究所涉及的某一特定类群可称为内类群外类群（outgroup）：不包含在内类群中又与之有一定关系的类群，为了比较内类群中各成员的特征差异．姊妹群（sister group）：与某一类群在谱系关系上最为密切的类群称为姊妹群，是单系类群的一种常见类型▲常用系统进化树构建方法NJ 邻接法(neighbour joining)——平均距离大于1.0则不适用NJ法MP 最大简约法(maximal parsimony)ML 最大似然法(maximal likelihood)BI贝叶斯法▲对于一个完整的进化树分析首先需要对所分析的多序列目标进行排列▲Ka,Ks的作用和意义（不知道考不考,了解下，估摸着不会那么难）Ks = 同义突变SNP数/同义位点数 Ka = 非同义突变SNP数/非同义位点数Ka>>Ks或者Ka/Ks >> 1，基因受正选择(positive selection)Ka＝Ks或者Ka/Ks ＝1，基因中性进化(neutral evolution)Ka<<Ks或者Ka/Ks << 1，基因受纯化选择(purify selection)检测序列的功能性（funcional or pseudo）筛选正在快速进化的基因（rapid evolution）▲RNA功能：1.控制蛋白质的合成2.RNA转录后的加工与修饰3.生物催化及其他持家功能4.调控功能5.控制发育6.调控X染色体的活性7.参与端粒RNA的合成8.对细胞分泌的作用9.转运功能（P182）▲RNA二级结构的表示方法：圆形表示法、平面图表示法、山峰图表示法、点状图表示法▲RNA二级结构元件是由配对碱基或为配对碱基之间形成的具有双螺旋、凸环、内部环和发夹环等结构特征单元，是构成RNA高级结构的基本单位。

▲siRNA设计原则与步骤见P193（大题高概率）▲关于测序技术再回顾一下，原理需要了解下。