生物信息学考试整理

合集下载

大学生生物信息学考试模拟题及解析

大学生生物信息学考试模拟题及解析一、单选题（每题 3 分，共 30 分）1、生物信息学中，用于分析 DNA 序列的常见软件是（）A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息（）A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中，开放阅读框（ORF）是指（）A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时，常用的构建进化树的方法是（）A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对（）A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中，用于分析基因表达数据的常用方法是（）A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式（）A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中，用于预测蛋白质二级结构的方法是（）A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时，常用的数据库是（）A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序（）A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析：1、答案：A解析：BLAST（Basic Local Alignment Search Tool）是用于比较生物序列相似性的工具，常用于分析 DNA 序列。

ClustalW 主要用于多序列比对；Primer Premier 常用于设计引物；MEGA 用于构建进化树。

2、答案：B解析：PDB（Protein Data Bank）是主要存储蛋白质结构信息的数据库。

GenBank 主要存储核酸序列；UniProt 和 SWISSPROT 主要存储蛋白质序列信息。

生物信息学复习题

生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科，它利用计算机技术来处理和分析生物数据。

以下是一些生物信息学复习题，供同学们参考：1. 生物信息学的定义和应用领域- 生物信息学是如何定义的？- 生物信息学在哪些领域有应用？2. 基因组学基础- 什么是基因组学？- 基因组测序的基本原理是什么？3. 序列比对- 序列比对的目的是什么？- 简述局部比对和全局比对的区别。

4. BLAST算法- BLAST算法的原理是什么？- 如何使用BLAST进行序列相似性搜索？5. 基因表达数据分析- 基因表达数据有哪些类型？- 描述基因表达数据的预处理步骤。

6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么？- 简述几种常见的蛋白质结构预测方法。

7. 系统生物学和网络分析- 系统生物学研究的是什么？- 网络分析在系统生物学中的应用。

8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。

- 解释数据库在生物信息学研究中的作用。

9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用？- 简述Python在生物信息学中的应用。

10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题？- 如何保护生物信息数据的隐私？11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。

- 分析该案例中使用的方法和技术。

12. 未来趋势- 预测生物信息学未来的发展趋势。

- 讨论生物信息学如何影响未来的科学研究和医疗保健。

通过这些问题的复习，同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。

希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

生物信息学试题

生物信息学试题一、选择题1. 生物信息学主要研究的是：A. 生物实验技术B. 生物统计学C. 生物大数据分析与计算D. 生物体内生化反应2. 在生物信息学中，常用的序列比对工具是：A. BLASTB. PCRC. ELISAD. SDS-PAGE3. 下列哪个数据库主要用于存储核酸序列信息？A. PDBB. GenBankC. UniProtD. KEGG4. 以下哪种方法不是用于蛋白质结构预测的？A. 同源建模B. 折叠识别C. 从头预测D. 实验测定5. 生物信息学中的“基因家族”是指：A. 一组具有相似序列和功能的基因B. 一组来自同一物种的基因C. 一组通过基因复制产生的基因D. 一组控制同一生物过程的基因二、简答题1. 简述生物信息学在现代医学研究中的应用。

2. 描述PCR技术的原理及其在分子生物学中的重要性。

3. 解释什么是基因编辑技术，以及CRISPR-Cas9系统是如何工作的。

三、论述题1. 论述生物信息学在新药发现和开发中的作用。

2. 分析比较RNA测序技术与DNA测序技术的优势和局限性。

四、计算题1. 给定一个DNA序列：“ATGCGATACCTGAGCTG”，计算其碱基组成的比例。

2. 假设某种生物的基因组大小为200 Mb，每个碱基对的平均质量为650 Da，计算该基因组的大致质量。

五、案例分析题1. 根据给定的某种疾病的基因组数据，分析可能的致病基因，并讨论其可能的生物机制。

2. 通过分析某物种的转录组数据，探讨其在特定环境下的适应性变化。

请注意，以上试题仅供参考，具体题目应根据实际教学大纲和考试要求进行调整。

在实际考试中，题目可能会包含更多的细节和复杂性，要求考生具备扎实的生物信息学知识和分析能力。

生物信息技术考试试题

生物信息技术考试试题一、选择题（每题 3 分，共 30 分）1、以下哪个不是生物信息学的主要研究内容？（）A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是（）A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中，常用的标准化方法是（）A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息？（）A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时，常用的构建进化树的方法是（）A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的？（）A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中，预测蛋白质二级结构的方法不包括（）A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中，BLAST 程序主要用于（）A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛？（）A JavaB PythonC C+＋D Fortran10、用于分析基因芯片数据的软件包是（）A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题（每题 3 分，共 30 分）1、生物信息学中的三大核心数据库是_____、＿____、＿____。

2、基因序列的相似性搜索常用的工具是_____。

3、蛋白质的一级结构是指_____。

4、常见的基因注释数据库有_____、＿____等。

5、系统发育树的构建基于_____的原理。

6、生物信息学中常用的数据格式有_____、＿____等。

7、预测蛋白质三级结构的方法主要有_____、＿____。

8、基因表达数据的差异分析常用的方法有_____、＿____。

9、用于分析高通量测序数据的软件有_____、＿____。

生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题（每题5分，共20题）1. 生物信息学的定义是什么？A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案：B2. 以下哪个是常用的生物信息学数据库？A. NCBIB. C++C. DNAD. Photosynthesis答案：A3. 在DNA序列中，碱基A配对的是？A. TB. CC. GD. U答案：A4. 以下哪个是生物信息学中常用的序列比对算法？A. BLASTB. MATLABC. PCRD. ELISA答案：A5. 基因组学是研究什么的科学？A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案：C6. 哪种技术可用于测定DNA序列？A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案：C7. 生物信息学中的序列模拟是指什么？A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案：A8. 以下哪个是生物信息学的一个重要应用领域？A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案：C9. 哪个工具常用于分析生物信息中的调控网络？A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案：B10. 蛋白质结构预测是生物信息学的一个重要研究方向，以下哪种是蛋白质的一级结构？A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案：C11. 生物信息学与生物医学工程有什么相似之处？A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案：C12. 在基因组测序中，什么是基因组装？A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案：A13. 以下哪个不属于生物信息学的软件工具？A. BLASTB. PhotoshopC. RD. Python答案：B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究？A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案：A15. 生物信息学中的反向遗传学用于研究什么？A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案：B16. 哪种方法可用于鉴定基因表达谱中的关键基因？A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案：B17. 生物信息学研究中常用的基因表达定量方法是什么？A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案：C18. 生物信息学中的系统生物学研究的是什么？A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案：C19. 下面哪个数据库不是用于蛋白质结构预测的？A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案：D20. 生物信息学中常用的序列对比方法是什么？A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案：B二、简答题（每题10分，共5题）1. 编程语言在生物信息学中的作用是什么？编程语言在生物信息学中扮演着重要角色。

生物信息学期末考试重点总结

第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念：专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据，也称分子生物信息学。

三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心，EMBL欧洲分子生物学实验，DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询：指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。

数据库搜索：通过特定相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

区别：数据库搜索专门针对核酸和蛋白质序列数据库而言，其搜索对象不是数据库的注释信息，而是序列信息。

检测序列：新测定的，希望通过数据库搜索确定其性质或功能的序列目标序列：通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义：具有共同祖先。

两个物种中有两个性状满足下列任一条件，就可称为同源性状：（1）它们与这些物种的祖先类群中所发现的某个性状相同（2）（2）它们是具有祖先一后裔的不同性状同源（homology）-具有共同的祖先同源序列：共同祖先趋异进化形成垂直同源（ortholog）种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源（paralog）由序列复制事件产生的相似（similarity）用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。

同源序列一般是相似的，但相似序列不一定是同源的。

相似性：大于50%可认为是同源性序列，小于20%无法确定同源性目的：通过数据库搜索，推测该未知序列可能属于哪个基因家族，具有哪些生物学功能。

可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。

在序列数据库中对查询序列进行同源性比对.整体比对：从全长序列出发（分子系统学）局部比对：序列部分区域相似性（分子结构与功能性研究）数据库搜索的基础是序列的相似性比对，即双序列比对(pairwise alignment)。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即2、表达序列标签是从 mRNA 中生成的一些很短的序列（ 300-500bp ），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别— 和局部比对。

4、 2-DE 的基本原理是根据蛋白质和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离 ,第 —S D S-P AGE 分离 o5、蛋白质组研究的三大关键核心技术是质谱鉴定技术、计算机图像数据处理与蛋白质数据库二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，是真核生物基因组的特点之一。

（对）2、 CDS 一定就是 ORF 。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源，就具有共同的祖先。

（错）4、 STS,是一段 200-300bp 的特定 DNA 序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码 DNA 是“垃圾 DNA'，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列，在不知道哪一个碱基代表 CDS 的起始时，可用获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学期末复习题与答案

一、单选题1、总的来说，位于染色体内超过( )个碱基的DNA，构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案：B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案：B3、RefSeq数据库是由哪个组织开发和维护的？( )A.NIGB.NCBIC.EMBLD.SIB正确答案：B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案：D5、tBLASTx分析是用核酸序列检索核酸序列数据库，下列说法正确的是？（）A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案：D6、要搜索编码蛋白质序列的核酸序列，适宜的分析方法是？（）A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案：A7、下列对于PCR引物修饰的说法正确的是？（）A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案：C8、下列哪个在线分析工具可以预测DNA的外显子-内含子？（）A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案：A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径？（）A.1B.2C.3D.4正确答案：D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是？（）A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案：A11、当分类单元至少为3时，下列对“有根树与无根树的数目”判断正确的是？（）A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案：C12、下列哪种算法建树时，选择代价最小或者枝长最短的树？A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案：B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

生物信息学考试试题

生物信息学考试试题一、选择题（每题 3 分，共 30 分）1、以下哪种不是常见的生物信息学数据库？（）A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中，以下哪个不是用于序列比对的算法？（）A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括（）A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法？（）A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中，用于预测蛋白质功能的方法有（）A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中，以下哪个不是测序技术？（）A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括（）A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言？（）A PythonB JavaC C+＋D Visual Basic9、以下哪个不是生物信息学在医学领域的应用？（）A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中，处理大规模数据常用的工具是（）A ExcelB R 语言C SPSSD Word二、填空题（每题 2 分，共 20 分）1、生物信息学是一门融合了生物学、计算机科学和（）的交叉学科。

2、常见的核酸序列格式有 FASTA 和（）。

3、蛋白质的二级结构包括α螺旋、β折叠和（）等。

4、基因芯片技术是一种（）分析技术。

5、序列比对的目的是寻找两个或多个序列之间的（）。

6、人类基因组计划的主要目标是测定人类基因组的（）序列。

7、生物信息学中的隐马尔可夫模型主要用于（）。

8、系统发生分析中，外群的作用是（）。

9、蛋白质相互作用网络分析有助于理解（）。

10、生物信息学数据库可以分为一级数据库和（）数据库。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Primary database：数据直接来源于实验获得的原始数据，只是经过简单的归类、整理和注释
Second database：由一级数据衍生而来，是对生物学知识和信息的进一步整理
Genbank：一个来源于有7万种生物的核苷酸序列数据库
Swiss-prot：经过注释的蛋白质序列数据库，提供序列查找以及相似蛋白质序列搜索
SRS：序列搜索系统，是一种数据库搜索工具，它开放源代码软件，可以在本地计算机网络中安装和运行Entrez：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库、使用方便、能够进行交叉检索等特点
Bioinformatics：生物与信息技术的结合，其特征是：多科学交叉、以互联网为媒介、数据库为载体。

利用数学知识建立各种数学模型；利用计算机为工具对实验
数据进行分析处理；利用生物学知识对结果进行解释
Genomics：研究基因组合如何利用基因的一门学科。

该学科提供基因组信息，以及相关数据库系统利用，试图解决生物、医学、工业领域的重大问题
Proteomics：这一词起源于蛋白质和基因组学这两个词的组合。

指一种基因组所表达的全套蛋白质。

即，包括一种细胞乃至一种生物所表达的全部蛋白质
重复序列：真核生物基因组中具有的多数反复存在的DNA序列组成
密码子偏好：密码子的使用频率并不是完全随机的，而是有一定的偏好性，即有的密码子比起其他同义密码子来说使用频率更高，
序列记录的三种格式，以及格式的特征
FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。

后跟代码，接着是注释（在同一行），通常注释要以“|”符号相
隔，第一行没有长度限制。

值得注意的是FASTA文件允许以小写字母表示氨基酸。

文件扩展名为“.fasta”。

NBIR/PIR序列格式
第一行以“>”开头，后面紧跟两字母编码（P1代表蛋白质序列，N1代表核酸），再接一个分号，分号后紧跟序列标识号。

后面是说明行，该行可长可短，没有长度限制。

接下来是序列本身，以“*”号终止。

文件的扩展名为“.pir”或“.seq”。

GDE 序列格式：与FASTA的格式基本相同，但行首为“%”，文件扩展名为“.gde”。

（1）比对工具,(score ,e-value代表意义)、(比对结果看什么)：BLAST、FASTA
BLAST:它是一种基于局部比对的搜索工具，每个比对的显著性以“P值”“E值”衡量。

E值：评估相似性，是绝对的，越低越好；E值适合有一定长度，而且复杂度不能太低的序列；当E值小于10-4时：表明两序列有较高的同源性，而不是因为计算错误；当E值小于10-6时，表明两序列的同源性非常高，几乎没有必要在做确认；比较低的E值将使搜索的匹配要求更严格，结果报告中随机产生的匹配序列减少。

P值：p值表示比对结果得到的分数值的可信度。

P-0表示越显著结果越可信; P-&结果随机产生的可能性越大，低P值表明重要的匹配，这些匹配可能会有生物学意义
Score：衡量匹配结果的质量，是相对的（与选取的计分依据有关），越高越好
FASTA：是一种数据库相似搜索，可在线或者下载利用，速度快、灵敏度高
基因查找（哪些信息可以用来定位基因）
①查找重复序列（一般不编码序列，避免对基因定位的干扰）②同源性比对③根据基因的结构特征找ORF、TA TA 框/CAA T框等，找到基因④鉴定看是不是基因
记分矩阵(PAM、BLOSUM )，（什么时候使用P、什么时候用B说出道理）
PAM：点可接受突变记分矩阵1PAM=1%突变PAM基于全局比对
1PAM：一个进化单位在残基发生突变的概率，即在100个AA中可接受突变的个数是1（AA：残基间相似程度）PAM100%：可接受突变的次数是100次，有些位点可以发生多次突变，有些可以不发生突变，不同的PAM值反映了进化距离的不同
PAM250突变80%，相似性20% ；PAM120：突变66%，相似性34% ；PAM90：突变50%，相似性50%
PAM250 ：20%水平上反映出2个序列之间的相似性（或者20%相同序列之间的比较）；PAM后面的参数越大，相似性越低；
PAM60：用于比对相距60个PAM单位的序列
PAM 计分值相关性几率：>0 替代可能性大；=0 随机替代；<0 替代可能性小
BLOSUM：模块替代矩阵，基于局部比对的替代矩阵基于局部比对
①每个单元值都可以计算；②参数越大相似性越高；③BLOSUM62最常用；BLOSUM50所代表的进化距离要比BLOSUM62 要长
BLOSUM80%：用来比较80%相似度的序列。

blast 序列查找：同源序列（直系同源、旁系同源）
同源序列（homologous sequence）：在同一物种不同个体间或不同物种间相同或相似的DNA序列
直系同源（orthology）：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因；
旁系同源（Paralogs）：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。