ncbi突变命名规则

合集下载

NCBI简介及序列编号说明

NCBI简介及序列编号说明一：ncbi简介ncbi的genbank与ddbj(dnadatabankofjapan)、embl的ebi数据库共同组成国际dna数据库，每日都交换更新数据和信息，并主持两个国际年会－国际dna数据库咨询会议和国际dna数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

genbank存有源自于70,000多种生物的核苷酸序列。

每条纪录都存有编码区（cds）特征的注解，还包括氨基酸的译者。

（就是美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation，ncbi)创建的dna序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划(benson等，1998)。

entrez是美国国家生物技术信息中心所提供的在线资源检索器。

该资源将genbank序列与其原始文献出处链接在一起。

entrez是由ncbi主持的一个数据库检索系统。

它包括核酸，蛋白以及medline文摘数据库，在这三个数据库中建立了非常完善的联系。

因此，可以从一个dna序列查询到蛋白产物以及相关文献，而且，每个条目均有一个类邻（neighboring）信息，给出与查询条目接近的信息。

）ddbj主要向研究者搜集dna序列信息并剥夺其数据读取号，信息来源主要就是日本的研究机构，亦拒绝接受其他国家递交国书的序列。

ebi的主要任务：⑴为科学界建立和维护生物学数据库，提供免费的数据和生物信息服务，支持生物学数据的存储和挖掘，促进科技进步；⑵通过生物信息学的基础研究继续推动生物学发展；⑶为各个层次的科学工作者提供生物信息学培训；⑷支持帮助边缘尖端科技成果向工业界的转化；⑸协调欧洲生物数据的提供。

refseq就是ncbi数据库的参照序列。

refseq资料库就是ncbi将genbank的序列再搞详尽整理的non-redundent序列资料库，它的序列格式和genbank几乎完全相同，但因为就是全然相同的单一制资料库,为与genbank区别，refseq的accessionnumber格式和genbank相同。

科技论文中基因和蛋白质的名称格式的正确写法

科技论文中基因和蛋白质的名称格式的正确写法1 一般规则在你的文章中使用大家都认可的基因/蛋白质的名称和符号(见下文)有时认可的基因/蛋白质的名称或符号已经不再有效。

这种情况下，第一次提到的基因/蛋白质，需要先列出经批准的名称，然后再添加括号说明(以前被称为XXX)。

例如，“我们使用抗POU5F1蛋白的抗体(以前称为OCT-4)...”。

注意使用正确的符号，而不是以往的名称。

2 不同物种有不同的规则1) 小鼠 / 大鼠 / 鸡(1)一般命名规则(适用于小鼠，大鼠和鸡)：基因的全名不用斜体，也不用希腊字母例如：insulin-like growth factor 1(胰岛素样生长因子1)基因符号不用希腊字母和连字符，使用斜体，第一个字母大写，其余小写例如：Igf1 (斜体)(胰岛素样生长因子1)蛋白质的名称和基因符号相同，但不用斜体，并全部大写例如：IGF1mRNA和cDNA的基因符号和规定的格式例如： "... levels of Igf1 (italicized) mRNA increased when..."首次提到的突变等位基因应该详细列出例如：Igf1tm1Arge/Igf1tm1Arge (italicized) is one of several knockout alleles of Igf1 (italicized)所有字母和数字用斜体，等位基因的符号(tm1Arge)要用上标经前面详细描述之后，敲除的纯合子可表示为Igf1-/- (所有字母均用斜体，并且- / -用上标)；杂合子为Igf1 + / - 等。

(2)对于这些命名规定的详细信息，请参阅：(小鼠，大鼠，鸡) /(专门针对大鼠) /MGI命名：论文发表找刘老师球球1269292199/mgihome/nomen/index.shtml基因的MGI快速指南：/mgihome/nomen/short_gene.shtml2) 人类/非人类灵长类动物/家畜/ 除了小鼠、大鼠、鱼、昆虫、苍蝇外默认的其他物种完整的基因名称不用斜体和希腊字母例如：insulin-like growth factor 1(胰岛素样生长因子1)基因符号不使用希腊字母和连字符，基因符号用斜体，所有的字母用大写例如：IGF1(斜体)蛋白质的名称与基因符号相同，但不用斜体，并全部大写例如：IGF1mRNA和cDNA的基因符号和规定的格式例如："... levels of IGF1 (italicized) mRNA increased when..."更多关于此类物种基因(突变的等位基因)命名规则和符号的网站：3) 鱼(适用于所有的鱼)完整的基因名称用斜体表示，全部用小写字母，不要用希腊字母例如：cyclops(斜体) 基因符号用斜体，全部小写例如：cyc(斜体)蛋白质命名与基因符号相同，但仅首字母大写，也不用斜体例如：Cyc更多关于此类物种基因(突变的等位基因)命名规则和符号的网站：/cgi-bin/webdriver?MIval=aa-ZDB_home.apg4) 其他有用的网站：ExPASy(特殊蛋白质分析系统)：专利申请论文斧正老师扣2798419225是瑞士生物信息学研究所(SIB)提供的蛋白质组学服务系统，可对蛋白质序列和结构以及二维PAGE进行分析：( /)OMIM -孟德尔人类遗传学数据库：(/entrez/query.fcgi?db=OMIM)NCBI – Entrez Gene：提供了一个按序列和/或在NCBI's Map Viewer中查询基因的统一环境。

ncbi的序列命名规则

NCBI的序列命名规则---1.引言N C BI（N at io na lC en t er fo rB io te ch nol o gy In fo rm at io n，国家生物技术信息中心）是一个提供生物科学和生物信息学研究工具的在线资源平台。

在NC BI数据库中存储着大量的生物序列数据，这些序列数据不仅包括基因组、转录组等序列信息，还包括各种生物分子的序列。

为了能够准确、统一地标识和管理这些序列，N CBI制定了一套严格的序列命名规则，本文将对这些规则进行详细介绍。

2.序列命名规则概述在N CB I数据库中，每条序列都有一个唯一的标识符，称为序列A c ce ss io n号。

这个号码由字母和数字组成，体现了序列的来源、类型和编号等信息。

下面是N CB I序列命名规则的总体框架：前缀部分-：表示序列来源的缩写，比如基因组序列的前缀是"N C_"，转录组序列的前缀是"N M_"等。

序列类型部分-：表示序列的类型，比如基因组序列以"G"开头，转录组序列以"T"开头，蛋白质序列以"P"开头等。

序列编号部分-：标识具体序列的编号，由一串数字组成。

3.基因组序列命名规则基因组序列是指某个生物体的全部基因组信息。

N CB I对基因组序列的命名使用以下规则：前缀-：基因组序列的前缀为"N C_"。

序列类型-：基因组序列以"G"开头。

序列编号-：基因组序列的编号是一个无符号的整数，从1开始递增。

例如，人类基因组的A cc es si on号为N C_000001，小鼠基因组的A c ce ss io n号为N C_000067。

4.转录组序列命名规则转录组序列是指某个生物体的所有RN A转录产物的序列。

NC B I对转录组序列的命名使用以下规则：前缀-：转录组序列的前缀为"N M_"。

NCBI中各符号代表的意思

NCBI中各符号代表的意思GenBank 中字符的意思Nucleotide 数据库分为三个子数据库：·EST :表达序列标记数据库·GSS :基因组测序序列数据库·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列●MeSH: 查询缩写基因的全称3、RefSeq（Reference Sequence）序列接受号:（1）mRNA 记录（NM_*）:e.g.:NM_000492（2）基因组的DNA重叠群（NT_*）:e.g.:NT_000347（3）完整的基因组或染色体（NC_*）:e.g.:NC_000907（4）基因组的局部区域（NG_*）:e.g.:NG_000019页脚内容1（5）从人类基因组注释、加工得到的序列模型（XM，XP，or XR_*）：e.g.:XM_000483●GenBank记录中特性表中的主要关键词:关键词解释关键词解释misc_feature生物学特性无法用特性表关键词描述的序列promoter转录起始区misc_difference序列特性无法用特性表关键词描述的序列CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关conflict同一序列在不同的研究中在位点或区域上有差异TATA_signal真核启动子的TATA盒unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列对以前的版本-10_signal原核启动子的Pribow页脚内容2做过修订盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名的序列区域polyA_signal RNA转录本的剪切识别位点misc_signal无法用信号特性关键词描述的信号序列enhancer增强子关键词解释关键词解释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的转录物或RNA产物mat_peptide编码成熟肽的序列页脚内容3prim_transcript初始转录本intron内含子precursor_RNA前体RNA polyA_site RNA转录本的多聚腺苷酸化位点mRNA信使RNA rRNA核糖体RNA5’clip前体转录本中被剪切掉的5’端序列tRNA转运RNA3’ clip前体转录本中被剪切掉的3’端序列scRNA小细胞质RNA5’UTR5’非翻译区snRNA小核RNA3’UTR exon 3’非翻译区外显子snoRNA加工和修饰rRNA的小核RNA关键词解释关键词解释immunoglobulin_related repeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列页脚内容4D_segment免疫球蛋白重链的可变区，T细胞受体β链Satellite卫星重复序列J_ segment免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链misc_binding无法描述的核酸序列结合位点N_ region插入重排免疫球蛋白片段间的核苷酸primer_bind复制、转录的引物结合位点S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_ region编码免疫球蛋白的可变区N末端的序列STS测序标签位点V_ segment编码免疫球蛋白的可变区的序列misc_recomb无法用重组特性关键词描述的重组事件repeat_region基因组中所包含的重复序列iDNA通过重组所消除的DNAmisc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D_loop线粒体中DNA中的取代页脚内容5环◆GenBank记录中特性表中的限定词:限定词含义限定词含义/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基，编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索引号/citation=已被引用的参考文献数/direction=DNA复制方向/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获得而没有指明来源物种限定词含义限定词含义/exception=指明DNA序列未按通常的生物/PCR_conditi-ons=描述PCR的反应条件学规律翻译，如RNA编辑页脚内容6/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是DNA并来源于免疫/product=序列编码产物的名称球蛋白家族，则表示该序列来源于未重排DNA/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的位置及它所编码的氨基酸/isolate=序列来源的生物个体/cell_line=获得序列的细胞系/chromosome=获得序列的染色体/lab_host=为扩增序列来源物种所用的实验室宿主/clone=获得序列的克隆子/macronuclear指明DNA来源于染色体分化的大核期/note=评论及附加信息/codon=指出与参考密码子不同的密码子/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号/sub_strain=获得序列的来源微生物亚种/transl_table=描述在翻译中与通用密码页脚内容7表不同的密码表/tissue_type=获得序列组织类型/usedin=表明该特性在其他检索中也被使用/translation=按通用或指定的密码子表翻译的氨基酸序列/virion病毒颗粒限定词含义限定词含义/cons_splice=区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点/map=相关特性在基因图谱上的位置/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写/dev_stage=序列来源于某种生物的特定发育阶段/number=从5’→3’注明遗传元件的顺序/evidence=序列特性来源于实验还是推理/organism=提供测序用遗传物质的物种的科学名称/focus指出在记录中的来源特性在/phenotype=序列特性所导致的表型页脚内容8其他物种中还有不同的来源特性/function=序列所代表的功能/plasmid=获得序列的质粒名称/protein_id=蛋白质的检索号/haplotype=序列来源于某种物种的单倍体/isolation_sou-rce=描述序列来源物种的生理、环/proviral整合在基因组中的前病毒境和地理信息/label=序列特性的俗名/rearranged如果序列是DNA并来源于免疫球蛋白家族，则表示该序列来源于重排DNA限定词含义限定词含义/rpt_family=重复序列/transposon=转座子/variety=获得序列的生物变种/rpt_unit=指明重复区域的重复元件构成/serotype=同一物种的不同血清学特征/pseudo假基因页脚内容9/sex=获得序列的物种性别/replace=表明特性间的间隔序列已被替换/rpt_type=重复序列的组织方式/specimen_vou-cher=指明来源物种保存于什么地方/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类型/sub_species=获得序列的来源物种的亚种/serovar=同一原核生物的血清学特征/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿主/standard-name=特性的通用名称/transgenic指明物种的来源特性是否是转基因受体/sub_clone=获得序列的亚克隆/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置◆BLAST1.blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。

refgene命名规则

RefGene（Reference Gene）是一种用于命名基因的规则和约定。

它是由NCBI （National Center for Biotechnology Information）开发和维护的一套标准，用于对基因
进行唯一命名和识别。

RefGene的命名规则主要包括以下几个方面：
1. 基因符号（Gene Symbol）：每个基因都有一个独特的符号，通常由拉丁字母、阿拉
伯数字和下划线组成。

基因符号应尽可能简洁明了，以方便科研人员在文献和数据库
中进行引用和搜索。

2. 基因全名（Gene Full Name）：除了基因符号外，每个基因还有一个完整的名称，通常由单词和短语组成。

基因全名应该描述基因的功能、特征或所在的生物过程等信息。

3. 基因别名（Gene Alias）：有些基因会有多个别名，用于指代同一个基因。

这些别名
可以是基因的简称、缩写、同义词等。

基因别名有助于在不同研究领域和数据库中对
同一基因进行关联和检索。

4. 基因家族（Gene Family）：相似功能或结构的基因会被归类为一个基因家族。

基因
家族通常具有相似的命名规则和命名前缀，以便区分和识别。

需要注意的是，RefGene的命名规则是一套国际通用的标准，但在不同的研究领域和数据库中，可能存在一些特定的命名约定和规则。

因此，在具体的研究或数据库中使用RefGene命名时，还需结合相关的规范和要求进行命名和解读。

基因突变命名规则

基因突变命名规则
基因突变命名规则一般遵循以下原则：
1.基因命名：采用大写字母表示基因名，如BRCA1。

2.突变类型：将突变类型作为前缀，如点突变用c.表示，缺失用del 表示，插入用ins表示等。

3.位置表示：位置表示采用cDNA序列为参照基准，如c.123C>T表示第123位碱基从C变为T。

4.突变描述：突变描述以“→”表示，如c.123C>T→p.Leu41Phe表示c.123C>T所引起的氨基酸突变为Leu41Phe。

5.多个突变：多个突变使用“,”分隔，如c.123C>T,c.456C>T表示两个点突变。

6.复杂突变：复杂突变可采用定量描写方法，如c.[123C>T;456A>G]表示两个点突变同时出现。

例如，对于BRCA1基因的突变c.68_69delAG，可以解释为：基因名称为BRCA1，突变类型为缺失（del），位置在cDNA序列的第68-69位上发生，缺失的碱基对为AG。

ncbi蛋白序列号 -回复

ncbi蛋白序列号-回复NCBI蛋白序列号的含义及应用解析引言在生物领域的研究中，蛋白序列是了解蛋白功能和结构的重要信息源。

NCBI蛋白序列号（NCBI protein accession number）是由国家生物技术信息中心（National Center for Biotechnology Information, NCBI）为每个蛋白质分配的唯一标识符。

本文将从NCBI蛋白序列号的定义、命名规则及其应用等方面进行详细介绍。

一、NCBI蛋白序列号的定义NCBI蛋白序列号是一个由字母和数字组成的标识符，用于唯一标识NCBI数据库中的蛋白质序列。

它与蛋白质序列的访问号和数据库中的其他相关数据进行关联，如蛋白质功能注释信息、结构信息等。

NCBI蛋白序列号包含多个不同的数据库前缀，用于区分不同的蛋白质数据库。

二、NCBI蛋白序列号的命名规则NCBI蛋白序列号采用字母和数字的组合，具体规则如下：1. 第一个字母是大写字母，用于指示所属的数据库类型：- 'P'表示RefSeq蛋白质数据库（Reference Sequence）- 'NP'表示RefSeq核心蛋白质数据库（Non-redundant Protein）- 'XP'表示RefSeq推理蛋白质数据库（Inferred Protein）2. 第二个字母是大写字母，表示在相同蛋白质数据库中不同的构件。

例如，对于RefSeq数据库，'A'表示基因组版，'B'表示转录本版，'C'表示预测版。

3. 接下来的数字通常是一个包含多个数字的序列号，是一个具体的序列编号。

例如，NP_001234.1是一个NCBI蛋白序列号，表示RefSeq核心蛋白质数据库中的一个蛋白质序列。

三、NCBI蛋白序列号的应用NCBI蛋白序列号在生物信息学研究和生命科学研究中具有广泛的应用，包括但不限于以下几个方面：1. 蛋白质注释和功能预测：NCBI蛋白序列号可以用于蛋白质功能注释和功能预测。

基因突变的命名规则和表示方法

基因突变的命名规则和表示方法基因突变听起来就像是基因在玩一场突然的变身游戏。

那这基因变了之后得有个名字呀，就像人有了新特点或者新身份得有个称呼一样。

先说说这命名规则吧。

基因的名字往往是和它的功能或者发现它的一些特殊情况有关。

比如说，要是有个基因和眼睛的颜色相关，那这个基因的名字可能就会带着和眼睛有关的字眼。

这就好比家里养的宠物，要是特别能抓老鼠，可能就叫它捕鼠小能手之类的名字。

有的基因是根据发现它的地方来命名的，像在某个特定的细胞里发现的基因，名字里可能就会有这个细胞的名字。

这就像在村子东边的井里发现了一条特别的鱼，就可以叫它东村井鱼，虽然名字不是那么科学范，但大概就是这么个意思。

再说说表示方法。

这基因发生突变了，得有个特殊的表示法让大家一看就知道怎么回事。

一种常见的表示就是用字母和数字的组合。

就好像给每个基因都编了个身份证号一样。

这个身份证号不是随便编的，每个数字和字母都有它的意义。

比如说，字母可能代表基因所在的大的家族或者类别，数字呢就像是这个家族里它的排行。

如果基因发生了突变，可能就会在这个身份证号后面加上一些特殊的标记。

这就像本来一个人叫张三，身份证号是123456，要是他突然变了个样，比如头发全白了，那可能就会在他身份证号后面加上个“白发”标记，变成123456 - 白发。

还有一种表示方法是画图。

就像画画来描述一个故事一样。

科学家们会画一个基因的结构，正常的基因结构画出来就像一个设计好的房子蓝图。

要是基因发生了突变，就在这个蓝图上把突变的地方标出来。

这就好比房子蓝图上，某个房间本来是卧室，现在因为基因突变变成了厨房，就在那个房间的位置画上厨房的标志。

这种画图的表示方法特别直观，就像看地图一样，一眼就能看出来基因哪里出了问题。

基因的命名规则和表示方法还有很多种，不同的领域可能会有不同的习惯。

这就像不同的地方有不同的方言，虽然有点不一样，但都是为了能把基因的突变这件事说清楚。

在我看来，基因突变的命名规则和表示方法虽然有点复杂，就像解开一团乱麻一样，但它非常重要。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ncbi突变命名规则
（实用版）
目录
1.NCBI 的概述
2.基因突变的命名规则
3.突变类型的分类
4.突变命名的实例分析
5.突变命名规则的实际应用
正文
【1.NCBI 的概述】
CBI（National Center for Biotechnology Information）是美国国家生物技术信息中心，负责收集、存储和传播生物学和医学研究所需的各种信息资源。

在基因研究领域，NCBI 建立了一个基因序列数据库，为科研人员提供基因相关的数据和资源。

【2.基因突变的命名规则】
基因突变是指基因序列发生的改变，可能导致生物体表现出不同的表型。

为了方便描述和交流，NCBI 对基因突变进行了命名规则的制定。

基因突变的命名主要由三部分组成：基因名称、突变位点以及突变类型。

【3.突变类型的分类】
突变类型主要分为以下几类：
（1）点突变（Point Mutation）：是指基因序列中的一个碱基被另一个碱基替换，导致氨基酸序列发生改变。

（2）插入突变（Insertion）：是指基因序列中插入了一个或多个额外的碱基，导致氨基酸序列发生改变。

（3）删除突变（Deletion）：是指基因序列中删除了一个或多个碱基，导致氨基酸序列发生改变。

（4）移位突变（Frame Shift）：是指基因序列中的一段碱基发生移位，导致阅读框发生改变，进而使氨基酸序列发生改变。

（5）倒位突变（Inversion）：是指基因序列中的一段碱基序列发生倒置，导致氨基酸序列发生改变。

【4.突变命名的实例分析】
以一个点突变为例，假设在基因名为“ABC”的基因上，发生了一个 C 碱基替换 G 碱基的突变，突变位点为第 100 个碱基，那么该突变的命名应为“ABC:c.100G>C”。

【5.突变命名规则的实际应用】
突变命名规则在基因研究和遗传病诊断中有着广泛的应用。

科研人员可以通过突变命名快速了解基因突变的类型和位点，便于开展进一步的研究。

同时，对于遗传病的诊断，突变命名有助于医生和患者准确地了解病情，以便采取更有效的治疗措施。