转录因子相关数据库
转录调节位点和转录因子数据库介绍_张光亚

10生物学通报2005年第40卷第11期2003年即Watson和Crick发表DNA双螺旋结构50周年,宣布了人类基因组计划的完成,与此同时,其他许多生物的基因组计划已完成或在进行中,在此过程中产生的大量数据库对科学研究的深远影响是以前任何人未曾预料到的。
然而遗憾的是,许多生物学家、化学家和物理学家对这些数据库的使用甚至去何处寻找这些数据库都只有一个比较模糊的概念。
基因转录是遗传信息传递过程中第一个具有高度选择性的环节,近20年来对基因转录调节的研究一直是基因分子生物学的研究中心和热点,因此亦产生了大量很有价值的数据库资源,对这些数据库的了解将为进一步研究带来极大便利,本文对其中一些数据库进行简要介绍。
1DBTSSDBTSS(DataBaseofTranscriptionalStartSites)由东京大学人类基因组中心维护,网址:http://dbtss.hgc.jp。
最初该数据库收集用实验方法得到的人类基因的TSS(TranscriptionalStartSites,转录起始位点)数据。
对转录起始位点(TSS)的确切了解具有非常重要的意义,可更准确的预测翻译起始位点;可用于搜索决定TSS的核苷酸序列,而且可更精确地分析上游调控区域(启动子)。
自2002年发布第一版以来已作了多次更新。
目前包含的克隆数为190964个,含盖了11234个基因,在SNP数据库中显示了人类基因中的SNP位点,而且现在含包含了鼠等其他生物的相关数据。
DBTSS最新的版本为3.0。
在该最新的版本中,还新增了人和鼠可能同源的启动子,目前可以显示3324个基因的启动子,通过本地的比对软件LALIGN可以图的形式显示相似的序列元件。
另一个新的功能是可进行与已知转录因子结合位点相似的部位的定位,这些存贮在TRANSFAC(http://transfac.gbf.de/TRANSFAC/index.html)数据库中,免费用于研究,但TRANSFAC专业版是商业版本。
ipa数据库 转录因子

ipa数据库转录因子
IPA数据库是一个广泛使用的生物信息学工具,用于分析和解释基因组学数据。
它可以帮助研究人员理解基因调控、信号通路和蛋白质相互作用等生物学过程。
在IPA数据库中,转录因子是一个重要的研究对象。
转录因子是一类调控基因表达的蛋白质,它们通过结合到特定的DNA序列上,调控相关基因的转录活性。
在IPA数据库中,研究人员可以利用其强大的功能来分析转录因子在特定生物学过程中的作用。
例如,可以通过IPA数据库来寻找与特定转录因子相关的信号通路、生物过程以及相关的调控基因。
此外,IPA还可以帮助用户预测潜在的转录因子-靶基因相互作用,并生成与转录因子相关的生物网络图。
除了单独研究转录因子外,IPA数据库还可以将转录因子与其他生物信息学数据整合分析,如基因表达数据、蛋白质相互作用数据等。
这有助于揭示转录因子在复杂生物学系统中的作用机制,以及它们与其他分子之间的相互作用。
总之,IPA数据库为研究人员提供了丰富的工具和资源,可以
帮助他们全面理解转录因子在基因调控中的作用,以及与其他生物学过程的关联,从而推动生物医学研究的进展。
开花相关与转录因子研究方法

三、转录因子转录激活作用分析
目的片段分段-与BD组合-与AD菌体杂交-染色鉴定
四、转录因子复合体研究 1.酵母双杂实验 2.pull-down 3.双分子荧光互补BiFC 4.免疫共沉淀(转录因子-抗体-Protein A 或G-Agarose珠-目的蛋白)
五、转录因子功能研究
1.通过生物信息学构建系统进化树对其功能进行预测 2.胁迫条件下鉴定基因表达特性 (利用半定量PCR(RT-PCR)和实时定量PCR(qRT-PCR) 3.在基因缺失和过表达条件下检测植株的表型变化及生理变化 (基因缺失:插入突变--转座子插入法、T-DNA 插入法和同源重组插入法;反义RNA 抑制法--RNA i) 4.检测过表达植株基因表达变化 5.分析转录因子调控的下游效应基因 (染色质免疫沉淀-DNA 基因芯片分析;酵母单杂交分析;) 常用构建生物系统进化树的软件有 PHYLIP(http ///phylip/software.html)、 PAUP(ftp :///paup)、 MEGA(http ://bioinfo.weizmann.ac.il/ databases/info/mega.sof) TreeView(http :///rod/treeview.html) 序列比对软件 ClustalW 软件 人工miRNA设计工具 WebMicroRNA designer(http ://) THE RNAi WEB(http ://)因子保守结构域 2.定点突变分析转录因子结构域的功能位点 (DNA定点突变和蛋白质定点突变)
转录因子数据库 TRANSFAC(http :///pub/ databases.html) PlanTFDB(http ://plantfdb.bio.unipotsdam.de/v3.0/), 拟南芥的转录数据库 RARTF(http ://rarge.gsc.riken.jp/rartf/) AGRIS(http ://arabidopsis /AtTFDB/), 水稻基因组数据库 (http :// rice. plantbiology. msu. edu/)
生命科学中最常用的5个数据库介绍

生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
数据库说明

数据库说明实验2 数据库搜索与模式匹配1.TRANSFAC数据库【TRANSFAC数据库说明】TRANSFAC数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENC E等几个数据表。
此外还包含几个扩展库:PATHODB收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH主要用于描述与转录因子调控相关的信号传递网络;CYTOMER包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。
本实验的所有数据来自于P. Bucher于1990年发表在Journal of molecular biology的一篇文章。
作者从502条序列中包含的真实的TATA-box,计算得到的位置权重矩阵(PSSM)。
然后利用这个矩阵在输入的启动子(promoter)序列中扫描可能存在的TATA-box。
【参考文献】Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).【材料与方法】输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas中WWW工具:Regulatory Sequence Analysis Tools (RSA)TRANSFAC数据库:TRANSFAC,一个转录因子数据库【操作步骤】1)从TRANSFAC数据库中搜索TATA-box:在TRANSFAC数据库注册一个帐号,登录后打开SEARCH服务,选择MATRIX(转录因子结合位点矩阵)数据表进行搜索,将“Tablefield to search in”设置为“All field”,然后输入“TATA”提交查询。
生物信息学二级数据库及数据库的格式

..125
Homo. Sapiens Medline4,. gluco- transcriptional TGT..
......
Corticoid regulator, ..
receptor
Fig 2.7 GenBank数据库的组织. 常被计算机检索程序ENTREZ利用。
2 EMBL序列格式
• The European Molecular Biology Laboratory(EMBL)序列 条目与GenBank类似,通过大量信息来描述每个序列。该 信息组织成一个个字段,每个字段有一个标识符。这些标 识符缩写成两个字母,某些字段还有次级字段。每行序列 后面的数字显示片断的位置。
BASE COUNT count of A, C, G, T and other symbols
ORIGIN
text indicating start of sequence
1 gaattcgata aatctctggt ttattgtgca gtttatggtt ccaaaatcgc
51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg
Prosite的网址:
/prosite/
3、蛋白质结构二级数据库
DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址:
http://www.cmbi.kun.nl/gv/dssp/
source range of sequence, source organism
misc_signal range of sequence, type of function or signal
转录因子相关数据库

转录因子相关数据库陈鸿飞;王进科【期刊名称】《遗传》【年(卷),期】2010(32)10【摘要】转录水平的调控是基因调控的重要环节,其中转录因子(Transcription Factor,TF)和转录因子结合位点(Transcription Factor Binding Site,TFBS)是转录调控的重要组成部分.为了解析基因转录调控过程中TF与其TFBS相互作用的分子机理,鉴定TFBS及构建基因转录调控网络,需要对已发现的TF及其TFBS信息进行系统的收集,整理和分析.目前,国际上已经出现不少关于TF及其TFBS的专业数据库,这些数据库对基因转录调控及TF相关的分子生物学、系统生物学及生物信息学的研究非常重要,对这些领域的研究起到了显著的推进作用.文章对7个目前比较著名的TF及其TFBS相关数据库,包括TRANSFAC、JASPAR、TFDB、TRRD、TRED、PAZAR、MAPPER的特点、数据种类和数量及使用方法进行了详细综述,并简要介绍了其他相关数据库.【总页数】9页(P1009-1017)【作者】陈鸿飞;王进科【作者单位】东南大学生物电子学国家重点实验室,生物科学与医学工程学院生物技术与材料实验中心,南京,210096;东南大学生物电子学国家重点实验室,生物科学与医学工程学院生物技术与材料实验中心,南京,210096【正文语种】中文【中图分类】Q3【相关文献】1.超音刺猬蛋白转录因子叉头框转录因子M1及神经胶质瘤相关癌基因同源物1在宫颈癌中的表达与临床意义 [J], 杨娜;刘禄;魏容2.动物转录因子相关数据库研究进展 [J], 王志鹏;郭媛媛;梁美景3.外周血单个核细胞锌指样转录因子2、锌指样转录因子4mRNA表达与脑梗死静脉溶栓预后的相关性分析 [J], 赵松耀;尹刘杰;李世泽4.血清肺腺癌转移相关转录因子-1、叉头框转录因子M1和神经生长因子表达水平与肺癌患者临床病理特征及肿瘤转移的关系 [J], 景建军;张云江;王银5.拟南芥膜相关转录因子bZIP60活化后与转录因子MYB7互作共同调控种子萌发[J], 鲜孟君;张双双;刘建祥;陆孙杰因版权原因,仅展示原文概要,查看原文内容请购买。
数据库说明

实验2 数据库搜索与模式匹配1.TRANSFAC数据库【TRANSFAC数据库说明】TRANSFAC数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。
此外还包含几个扩展库:PATHODB收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH主要用于描述与转录因子调控相关的信号传递网络;CYTOMER包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。
本实验的所有数据来自于P. Bucher于1990年发表在Journal of molecular biology的一篇文章。
作者从502条序列中包含的真实的TATA-box,计算得到的位置权重矩阵(PSSM)。
然后利用这个矩阵在输入的启动子(promoter)序列中扫描可能存在的TATA-box。
【参考文献】Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).【材料与方法】☺输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas中☺WWW工具:Regulatory Sequence Analysis Tools (RSA)☺TRANSFAC数据库:TRANSFAC,一个转录因子数据库【操作步骤】1)从TRANSFAC数据库中搜索TATA-box:在TRANSFAC数据库注册一个帐号,登录后打开SEARCH服务,选择MATRIX(转录因子结合位点矩阵)数据表进行搜索,将“Tablefield to search in”设置为“All field”,然后输入“TATA”提交查询。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HEREDITAS (Beijing) 2010年10月, 32(10): 1009―1017 ISSN 0253-9772 综 述收稿日期: 2009-12-25; 修回日期: 2010-03-11基金项目:国家自然科学基金项目(编号:60871014)资助作者简介:陈鸿飞(1987-), 男, 硕士研究生, 专业方向:生物医学工程。
E-mail: chenhf0001@通讯作者:王进科(1969-), 男, 博士, 教授, 博士生导师。
研究方向:生物医学工程。
Tel: 025-********; E-mail: wangjinke@DOI: 10.3724/SP.J.1005.2010.01009转录因子相关数据库陈鸿飞, 王进科东南大学生物电子学国家重点实验室, 生物科学与医学工程学院生物技术与材料实验中心, 南京210096摘要: 转录水平的调控是基因调控的重要环节, 其中转录因子(Transcription Factor, TF)和转录因子结合位点(Transcription Factor Binding Site, TFBS)是转录调控的重要组成部分。
为了解析基因转录调控过程中TF 与其TFBS 相互作用的分子机理, 鉴定TFBS 及构建基因转录调控网络, 需要对已发现的TF 及其TFBS 信息进行系统的收集、整理和分析。
目前, 国际上已经出现不少关于TF 及其TFBS 的专业数据库, 这些数据库对基因转录调控及TF 相关的分子生物学、系统生物学及生物信息学的研究非常重要, 对这些领域的研究起到了显著的推进作用。
文章对7个目前比较著名的TF 及其TFBS 相关数据库, 包括TRANSFAC 、JASPAR 、TFDB 、TRRD 、TRED 、PAZAR 、MAPPER 的特点、数据种类和数量及使用方法进行了详细综述, 并简要介绍了其他相关数据库。
关键词: 转录因子; DNA 结合位点; 数据库; 生物信息学The databases of transcription factorsCHEN Hong-Fei, WANG Jin-KeThe State Key Laboratory of Bioelectronics , The Experimental Center of Biotechnology and Biomaterials , School of Biological Sciences and Medical Engineering , Southeast University , Nanjing 210096, ChinaAbstract: The control of gene transcription is a critical level of gene expression regulation. The interactions between transcription factors (TF) and their DNA binding sites (TFBS) play a key role at this level. In order to decipher the molecu-lar mechanism of the interactions of TFs with TFBSs and construct transcription regulatory network, it is necessary to sys-tematically collect, save, and analyze the information of discovered TFs and their TFBSs. In recent years, multiple TF and TFBS-related databases have been established. These databeses significantly promoted the TF-related studies in the fields of molecular biology, bioinformatics, and system biology. This paper summarized the contents, characteristics, access, and advances of main TFs and TFBSs-related databases, including TRANSFAC, JASPAR, TFDB, TRRD, TRED, PAZAR, MAPPER and others.Keywords: transcription factor; DNA binding site; database; bioinformatics真核生物基因的表达受多个层次的调控, 其中基因的转录调控就是一个非常重要的环节。
该环节中, 转录因子与其DNA 结合位点的相互作用发挥关键作用。
转录因子包括基础转录因子(Basic TF)和调控性转录因子(Regulatory TF)两类, 其中基础转录因子与RNA 聚合酶一起构成转录机器(transcription apparatus or machine), 通过与转录起点(Transcription start site, TSS)临近的DNA 上的启动子区结合实现基因的转录; 而调控性转录因子一般与位置多样的增强子序列结合, 再与转录机器发生作用, 调控基1010 HEREDITAS (Beijing) 2010 第32卷因转录的水平及组织、细胞特异性。
增强子序列没有方向性, 可位于基因的上游, 也可以位于基因的下游, 甚至基因内部。
目前, 已经证实位于基因上游10 kb 远的增强子仍然对基因有调控作用。
目前, 在人的基因中已经鉴定出 2 000多个转录因子[1, 2], NCBI (National Center for Biotechnology Information) 数据库中收录人转录因子基因1 962个, 占人全基因总数(24 652)的8%[3]。
已经鉴定的转录因子中约有700多个是DNA 合转录因子(DNA-binding TF)。
除了转录因子的鉴定外, 目前已经发现一个DNA 结合转录因子在基因组中存在成千上万的DNA 结合位点(DNA-binding sites)。
例如, 通过染色质免疫沉淀(Chromatin immunoprecipitation, ChIP)结合DNA 微阵列芯片(ChIP-chip) 或高通量DNA 测序技术(ChIP-seq), 发现转录因子SP1在基因组中有12 000个结合位点结[4], c-myc 有25 000个结合位点[4]、p53有1 600~65 000个结合位点[5]、CREB 有19 000~40 000个结合位点[6, 7]。
通过这些位点转录因子控制着众多基因的表达, 构成了复杂的基因转录调控网络(Gene transcription regulatory net-work)。
转录因子及其DNA 结合位点的鉴定, 以及它们构成的基因转录调控网络的构建已经成为目前系统生物学研究的重点领域, 也是生命科学研究的热点之一。
这一领域的研究, 不仅具有重要的基础研究价值, 而且在生物技术及生物医学领域具有重要的应用价值。
很多转录因子(如NF-κB 、AP1、p53、PPAR 、CREB 、STAT 、E2F 等)与重要疾病(如炎症、肿瘤等)的发生、发展具有密切的关系, 因而成为疾病诊断的依据和药物开发的靶点。
为了系统收集该领域研究产生的大量数据信息并进行相关的生物信息学研究, 最近数年国际上涌现出不少转录因子相关数据库, 如TRANSFAC (TRANScription FACtor)、JASPAR 、TFdb (The Mouse Transcription Factor Database)、TRRD(Transcription Regulatory Regions Database)、TRED(Transcriptional Regulation Element Database)、PAZAR 、MAPPER 等。
这些数据库各有特色, 提供了转录因子研究不同侧面的数据信息, 促进了转录因子的研究, 特别是对转录因子相关的生物信息学研究发挥了显著的推动作用。
然而目前国内还没有专业的转录因子数据库建立, 为了推动这一领域的研究, 本文对目前国际上主要的转录因子数据库的相关内容、特点及使用方法予以综述。
1 主要转录因子数据库1.1 TRANSFAC 数据库TRANSFAC 数据库是基于真核生物转录调控所建立的数据库, 其中收集了大量与基因转录水平有关的数据, 如转录因子及其DNA 结合位点和相应的靶基因等信息[8, 9]。
TRANSFAC 数据库由BIOBASE 公司负责日常更新和维护工作, 网址是http://www.gene- 。
该数据库分为公开版本和专业版本两个部分, 用户只需登陆该网站, 按照要求完成相应的注册, 利用所获得的账号可以免费查询公开版本中所有的信息, 而专业版本则需要用户付费使用, 对于国内用户需要付款约800欧元进行网上查询, 如需下载则需要额外的800欧元。
目前, 公开版版本的版本号为TRANSFAC7.0; 专业版本版本号为TRANSFAC2009.3。
两个版本的最后更新日期及贮存的数据种类及数据量见表1。
相对于公开版本, 专业版本还增加了小RNA(miRNA)及其靶序列、ChIP-chip 实验序列片段, 以及所有收录数据的相关参考文献、启动子序列等信息。
TRANSFAC 数据库的公开版本中主要包括6个工作表文件[10]: (1) 位点工作表(Site table): 主要包括每个(推定的)调控蛋白各自的结合位点信息。
其中既包括真核生物基因调控中转录因子的结合位点, 也包括经诱变实验、体内随机选择所得到的人工序列信息。
收录的所有序列经证实都与蛋白结合并且有着特定的功能, 每一条序列条目都有相应的唯一序号。
(2) 因子工作表(Factor table): 储存相关的转录因子数据信息。
在位点工作表中所涉及的转录因子在此表中都有储存。
同时还包括一些不与DNA 直接结合或者需要与其他转录因子形成复合物才能与DNA 结合的转录因子。
此外TRANSFAC 还对所收集的转录因子根据其DNA 结合结构域类型进行分类, 方便用户根据需要进行查找。
(3) 基因工作表(Gene table): 包括与转录调控相关的基因信息。