生物信息学分析报告

合集下载

生物信息学实验报告3(三)蛋白质序列分析

生物信息学实验报告3(三)蛋白质序列分析

⽣物信息学实验报告3(三)蛋⽩质序列分析(三)蛋⽩质序列分析实验⽬的:掌握蛋⽩质序列检索的操作⽅法,熟悉蛋⽩质基本性质分析,了解蛋⽩质结构分析和预测。

实验内容:1、检索SOX-21蛋⽩质序列,利⽤ProParam⼯具进⾏蛋⽩质的氨基酸组成、分⼦质量、等电点、氨基酸组成、原⼦总数及疏⽔性(ProtScale⼯具)等理化性质的分析。

2、利⽤PredictProtein、PROF、HNN等软件预测分析蛋⽩质的⼆级结构;利⽤Scan Prosite软件对蛋⽩质进⾏结构域分析。

3、利⽤TMHMM、TMPRED、SOSUI等⼯具对蛋⽩质进⾏跨膜分析;采⽤PredictNLS进⾏核定位信号分析;利⽤PSORT进⾏蛋⽩质的亚细胞定位预测;利⽤CBS(http://www.cbs.dtu.dk/services/ProtFun/)⽹站⼯具预测蛋⽩的功能,将序列⽤Blocks、SMART、InterProScan、PFSCAN等搜索其保守序列的特征,进⾏motif 的结构分析。

4、利⽤Swiss-Model数据库软件预测该蛋⽩的三级结构,结果⽤蛋⽩质三维图象软件Jmol查看。

CPHmodels 也是利⽤神经⽹络进⾏同源模建预测蛋⽩质结构的⽅法和⽹络服务器I-TASSER预测所选蛋⽩质的空间结构。

5、分析蛋⽩质的翻译后修饰:分析信号肽及其剪切位点: SignalIP http://www.cbs.dtu.dk/services/SignalP/;分析糖链连接点:分析O-连接糖蛋⽩,NetOGlyc,http://www.cbs.dtu.dk/services/NetOGlyc/;分析N-连接糖蛋⽩,NetNGlyc,http://www.cbs.dtu.dk/services/NetNGlyc/。

6、利⽤检索的序列,进⾏同源⽐对,获得并分析⽐对结果。

实验步骤(⼀)1、在NCBI 蛋⽩质数据库中查找SOX-21蛋⽩质序列分别选择⽖蟾(Xenopus laevis)、⼩家⿏[Mus musculus]、猕猴[Macaca mulatt a]的SOX-21蛋⽩质序列,并保存其FASTA格式。

关于生物信息学的调查报告

关于生物信息学的调查报告

关于生物信息学的调查报告简介:生物信息学(Bioinformatics)[1] 是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。

其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

发展阶段:前基因组时代(20世纪90年代前)这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。

基因组时代(20世纪90年代后至2001年)这一阶段主要是大规模的基因组测序,基因识别和发现,网络数据库系统地建立和交互界面工具的开发等。

后基因组时代(2001至今)随着人类基因组测序工作的完成,各种模式生物基因组测序的完成,生物科学的发展已经进入了后基因组时代,基因组学研究的重心由基因组的结构向基因的功能转移。

这种转移的一个重要标志是产生了功能基因组学,而基因组学的前期工作相应地被称为结构基因组学。

计算机科学与生物学的关系:计算机是仿生学的产物,自然和生物学是有关系的,他的存储,信息传输都是仿生物的神经系统运作的,而计算机又是现今生物研究的工具。

当今世界,科学技术发展突飞猛进,新兴学科、交叉学科不断涌现,科技进步对经济社会的影响作用日益广泛和深刻。

伴随着信息科技革命方兴未艾的浪潮,生命科学和生物技术的发展也正在展现出无可限量的前景。

越来越多的人们已经预见到,一个生命科学的新纪元即将来临,21世纪将是生命科学的迅猛发展的时代。

如今现代生物技术广泛应用于农业、医药与健康、能源、环境保护等领域,对科技发展、社会进步和经济增长产生极其重要而深远的影响。

现代生物技术是以20世纪70年代DNA重组技术的建立为标志的,它是一门集生物学、医学、工程学、数学、计算机科学、电子学等多学科相互渗透的综合性学科。

Blast分析报告

Blast分析报告

Blast分析报告引言Blast(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于比对和比较生物序列。

本报告旨在分析和解释Blast结果,帮助读者理解序列的相似性和演化关系。

方法为了进行Blast分析,首先需要准备两个序列:查询序列和参考序列。

查询序列是我们要研究的序列,而参考序列是已知的序列。

Blast会将查询序列与参考序列进行比对,并计算序列之间的相似性。

在本次分析中,我们使用了NCBI(National Center for Biotechnology Information)提供的在线Blast工具。

具体的分析步骤如下:1.登录NCBI网站并进入Blast页面。

2.将查询序列输入到指定的文本框中。

3.选择参考序列数据库。

4.点击“运行Blast”按钮,等待分析结果。

结果经过Blast分析,我们获得了以下结果:1.序列相似性分析:Blast会将查询序列与参考序列进行比对,并计算序列之间的相似性。

结果以百分比的形式表示相似度。

较高的相似度表明序列之间有较高的共同点。

2.演化关系分析:Blast还可以帮助我们了解序列之间的演化关系。

通过比较序列中的保守区域和变异区域,我们可以推断序列的起源和演化路径。

讨论根据Blast分析结果,我们可以得出以下结论:1.查询序列与参考序列的相似性较高。

根据相似性百分比可以判断两个序列之间的关系,例如亲缘关系或功能相似性。

2.查询序列可能与参考序列在演化上存在一定的共同点。

通过比较序列中的保守区域和变异区域,我们可以推断序列的起源和演化路径。

3.查询序列与参考序列之间的差异可能与物种间的差异相关。

通过进一步的分析,可以探究这些差异对生物体功能的影响。

结论本次Blast分析报告旨在帮助读者理解序列的相似性和演化关系。

通过Blast工具,我们可以快速准确地比对和比较生物序列。

通过对结果的分析,我们可以推断序列的起源和演化路径,并进一步探究序列间的差异对生物体功能的影响。

生物信息实训报告总结

生物信息实训报告总结

摘要:随着生物科学的快速发展,生物信息学作为一门新兴交叉学科,日益受到广泛关注。

为了提高自身在生物信息学领域的实践能力,我参加了为期两周的生物信息实训。

本次实训旨在通过实际操作,加深对生物信息学基本原理和方法的了解,提高数据处理和分析能力。

以下是对本次实训的总结。

一、实训目的1. 熟悉生物信息学的基本概念和原理;2. 掌握生物信息学常用工具和软件的使用;3. 提高生物信息数据分析能力;4. 培养团队协作精神和沟通能力。

二、实训内容1. 生物信息学基础知识学习:通过查阅相关资料,学习生物信息学的基本概念、原理和方法。

2. 工具和软件学习:学习并熟练使用生物信息学常用工具和软件,如BLAST、Clustal Omega、MEGA等。

3. 数据处理和分析:对实际生物信息学数据进行分析,如基因序列比对、进化树构建、基因表达分析等。

4. 项目实践:分组进行生物信息学项目实践,完成一个完整的生物信息学分析流程。

三、实训过程1. 第一周:学习生物信息学基础知识,了解生物信息学的研究领域和发展趋势。

2. 第二周:学习生物信息学常用工具和软件,进行数据处理和分析。

3. 第三周:分组进行项目实践,完成一个完整的生物信息学分析流程。

4. 第四周:撰写实训报告,总结实训过程中的收获和不足。

四、实训收获1. 理论知识方面:通过实训,我对生物信息学的基本概念、原理和方法有了更深入的了解,为今后从事生物信息学研究奠定了基础。

2. 工具和软件方面:熟练掌握了BLAST、Clustal Omega、MEGA等生物信息学常用工具和软件,提高了数据处理和分析能力。

3. 实践能力方面:通过项目实践,我学会了如何运用所学知识解决实际问题,提高了自己的实践能力。

4. 团队协作和沟通能力方面:在实训过程中,与团队成员共同完成项目,提高了团队协作和沟通能力。

五、不足与改进1. 实训过程中,对部分生物信息学工具和软件的使用还不够熟练,需要加强学习和实践。

湖南大学生物信息学实验报告-W8

湖南大学生物信息学实验报告-W8

实验1 DNA Blast(利用DNA数据库上提供的Blast功能)1基本信息:姓名:程瑶学号:201378020205班级:医学1301 实验日期:2016-04-192实验目的和要求:1)掌握BLAST的原理;2)了解如何利用Genbank数据库中提供的Blast功能完成同源性检索3实验仪器、设备与材料:计算机(联网)4实验原理:BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

BLAST(Basic local alignment search tool),中文意思为基本的基于局部对准的搜索工具,是一种快速查找与靶序列具有连续相同片段的序列的技术。

5实验步骤:1)进入NCBI主页(/),点击BLAST按钮,进入了BLAST HOME界面。

A、选择blastn,在Enter Query Sequence 输入FASTA格式的序列,以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。

在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highly similar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。

改变下面几个参数(每次只能变化一个参数),看输出结果中打分最高的10条序列是否会发生变;B:进入blastp,在Enter Query Sequence 输入FASTA格式的序列。

在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highlysimilar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。

生物信息学实验报告

生物信息学实验报告

生物信息学实验报告班级::学号:日期:实验一核酸和蛋白质序列数据的使用实验目的了解常用的序列数据库,掌握基本的序列数据信息的查询方法。

教学基本要求了解和熟悉NCBI 核酸和蛋白质序列数据库,可以使用BLAST进行序列搜索,解读BLAST 搜索结果,可以利用PHI-BLAST 等工具进行蛋白质序列的结构域搜索,解读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。

实验容提要在序列数据库中查找某条基因序列(BRCA1),通过相关一系列数据库的搜索、比对与结果解释,回答以下问题:1. 该基因的基本功能?2. 编码的蛋白质序列是怎样的?3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?4. 该蛋白质的功能是怎样的?5. 该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结构是什么样子的?给出示意图。

实验结果及结论1. 该基因的基本功能?This gene encodes a nuclear phosphoprotein that plays a role in maintaining genomic stability, and it also acts as a tumor suppressor. The encoded protein combines with other tumor suppressors, DNA damagesensors, and signal transducers to form a large multi-subunit protein complex known as the BRCA1-associated genome surveillance complex (BASC). This gene product associates with RNA polymerase II, and through the C-terminal domain, also interacts with histone deacetylase complexes. This protein thus plays a role in transcription, DNA repair of double-stranded breaks, and recombination. Mutations in this gene are responsible for approximately 40% of inherited breast cancers and more than 80% of inherited breast and ovarian cancers. Alternative splicing plays a role in modulating the subcellular localization and physiological function of this gene. Many alternatively spliced transcript variants, some of which are disease-associated mutations, have been described for this gene, but the full-length natures of only some of these variants has been described. A related pseudogene, which is also located on chromosome 17, has been identified. [provided by RefSeq, May 2009]2. 编码的蛋白质序列是怎样的?[Homo sapiens]1 mdlsalrvee vqnvinamqk ilecpiclel ikepvstkcd hifckfcmlk llnqkkgpsq61 cplcknditk rslqestrfs qlveellkii cafqldtgle yansynfakk ennspehlkd121 evsiiqsmgy rnrakrllqs epenpslqet slsvqlsnlg tvrtlrtkqr iqpqktsvyi181 elgsdssedt vnkatycsvg dqellqitpq gtrdeislds akkaacefse tdvtntehhq241 psnndlntte kraaerhpek yqgssvsnlh vepcgtntha sslqhenssl lltkdrmnve301 kaefcnkskq pglarsqhnr wagsketcnd rrtpstekkv dlnadplcer kewnkqklpc361 senprdtedv pwitlnssiq kvnewfsrsd ellgsddshd gesesnakva dvldvlnevd421 eysgssekid llasdpheal ickservhsk svesniedki fgktyrkkas lpnlshvten481 liigafvtep qiiqerpltn klkrkrrpts glhpedfikk adlavqktpe minqgtnqte541 qngqvmnitn sghenktkgd siqneknpnp ieslekesaf ktkaepisss isnmelelni601 hnskapkknr lrrksstrhi halelvvsrn lsppnctelq idscssseei kkkkynqmpv661 rhsrnlqlme gkepatgakk snkpneqtsk rhdsdtfpel kltnapgsft kcsntselke721 fvnpslpree keekletvkv snnaedpkdl mlsgervlqt ersvesssis lvpgtdygtq781 esisllevst lgkaktepnk cvsqcaafen pkglihgcsk dnrndtegfk yplghevnhs 841 retsiemees eldaqylqnt fkvskrqsfa pfsnpgnaee ecatfsahsg slkkqspkvt 901 feceqkeenq gknesnikpv qtvnitagfp vvgqkdkpvd nakcsikggs rfclssqfrg 961 netglitpnk hgllqnpyri pplfpiksfv ktkckknlle enfeehsmsp eremgnenip 1021 stvstisrnn irenvfkeas ssninevgss tnevgssine igssdeniqa elgrnrgpkl 1081 namlrlgvlq pevykqslpg snckhpeikk qeyeevvqtv ntdfspylis dnleqpmgss 1141 hasqvcsetp ddllddgeik edtsfaendi kessavfsks vqkgelsrsp spfththlaq 1201 gyrrgakkle sseenlssed eelpcfqhll fgkvnnipsq strhstvate clsknteenl 1261 lslknslndc snqvilakas qehhlseetk csaslfssqc seledltant ntqdpfligs 1321 skqmrhqses qgvglsdkel vsddeergtg leennqeeqs mdsnlgeaas gcesetsvse 1381 dcsglssqsd ilttqqrdtm qhnliklqqe maeleavleq hgsqpsnsyp siisdssale 1441 dlrnpeqsts ekavltsqks seypisqnpe glsadkfevs adsstsknke pgversspsk 1501 cpslddrwym hscsgslqnr nypsqeelik vvdveeqqle esgphdltet sylprqdleg 1561 tpylesgisl fsddpesdps edrapesarv gnipsstsal kvpqlkvaes aqspaaahtt 1621 dtagynamee svsrekpelt astervnkrm smvvsgltpe efmlvykfar khhitltnli 1681 teetthvvmk tdaefvcert lkyflgiagg kwvvsyfwvt qsikerkmln ehdfevrgdv 1741 vngrnhqgpk raresqdrki frgleiccyg pftnmptdql ewmvqlcgas vvkelssftl 1801 gtgvhpivvv qpdawtedng fhaigqmcea pvvtrewvld svalyqcqel dtylipqiph 1861 shy3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?有保守的供能结构域。

生物科技数据分析报告

生物科技数据分析报告一、引言生物科技领域是一个充满活力和创新的领域,随着科技的不断进步,大量的生物数据被积累和记录。

本报告旨在对生物科技数据进行深入分析,揭示其中的规律和趋势,为相关研究和应用提供参考依据。

二、数据来源本次数据分析报告所使用的数据主要来源于公开数据库、科研机构发布的文献以及生物科技企业提供的数据。

这些数据涵盖了基因组学、蛋白质组学、转录组学等多个层面,具有较高的代表性和权威性。

三、数据清洗与预处理在进行数据分析之前,我们首先对原始数据进行了清洗和预处理工作。

这包括缺失值处理、异常值检测、数据标准化等步骤,以确保数据的质量和可靠性。

四、生物信息学分析1. 基因组学分析通过对基因组数据的分析,我们发现不同物种之间基因组的异同,揭示了基因结构和功能的差异性。

同时,基因组学分析还可以帮助我们理解遗传变异对个体特征和疾病易感性的影响。

2. 蛋白质组学分析蛋白质是生物体内功能最为重要的分子之一,蛋白质组学分析可以揭示蛋白质在细胞内的定位、相互作用关系以及功能调控机制,为药物研发和疾病治疗提供重要参考。

3. 转录组学分析转录组学是研究细胞内所有mRNA转录产物的科学,通过转录组学分析可以揭示基因表达调控网络、信号通路调控机制等重要信息,为疾病诊断和治疗提供新思路。

五、生物大数据挖掘生物大数据挖掘是利用各种数据挖掘技术和算法来发现生物信息中隐藏的模式和规律。

通过对大规模生物数据的挖掘,我们可以发现新的生物标志物、药物靶点以及潜在的治疗策略,推动生物医药领域的创新发展。

六、人工智能在生物科技中的应用人工智能技术在生物科技领域得到广泛应用,包括基因序列分析、蛋白质结构预测、药物筛选等方面。

通过机器学习和深度学习算法,可以更快速地处理海量生物数据,并挖掘出其中潜在的规律和关联性。

七、未来展望随着生物科技领域不断发展和进步,生物数据分析将成为推动行业创新和发展的重要驱动力。

未来,我们可以预见更多跨学科领域的融合,更加精准个性化的医疗服务以及更高效率的药物研发过程。

生物信息学实验报告

生物信息学实验报告姓名:__ 王思____ __ _学号:___03_ ___指导老师:__ 宋晓峰_南京航空航天大学2013年4月ﻬ实验一生物信息数据库的检索一.实验目的:1.了解生物信息学的各大门户网站以及其中的主要资源。

2。

了解主要数据库的内容及结构,理解各数据库注释的含义。

3.以PubMed为例,学会文献数据库的基本查询检索方法。

二.实验内容:(1)国际与国内的生物信息中心国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以及国内CBI、BioSino网站的熟悉及内容的了解.核酸序列数据库:genbank/EMBL-bank/DDBJNCBI网址:EBI网址:EMBL网址:i。

ac.uk/embl蛋白质序列数据库:Swiss Prot 、ExPASy网址:Uniprot网址:蛋白质结构数据库:PDB网址:csb。

org/pdb/(2)数据库内容、结构与注释的浏览分别读取The spike proteinof SARS—Corona Virus在NCBI中的核酸序列、SWISS—PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。

核酸序列:SWISS-PROT蛋白质序列:PDB蛋白质结构序列:其PDB文件见附件SARS—Corona Virus。

PDB文件分别读取Heamagglutinin Genes ofH9N2 Subtype Influenza A V iruses(禽流感H9N2亚型HA基因)在NCBI中的核酸序列、SWISS-PROT蛋白质序列以及PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。

核酸序列:SWISS-PROT蛋白质序列PDB蛋白质结构序列其PDB文件见附件H9N2.PDB文件(3)文献信息的查找与管理有效地使用NCBI PubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文。

生信分析报告

生信分析报告概述本文档旨在提供对生物信息学分析结果的详细报告。

生物信息学分析是利用计算机和统计学方法对生命科学数据进行处理、解析和解释的研究领域。

通过生信分析,可以从大量的生物数据中获取有意义的信息,并进一步理解生命的运作机制。

数据收集与预处理在该生信分析中,我们使用了多组已公开的生物数据集。

这些数据集涵盖了人类、动物或植物细胞组织、肿瘤样本等多个领域。

在开始分析之前,我们对原始数据进行了预处理。

预处理包括质量控制、去除低质量的序列、去除适配体序列以及对序列进行比对、重复序列的去除等步骤。

数据比对在本次分析中,我们采用了Bowtie软件对原始DNA/RNA序列进行比对。

Bowtie是一个常用的比对算法,可以高效地处理大规模的生物序列。

通过将测序数据与参考基因组进行比对,我们可以准确地确定测序样本中各个序列的来源。

变异分析在生物信息学研究中,变异分析是非常重要的一步。

通过比对测序数据与参考基因组,我们可以准确地检测到样本中的SNP(单核苷酸多态性),Indel(插入/缺失)等变异。

这些变异可能与疾病的发生和发展相关,因此对其进行准确的分析和解释非常重要。

功能注释对检测到的变异进行功能注释可以帮助我们进一步了解其潜在影响。

功能注释将变异与已知基因注释、蛋白质功能和通路相关信息进行关联,从而揭示其可能的生物学含义。

在本次分析中,我们使用了公开数据库和生物信息学工具来进行功能注释,包括基因本体论(Gene Ontology)、通路分析和蛋白质结构预测等。

结果与讨论通过以上的生物信息学分析步骤,我们得到了一系列有意义的结果。

这些结果包括样本中的变异位点,变异位点的功能注释信息以及其与疾病相关性的预测等。

进一步分析和讨论这些结果可以帮助我们揭示样本中可能存在的遗传变异和其对生物学过程的潜在影响。

结论本次生信分析通过对原始生物数据进行处理、比对和注释,得到了一系列有意义的结果。

这些结果可以为理解生物学过程、疾病发生机制和药物设计提供重要参考。

AI在生物信息学中的应用调研报告

AI在生物信息学中的应用调研报告在当今科技飞速发展的时代,AI(人工智能)的应用领域不断拓展,其中生物信息学成为了其发挥重要作用的一个关键领域。

生物信息学作为一门交叉学科,旨在通过对生物数据的分析和处理,揭示生命现象背后的规律和机制。

AI 的引入为生物信息学带来了新的机遇和挑战,极大地推动了该领域的发展。

一、生物信息学简介生物信息学是结合生物学、计算机科学和统计学等多学科知识的领域。

它的主要任务是收集、存储、管理和分析生物数据,如基因序列、蛋白质结构、代谢通路等。

这些数据量庞大且复杂,传统的分析方法往往难以满足需求,这就为 AI 的应用提供了广阔的空间。

二、AI 在生物信息学中的主要应用1、基因序列分析基因是生命的密码,对基因序列的准确分析至关重要。

AI 算法能够快速比对和分析大量的基因序列,识别其中的相似性和差异性,预测基因的功能和突变可能带来的影响。

例如,通过深度学习模型,可以预测基因序列中的调控元件,为基因表达的研究提供重要线索。

2、蛋白质结构预测蛋白质的结构决定其功能,但通过实验方法确定蛋白质结构往往耗时费力。

AI 技术,特别是基于深度学习的方法,能够根据蛋白质的氨基酸序列预测其三维结构。

这为药物研发和理解蛋白质的作用机制提供了有力支持。

3、疾病诊断和预测利用 AI 分析患者的基因数据、临床症状和病史等多源信息,可以辅助医生进行疾病的诊断和预测。

例如,对于癌症等复杂疾病,AI 能够识别潜在的生物标志物,提高诊断的准确性和早期发现的可能性。

4、药物研发在药物研发过程中,AI 可以帮助筛选药物靶点、优化药物设计和预测药物副作用。

通过对大量药物和疾病相关数据的学习,AI 模型能够预测药物与靶点的相互作用,提高研发效率,降低成本。

三、AI 在生物信息学中应用的优势1、处理海量数据的能力生物信息学中产生的数据量呈指数级增长,AI 算法能够高效地处理和分析这些大规模的数据,从中挖掘出有价值的信息。

2、发现隐藏模式和关系AI 能够识别数据中隐藏的复杂模式和关系,这些模式和关系可能是人类研究者难以直观发现的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录
1序列信息提取 (2)
2Gene Ontology (GO)功能注释 (2)
2.1序列比对(BLAST) (2)
2.2GO功能条目提取(Mapping) (2)
2.3功能注释(Annotation) (3)
2.4补充注释(Annotation augmentation) (3)
2.5GO功能注释统计 (3)
2.6GO Slim注释与统计 (4)
3KEGG通路注释 (5)
4蛋白质相互作用网络分析 (6)
References (8)
1 序列信息提取
原始数据中质谱鉴定成功的蛋白质共计695个,序列信息批量提取自UniProtKB数据库,以FASTA格式保存(2014040152BT76DF0L.fasta)。

2 Gene Ontology (GO)功能注释
基因本体(Gene Ontology) 是一个标准化的基因功能分类体系,提供了一套动态更新的标准化词汇表,并以此从三个方面描述生物体中基因和基因产物的属性:参与的生物过程(Biological Process),分子功能(Molecular Function) 和细胞组分(Cellular Component) 1。

2.1序列比对(BLAST)
我们利用本地化序列比对软件NCBI BLAST+(ncbi-blast-2.2.28+-win32.ext)将鉴定到的蛋白质与 SwissProt Mammals数据库中的蛋白质序列进行比对。

根据相似性原理,所得的同源蛋白的功能信息可以用于目标蛋白的功能注释。

我们仅保留排名前10条且E-value ≤1e-3的比对序列进行后续的分析(GO.xlsx表中sheet TopBlastHits)。

所得的比对相似性范围为36-100% ,其中大部分目标蛋白序列的比对相似性为90% 或以上(图1)。

图1序列比对相似性分布
2.2GO功能条目提取(Mapping)
BlastGO2是一个用于基因/蛋白质功能注释和数据分析的应用软件。

我们利用Blast2GO(Version 2.7.1)中的Mapping功能对所有鉴定成功的蛋白的比对序列所关联的GO功能条目进行提取,共提取到与其中692个鉴定成功的蛋白序列(99.6%)相关的21,078条GO功能条目。

2.3功能注释(Annotation)
在功能注释(Annotation)过程中,Blast2GO通过综合考量目标序列和比对序列的相似性、GO条目来源的可靠度,以及GO 有向无环图的结构,将Mapping过程中提取的GO功能条目中符合条件的条目注释给目标蛋白。

本项目中,共669条鉴定成功的蛋白序列被7,129条GO功能条目注释,平均GO层次为7.63(图2)。

图2 GO层次分布
P:Biological Process,F:Molecular Function,C:Cellular Components
2.4补充注释(Annotation augmentation)
功能注释(Annotation)过程中,对于有比对序列却没有注释信息的目标蛋白序列,我们适当放宽了注释条件,使更多的目标蛋白序列可以获得功能注释信息。

对于剩余的其他通过序列比对仍然无法获得注释信息的目标蛋白序列,以及没有比对序列的目标蛋白序列,我们通过InterProScan3在EBI数据库中搜索匹配的保守蛋白质motif,并将motif的功能注释信息注释给目标蛋白序列。

之后我们利用Blast2GO中的ANNEX模块对注释信息进行了进一步的补充,并在不同GO类别之间建立联系,提高注释的准确性。

经过补充注释,最终的注释统计结果为:共686条蛋白序列被8,096条GO功能条目注释。

2.5GO功能注释统计
GO功能注释结果统计见GO.xlsx,包括protein2GO,GO2protein,GO Level 2等信息(图3)。

图3 GO level 2统计
2.6GO Slim注释与统计
GO Slim是简化的GO子集,可用于在更高级的层面上研究基因或其产物的功能。

在本项目中,我们利用GO for generic.obo 对目标蛋白的功能进行了注解,结果共685条差异蛋白序列被7,651条GO Slim功能条目注释,平均GO Slim层次为4.44(图4)。

GO Slim注释的统计结果见GOSlim.xlsx(图5)。

图 4 GOSlim for generic层次分布
图 5 GO level 2 for generic统计
3 KEGG通路注释
在生物体中,蛋白质并不独立行使其功能,而是不同蛋白质相互协调完成一系列生化反应以行使其生物学功能。

因此,通路分析有助于更系统、全面地了解细胞的生物学过程、性状或疾病的发生机理、药物作用机制,等等。

KEGG4是常用于通路研究的数据库之一。

我们针对挑选出的差异表达蛋白质进行KEGG通路注释,分析并确定差异表达蛋白质参与的最主要的代谢和信号转导途径。

我们利用KAAS(KEGG Automatic Annotation Server)将目标蛋白序列与KEGG GENES数据库中的猴子蛋白序列进行比对,通过同源/相似蛋白的KO号注释到相关KEGG通路上。

本项目中,我们共提取到与385个鉴定成功的蛋白序相关的219条KEGG信号/代谢通路。

统计结果见kegg.xlsx,所有注释通路图保存在map文件夹中,图中差异蛋白质以绿色高亮标注(图6)。

图6 KEGG信号通路注释示例
4 蛋白质相互作用网络分析
在生物体中,蛋白质并不是独立存在的,其功能的行使必须借助于其他蛋白质的调节和介导。

这种调节或介导作用的实现首先要求蛋白质之间有结合作用或相互作用。

对蛋白质之间的相互作用及相互作用形成的网络的研究,对于揭示蛋白质的功能具有重要意义。

例如,高度聚集的蛋白质可能具有相同或相似的功能,连接度高的蛋白质可能是影响整个系统代谢或信号转导途径的关键点。

我们利用差异表达蛋白质的Gene Symbol,通过查询IntAct数据库,确定目标蛋白之间的相互作用(图7)和与之直接作用的其他蛋白质(图8),并利用CytoScape软件生成相互作用网络。

图7直接相互作用
图8差异表达蛋白质相互作用网络,其中黄色节点为差异表达蛋白质,蓝色节点为直接相互作用的蛋白质
References
1. Ashburner, M., et al., Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet,
2000. 25(1): p. 25-9.
2. Gotz, S., et al., High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Res,
2008. 36(10): p. 3420-35.
3. Quevillon, E., et al., InterProScan: protein domains identifier. Nucleic Acids Res, 2005. 33(Web Server issue): p.
W116-20.
4. Kanehisa, M., et al., KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res,
2012. 40(Database issue): p. D109-14.。

相关文档
最新文档