生物信息学作业1.doc

合集下载

生物信息学作业(一)

生物信息学作业(一)

生物信息学实验作业一1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。

答:(1)、NCBI: (National Center of Biotechnology Information,简称NCBI)美国国立生物技术信息中心。

其主页为:。

NCBI 是在NIH的国立医学图书馆(NLM)的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。

他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。

这些问题包括基因的组织,序列的分析,和结构的预测。

在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。

NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW 或FTP来获得。

NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。

主要任务:(1)建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统(2)实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究(3)加速生物技术研究者和医药治疗人员对数据库和软件的使用。

生物信息学作业

生物信息学作业

生物信息学试题
1、构建分子系统树的主要方法有哪些?并简要说明构建分子进化树
的一般步骤。

(20分)
答:(1)构建进化树的方法包括两种:一类是序列类似性比较,主
要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序
列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构
叠合和多结构特征比较等方法建立结构进化树
(2)序列比对——选取所需序列——软件绘制
具体如下:
a测序获取序列或者在NCBI上搜索所需的目的序列
b在NCBI上做blast:比对相似度较高的基因,并以fast格式下载,整合在*txt文档中。

c比对序列,比对序列转化成*meg格式
d打开保存的*meg格式文件,构建系统进化树
2、氨基酸序列打分矩阵PAM和BLOSUM中序号有什么意义?它们各自
的规律是什么?(10分)
(1)PAM矩阵:基于进化的点突变模型,如果两种氨基酸替换频繁,说明
自然界接受这种替换,那么这对氨基酸替换得分就高。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变。

BLOSUM矩阵:首先寻找氨基酸模式,即有意义的一段氨基酸片断,分别比
较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据,产生。

生物信息学习题(2010-7)

生物信息学习题(2010-7)

生物信息学练习题(2009-2010学年第2学期)姓名:性别:班级:学号:说明:(1)此作业主要是让大家熟悉一下生物信息学的基本知识点,并真正练习一下生物信息软件的使用。

(2)此作业将作为我们的成绩,不交者将没有成绩,请认真对待;(3)作业统一用A4纸打印,并装订;(4)在7月10日前,各班学委收起后,交到新生化大楼C615房间;(5)如有问题可与我联系,一.问答题:1. 当今世界上主要的三大生物数据库是指哪些数据库?答:当今世界上主要的三大生物数据库是美国国家生物技术信息中心NCBI(National Center for Biotechnology Information),EBI(European Bioinformatics Institute)欧洲生物信息研究所,DDBJ(DNA Data Bank of Japan)日本核酸数据库2. 人类基因组计划的完成将绘制出“四张图“,请问这四张图是指哪些图?答:人类基因组计划的完成将绘制出“四张图“是指:1遗传图谱,又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组。

2物理图谱,是以一段已知核酸序列的片段STS序列为路标,以碱基对数目的多少为图距来表示两个遗传标记之间的物理距离[基本单位是Mb、kb、bp]的图谱。

3序列图谱,是分别将各染色体全部碱基序列绘制的图谱。

包括转录序列和非转录序列。

4转录图谱谱也叫基因表达图谱,以表达序列标签(expressed sequence tag , EST )为位标,反映基因在不同条件下的表达情况的图谱。

3. 生物信息学的定义有狭义与广义之分,请问狭义的生物信息学定义是什么?答:目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。

生物信息学作业

生物信息学作业

结论一:这是什么基因1.该基因为人的CD226 抗原分子(CD226),染色体定位18号染色体67624232 -67530192基因标识符:NM_006566.22.功能:细胞粘附功能,整合素结合,蛋白结合,蛋白激酶结合;参与细胞粘合,细胞识别,细胞因子产生,正向调控Fc受体介导的刺激性信号通路,正向调控免疫球蛋白介导的免疫反应,正向调控肥大细胞的活化正向调控NK细胞介导的细胞毒性,正向调控NK细胞介导的针对肿瘤细胞靶标的细胞毒活性,调节免疫反应,信号转导等途径。

结论二:编码的蛋白质序列是怎样的蛋白标识符:"NP_006557.2" 336 aa蛋白序列为:MDYPTLLLAL LHVYRALCEE VLWHTSVPFA ENMSLECVYP SMGILTQVEWFKIGTQQDSI AIFSPTHGMV IRKPYAERVY FLNSTMASNN MTLFFRNASE DDVGYYSCSL YTYPQGTWQK VIQVVQSDSF EAAVPSNSHI VSEPGKNVTL TCQPQMTWPV QAVRWEKIQP RQIDLLTYCN LVHGRNFTSK FPRQIVSNCS HGRWSVIVIP DVTVSDSGLY RCYLQASAGE NETFVMRLTV AEGKTDNQYT LFVAGGTVLL LLFVISITTI IVIFLNRRRR RERRDLFTES WDTQKAPNNY RSPISTSQPT NQSMDDTRED IYVNYPTFSR RPKTRV结论三:有没有功能保守的结构序列?该蛋白有Ig的保守结构序列结论四;:它的功能是?功能:细胞黏附相关受体,淋巴细胞信号转导,CTL和NK介导的细胞毒性和淋巴因子分泌亚单元结构:与PVR和PVRL2相互作用亚细胞定位:细胞膜,Ⅰ类信号传播膜蛋白组织特异性:外周血T细胞表达序列:包含2个Ig-like C2型(免疫球蛋白样)结构域结论五:在真核生物中保守吗?在酵母中不存在其同源物,在一些灵长类动物存在一些同源性较高的序列,在其他的哺乳动物如:褐家鼠,野猪等中也存在一些同源性较高的序列。

信息生物学作业

信息生物学作业

浅谈基因芯片2009221107100174 09试点基因芯片(microarray),又称DNA芯片或DNA微阵列,是指通过微加工技术和微电子技术,将成千上万与生命相关的探针分子以预先设计好的排列方式同化在固相支持物(硅片、玻片、聚丙烯酞胺凝胶、尼龙膜等载体)的表面,组成密集二维分子排列,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息,以达到对样本基因的表达水平、突变和多态性进行快速、并行、准确、高效的检测分析。

它是近几年发展起来的又一新的分子生物学研究工具,被广泛应用于基因的表达和调控、新基因的功能发现、疾病的诊断和预后、药靶的发现、毒理学、微生物检测、农林业生产、食品、环境保护和检测等领域li-3]。

它综合了分子生物学、半导体微电子技术、激光、化学、计算机科学等众多学科领域的相关技术,使其具有高通量、快速、并行化采集生物信息的特点问;同时,大规模、高通量的信息获得也对“海量”数据的分析及信息的提取提出了新的挑战,如基因芯片数据的标准化、样本(或基因)间距离的度量以及样本(或基因)的监督和非监督分类等分析方法,力图将无机的信息数据和有机的生命活动结合起来阐释生命特征及基因功能,已经成为生物信息学的研究课题嘲。

这些探索基因功能的新技术和新方法是目前研究的重点,新的分析工具和方法不断产生。

本文就基因芯片实验数据现有的基础分析方法做一个概括的总结,并介绍一些新的分析方法。

1.基因芯片数据的获取及标准化芯片上的每个点包含2个数值成分:信号值和背景值。

信号值是指芯片数据的真实强度值,这些数值能提供相关基因表达的量化信息;背景值则指那些因不真实的生化反应导致的强度值。

生物芯片通过探针与经荧光标记的目标样品进行生物反应,使用芯片专用检测系统,经荧光共聚焦扫描进行荧光信号的采集,通过图形分析软件产生每个点信号及其背景的数据,最终转化成可计算的数字信息;但标记物的差异、标记效率、空间位置的差异、荧光标记检测效能的差异以及样品RNA的原始浓度的差异等,都可能对基因表达结果产生影响。

生物信息学作业

生物信息学作业

B7家族成员生物信息学分析作业
T细胞最适活化除了需要TCR传导的第一信号外,还需共刺激分子传导的第二信号。

其中研究最多、最清楚、认为最有意义的共刺激分子是B7-1和B7-2分子,它们与受体CD28分子或CTLA-4分子相互作用,在T细胞生长、分化和死亡中起重要作用。

在寻找B7-1和B7-2的同源分子过程中,最近发现了B7家族的新成员B7H1(B7 homolog 1)、B7H2(B7 homolog 2)、B7H3(B7 homolog 3)和B7H4(B7 homolog 4)分子。

作业要求对B7家族的这几个成员进行了生物信息学分析(主要包括:人源、鼠源B7家族成员基因cDNA序列之间、氨基酸序列之间的同源性比较及发生树分析、蛋白质结构分析、三级结构预测等),并对扩增和检测B7H4基因进行了引物和探针设计。

B7家族人源、鼠源等自己从相关数据库获得的、相关生物信息学分析越多加分。

作业提供了B7家族人源、鼠源的相关序列文件。

数据获得、利用软件分析、思路等需要文字说明和截图说明,不详细的扣分。

作业在开学第一周交,即2月28日之前。

发到jiabinxj@。

生物信息学作业1.doc

生物信息学作业1.doc

生物信息学实验作业试验一一.找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号, 并记录查找过程。

GI:224576211步骤1.进入NCBI主页2.搜索arabidopsis phyA3.Arabidopsis thaliana phytochrome A (PHYA) gene, partial cds4.VERSION:GI:224576211二.以phyA为检索词,在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。

Results: 614三.仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释,理解各字段的含义,并比较NCBI 与EMBL中序列格式的异同。

实验二一.分析你感兴趣核酸序列的分子质量、碱基组成。

Composition 35 A; 25 C; 35 G; 15 T; 0 OTHERPercentage: 32% A; 23% C; 32% G; 14% T; 0%OTHERMolecular Weight (kDa): ssDNA: 34.26 dsDNA: 67.8二.列出你所分析核酸序列(或部分序列)的互补序列、反向序列、反向互补序列、DNA双链序列和RNA 序列。

R S1 ACTACTCGAG AAGCAGCGAC AGAGGCGTTA GCCCGCTCAG CAGACTGGCA GTTCTCTACC61 GACAAAAAAG AGGTAGGAGG CACAGTAATG ATACAGGCGT AGCAGGAGGGC S1 CCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 TGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTR C S1 TGATGAGCTC TTCGTCGCTG TCTCCGCAAT CGGGCGAGTC GTCTGACCGT CAAGAGATGG61 CTGTTTTTTC TCCATCCTCC GTGTCATTAC TATGTCCGCA TCGTCCTCCCD DNA S1 GGGAGGACGA TGCGGACATA GTAATGACAC GGAGGATGGA GAAAAAACAG CCATCTCTTGCCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 ACGGTCAGAC GACTCGCCCG ATTGCGGAGA CAGCGACGAA GAGCTCATCATGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTRNA S1 GGGAGGACGA UGCGGACAUA GUAAUGACAC GGAGGAUGGA GAAAAAACAG CCAUCUCUUG61 ACGGUCAGAC GACUCGCCCG AUUGCGGAGA CAGCGACGAA GAGCUCAUCA三.列出核酸序列的限制性酶切位点分析结果(酶及识别位点)。

生物信息学习题

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵,用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵,用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有 、
、、

等。
2、对位排列主要有局部比对和 三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上,将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章 后基因组时代的生物信息学(问题与练习)
1、 比较生物还原论与生物综合论的异同 2、 简述“后基因组生物信息学”的基本研究思路 3、 后基因组生物信息学的主要挑战是什么? 4、 功能基因组系统学的基本特征是什么? 5、 说明后基因组生物信息学对信息流动的最新理解 6、 列举几种预测蛋白质-蛋白质相互作用的理论方法 7、 解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、 解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、 解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小?
5、对于下列 5 条序列的比对构造一个距离矩阵,其中序列之间的距离值为比对中失配的碱
基数目,但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学实验作业试验一一.找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号, 并记录查找过程。

GI:224576211步骤1.进入NCBI主页2.搜索arabidopsis phyA3.Arabidopsis thaliana phytochrome A (PHYA) gene, partial cds4.VERSION:GI:224576211二.以phyA为检索词,在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。

Results: 614三.仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释,理解各字段的含义,并比较NCBI 与EMBL中序列格式的异同。

实验二一.分析你感兴趣核酸序列的分子质量、碱基组成。

Composition 35 A; 25 C; 35 G; 15 T; 0 OTHERPercentage: 32% A; 23% C; 32% G; 14% T; 0%OTHERMolecular Weight (kDa): ssDNA: 34.26 dsDNA: 67.8二.列出你所分析核酸序列(或部分序列)的互补序列、反向序列、反向互补序列、DNA双链序列和RNA 序列。

R S1 ACTACTCGAG AAGCAGCGAC AGAGGCGTTA GCCCGCTCAG CAGACTGGCA GTTCTCTACC61 GACAAAAAAG AGGTAGGAGG CACAGTAATG ATACAGGCGT AGCAGGAGGGC S1 CCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 TGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTR C S1 TGATGAGCTC TTCGTCGCTG TCTCCGCAAT CGGGCGAGTC GTCTGACCGT CAAGAGATGG61 CTGTTTTTTC TCCATCCTCC GTGTCATTAC TATGTCCGCA TCGTCCTCCCD DNA S1 GGGAGGACGA TGCGGACATA GTAATGACAC GGAGGATGGA GAAAAAACAG CCATCTCTTGCCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 ACGGTCAGAC GACTCGCCCG ATTGCGGAGA CAGCGACGAA GAGCTCATCATGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTRNA S1 GGGAGGACGA UGCGGACAUA GUAAUGACAC GGAGGAUGGA GAAAAAACAG CCAUCUCUUG61 ACGGUCAGAC GACUCGCCCG AUUGCGGAGA CAGCGACGAA GAGCUCAUCA三.列出核酸序列的限制性酶切位点分析结果(酶及识别位点)。

Restriction analysis on USMethylation: dam-No dcm-NoScreened with 117 enzymes, 5 sites foundEcl136II 1 GAG/CTC103EcoICRI 1 GAG/CTC103SacI 1 GAGCT/C105SapI 1 GCTCTTCN/93SstI 1 GAGCT/C105List by Site Order93 SapI 103 Ecl136II 105 SstI 105 SacI103 EcoICRINon Cut EnzymesAatII Acc65I AccIII AclI AflII AgeIAhaIII Alw44I AlwNI ApaBI ApaI ApaLIAscI Asp718I AsuII AvrII BalI BamHIBbeI BbvII BclI BglI BglII Bpu1102IBsc91I BsiI BsmI Bsp1407I BspHI BspMIBspMII BssHII BstD102I BstEII BstXI Bsu36IClaI Csp45I CspI CvnI DraI DraIIIDrdI EagI Eam1105I Eco31I Eco47III Eco52IEco56I Eco57I Eco72I EcoNI EcoRI EcoRVEheI EspI FseI HindIII HpaI I-PpoIKpnI MfeI Mlu113I MluI MscI MstIMstII NaeI NarI NcoI NdeI NheINotI NruI NsiI PacI PflMI PinAIPmaCI PmeI PstI PvuI PvuII RleAISacII SalI SauI ScaI SciI SfiISgrAI SmaI SnaBI SpeI SphI SplISpoI SrfI SspI SstII StuI SunISwaI Tth111I VspI XbaI XcmI XhoIXmaI XmaIII XmnI XorIIRestriction sites on US1 GGGAGGACGATGCGGACATAGTAATGACACGGAGGATGGAGAAAAAACAGCCATCTCTTGSacISstIEcl136IISapI EcoICRI61 ACGGTCAGACGACTCGCCCGATTGCGGAGACAGCGACGAAGAGCTCATCA四.分析一对你所设计的引物,并对其进行综合评判。

2 GGAGGACGATGCGGACATAOligo: 5'-GGAGGACGATGCGGACATA-3'Primer1: 19 basesComposition 6 A; 3 C; 8 G; 2 T; 0 OTHERPercentage: 31% A; 15% C; 42% G; 10% T; 0%OTHERMW=5.99 kDaHybridization: D:DSalt: 50 mMFormamide: 0%Mismatch: 0 bpThermo Tm = 62.0 Hybridization Tm = 52.1 GC+AT Tm = 60.0 Primer-US(1-110) complementarity.First complementarity in continuous: 19 bp5'-GGAGGACGATGCGGACATA-3' Primer|||||||||||||||||||3'-CCTCCTGCTACGCCTGTAT-5' (20) Strand -No second possible complementarityMax complementarity in discontinuous: 19 bp5'-GGAGGACGATGCGGACATA-3' Primer|||||||||||||||||||3'-CCTCCTGCTACGCCTGTAT-5' (20) Strand -105 AGCTCTTCGTCGCTGTCTCCOligo: 5'-AGCTCTTCGTCGCTGTCTCC-3'Primer1: 20 basesComposition 1 A; 8 C; 4 G; 7 T; 0 OTHER Percentage: 5% A; 40% C; 20% G; 35% T; 0%OTHER MW=6.07 kDaHybridization: D:DSalt: 50 mMFormamide: 0%Mismatch: 0 bpThermo Tm = 62.2 Hybridization Tm = 54.5 GC+AT Tm = 64.0 Primer-US(1-110) complementarity.First complementarity in continuous: 20 bp5'-AGCTCTTCGTCGCTGTCTCC-3' Primer||||||||||||||||||||3'-TCGAGAAGCAGCGACAGAGG-5' (86) Strand +No second possible complementarityMax complementarity in discontinuous: 20 bp5'-AGCTCTTCGTCGCTGTCTCC-3' Primer||||||||||||||||||||3'-TCGAGAAGCAGCGACAGAGG-5' (86) Strand +五.运用Sequin软件进行序列提交,并打印你完成的序列提交文件(后缀为.sqn)。

LOCUS GY482612 110 bp mRNA linear UNA 17-FEB-2002 DEFINITION Sequence 33 from patent US 8030290.ACCESSION GY482612VERSION GY482612.1 GI:353292184KEYWORDS .SOURCE unidentifiedORGANISM unidentifiedunclassified sequences.REFERENCE 1 (bases 1 to 110)AUTHORS chen,h.TITLE Sequence 33 from patent US 8030290JOURNAL UnpublishedREFERENCE 2 (bases 1 to 110)AUTHORS chen,h.TITLE Direct SubmissionJOURNAL Submitted (17-FEB-2002) SCAU, Bio, yucheng, yanan, sichuan, Chinai FEATURES Location/Qualifierssource 1..110/organism="unidentified"/mol_type="mRNA"/db_xref="taxon:32644"BASE COUNT 35 a 25 c 35 g 15 tORIGIN1 gggaggacga tgcggacata gtaatgacac ggaggatgga gaaaaaacag ccatctcttg61 acggtcagac gactcgcccg attgcggaga cagcgacgaa gagctcatca//。

相关文档
最新文档