2015年深圳杯B题DNA序列论文
2015年武汉科技大学616 分子生物学-2015(B卷答案)年考研真题/研究生入学考试试题

3、试述信号肽靶向输送的机制。
1)胞液核糖体上合成N端信号肽等氨基酸
2)SRP结合信号肽
3)大亚基锚定ER膜,使信号肽插入ER膜
4)信号肽启动肽链转位,肽链进入ER腔
5)信号肽酶识别并切去信号肽
6)HSP70消耗ATP,使多肽进入ER并折叠成功能构象
4、说出参与DNA复制的物质及其功能。
3、基因表达的阶段特异性:多细胞生物基因表达表现为与分化、发育阶段一致的时间性,因此称阶段特异性。
4、质粒:细菌细胞内染色体外的一类小型闭合环状的双螺旋DNA分子,能独立于染色体的重组DNA克隆群体,反映基因组表达的基因序列信息,用于研究特定细胞中基因的表达状态和表达基因的功能等。
请根据上述信息和已学知识设计一个思路,将目的基因从培养的鼠源CHO细胞中分离出来,克隆到载体上并进行筛选鉴定。
1、利用RT-PCR的方法获得带有XhoI/EcoR I酶切位点的待克隆的DNA片段(基因),然后用相同的内切酶酶切质粒与待克隆片段;
2、目的基因与载体在体外连接;
3、重组DNA分子导入宿主细胞;
4、筛选、鉴定阳性重组子。
四、附加题(20分)
1、2009年诺贝尔生理学或医学奖的得主是那几位?得奖理由?其意义何在?
2009年诺贝尔生理学或医学奖共有三名获奖者,分别是:伊丽莎白H.布莱克本(Elizabeth H. Blackburn)、卡罗尔·W.葛莱德尔(Carol W. Greider)和杰克W.卓斯塔克(Jack W. Szostak)。得奖理由是发现了染色体端粒及端粒酶对染色体的保护机制。其意义在于解决了生物学研究领域中一个重大问题,即细胞分裂过程中,染色体如何完整复制,它们是如何受到保护而免于降解的。这些发现为推动衰老及肿瘤等领域的研究做出了巨大贡献。
2015年高考理综全国2卷试题及答案详解(试题与答案分开)

2015年普通高等学校招生全国统一考试理科综合能力测试〔全国2〕可能用到的相对原子质量:H 1 C 12 N 14 O 16 F 19 Na 23 AI 27 P 31 S 32 CL 35.5 Ca 40 Fe 56Zn 65 Br 80第I卷一.选择题:此题共13小题,每题6分,在每题给出的四个选项中,只有一项是符合题目要求的 1.将三组生理状态相通的某种植物幼根分别培养在含有相同培养液的密闭培养瓶下,一段时间后,测定根吸收某一矿质元素离子的量。
培养条件及实验结果见下表:以下分析正确的选项是A.有氧条件有利于该植物幼根对该离子的吸收B.该植物幼根对该离子的吸收与温度的变化无关C.氮气环境中该植物幼根细胞吸收该离子不消耗ATPD.与空气相比,氮气环境有利于该植物幼根对该离子的吸收2.端粒酶由RNA和蛋白质组成,该酶能结合到端粒子上,以自身的RNA为模板合成端粒子DNA 的一条链。
以下表达正确的选项是A.大肠杆菌拟核的DNA中含有端粒B.端粒酶中的蛋白质为RNA聚合酶C.正常人细胞的每条染色体两端都含有端粒DNAD.正常体细胞的端粒DNA随细胞分裂次数增加而变长B. mRNA从细胞核到细胞质的过程4.以下有关生态系统的表达,错误的选项是......5.以下与病原体有关的表达,正确的选项是C. Rous肉瘤病毒不是致瘤因子,与人的细胞癌变无关6.以下关于人类猫叫综合征的表达,正确的选项是7.食品千操剂应无毒、无味、无腐蚀性及环境友好。
以下说法错误的选项是......B.P2O5不可用作食品干操剂C18H26O5,1mol该酯完全水解可得到1mol羧酸和2mol乙醇,该羧酸的分子式为A.C14H18O5B.C14H16O4C.C16H22O5D.C16H20O59.原子序数依次增大的元素a、b、c、d,它们的最外层电子数分别为1、6、7、1。
a-的电子层结构与氦相同,b和c的次外层有8个电子,c-和d+的电子层结构相同。
广东省深圳市2015年高三第一次调研考试理综试题带答案

2015年深圳市高三年级第一次调研考试理科综合一、单选题相对原子质量: H 1 C 12 N 14 O 16 S 32 Cl 35.5 Br 80 Li 7 Na 23 Al 27Cu 64 Fe 56 Co 591.下列有关真核细胞生物膜的叙述错误的是A.生物膜上可合成ATPB.性激素的合成与生物膜有关C.生物膜上可发生信号转换D.流动镶嵌模型属于概念模型 2.人体细胞中的某基因活化后,导致细胞癌变。
相关推测最合理的是A.该基因基本组成单位是脱氧核糖核酸B.该基因活化后其细胞周期缩短C.癌细胞表面的糖蛋白数量会明显增多D.癌细胞中DNA 聚合酶活性降低 3.某研究性学习小组调查了土壤中小动物类群的丰富度,结果如下表。
相关分析正确的是A.表中所列出的三种动物均为消费者B.可用标志重捕法调查表中土壤动物的种群密度C.土壤中的小动物没有垂直分层现象D.实验探究了水分和时间对土壤动物分布的影响 4.下列与核酸有关的说法正确的是A.含RNA 的生物一定含DNAB.含DNA 的生物一定含RNAC.含RNA 的细胞器一定含DNAD.含DNA 的活细胞一定含RNA 5.关于生物进化的说法正确的是A.随机交配使种群基因库发生改变B.自然选择直接作用于生物个体的表现型C.新物种的产生必须经过地理隔离D.共同进化只发生在生物与无机环境之间6.某课题组以南瓜为实验材料,应用赤霉素和生长素进行相关研究。
结果如下图,据图分析正确的是A. 南瓜突变体为上述激素合成缺陷型B. 生长素和赤霉素生理作用表现为拮抗关系C. 赤霉素对南瓜突变体生理作用明显D. 生长素对正常南瓜的生理作用表现两重性 7.下列有关说法中,正确的是A .光导纤维、聚酯纤维、棉花都属于有机高分子化合物赤霉素浓度(mmol/L ) 0 生长素浓度(μmol/L )B.在大米酿酒的过程中,淀粉最后变成了单糖C.“地沟油”经过加工处理后可以用来制肥皂D.明矾和漂白粉处理自来水,二者的作用原理相同8.N A为阿伏加德罗常数。
2015年高考(课标卷Ⅱ)理综生物部分试题答案及解析

2015年高考(课标卷Ⅱ)理综生物部分试题答案及解析(适用地区:青海、西藏、甘肃、贵州、吉林、宁夏、内蒙古、黑龙江、新疆、云南、辽宁)一.选择题(每小题6分,共36分)1.将三组生理状态相同的某植物幼根分别培养在含有相同培养液的密闭培养瓶中,一段时间后,测定根吸收某一矿质元素离子的量。
培养条件及实验结果见下表:培养瓶中气体温度(°C)离子相对吸收量(%)空气17 100氮气17 10空气 3 28下列分析正确的是A.有氧条件有利于该植物幼根对该离子的吸收B.该植物幼根对该离子的吸收与温度的变化无关C.氮气环境中该植物幼根细胞吸收该离子不消耗ATPD.与空气相比,氮气环境有利于该植物幼根对该离子的吸收【答案】A【解析】本题通过不同条件下幼根对离子吸收量实验考查实验分析能力,难度较小。
17o C条件下氮气(缺氧)环境下该植物幼根对离子的吸收量比氧气条件下低,说明幼根吸收离子需要消耗ATP,与空气环境相比不利于该植物幼根对离子的吸收,A正确,C、D错误。
空气中培养,温度为17o C,离子吸收量明显高于3o C,可知该植物幼根对离子吸收与温度有关,B错误。
2.端粒酶由RNA和蛋白质组成,该酶能结合到端粒上,以自身的RNA为模板合成端粒DNA 的一条链。
下列叙述正确的是A.大肠杆菌拟核的DNA中含有端粒B.端粒酶中的蛋白质为RNA聚合酶C.正常人细胞的每条染色体两端都含有端粒DNAD.正常体细胞的端粒DNA随细胞分裂次数增加而变长【答案】C【解析】本题考查有关端粒的知识,考查知识的记忆及信息获取与分析能力,难度较小。
依据端粒学说,端粒酶存在于染色体的两端,以此排除A选项(大肠杆菌无染色体);依据端粒酶以自身RNA为模板合成端粒DNA判定端粒酶应该是逆转录酶而非RNA聚合酶,故B错;正常细胞的端粒DNA序列在每次分裂后会缩短一截,故D项错误。
3.下列过程中,不.属于胞吐作用的是A.浆细胞分泌抗体到细胞外的过程B.mRNA从细胞核到细胞质的过程C.分泌蛋白从胰腺的腺泡细胞到胞外的过程D.突触小泡中的神经递质释放到突触间隙的过程【答案】B【解析】本题考查对胞吐作用的理解与判断,考查学生的分析理解能力,难度较小。
2015年《科学》和《自然》刊发植物生物学论文盘点

2015年《科学》和《自然》刊发植物生物学论文盘点2015年《科学》和《自然》刊发植物生物学论文盘点《科学》(17篇)1.发现在根分生组织起始过程中起作用的关键基因(NTT及其同源基因),其正常表达决定了根分生组织远端干细胞的命运,错位表达将使根中的其它干细胞转变为远端干细胞。
Genetic control of distal stem cell fate within root and embryonic meristems. 347 (6222): 655-659, February 2015.2.揭示了植物内源基因,尤其是蛋白编码基因,如何避免遭受细胞内重要的免疫机制——转录后基因沉默系统的攻击。
Suppression of endogenous gene silencing by bidirectional cytoplasmic RNA decay in Arabidopsis. 348 (6230): 120-123, April 2015.3.高等植物光系统I(PSI)光合膜蛋白超分子复合物2.8 ?的高分辨率晶体结构。
Structural basis for energy transfer pathways in the plant PSI-LHCI supercomplex. 348 (6238): 989-995, May 2015.4.通过比较两种玫瑰栽培品种Papa Meilland与Rogue Meilland 的转录组,发现玫瑰的芬芳是由RhNUDX1酶(花瓣细胞的胞质中起作用)催化的。
Biosynthesis of monoterpene scent compounds in roses. 349 (6243): 81-83, July 2015.5.揭示出人们长期探索的一个基因STORR(只存在于产生吗啡喃类的罂粟物种中),是合成吗啡类生物碱(包括止痛药吗啡和可卡因)关键步骤的基因。
2015届高三生物第一轮细致复习典型题DNA分子的结构和复制及基因是有遗传效应的DNA片段试题(含解析)

DNA 分子的结构和复制及基因是有遗传效应的DNA 片段一、DNA 分子的结构答案:1.C 、H 、O 、N 、P A 、T 、G 、C 脱氧核糖 脱氧核苷酸 脱氧核苷酸链 DNA 分子双螺旋2.判断正误。
(1)DNA 的两条核糖核苷酸链反向平行盘旋成双螺旋结构。
( )(2)DNA 双螺旋结构的基本骨架是由脱氧核糖和磷酸交替连接而成的。
( )(3)两条链上的碱基通过氢键连接成碱基对。
( )“3”→三种物质:○、、;“4”→四种碱基对应四种脱氧核苷酸;“5”→五种元素:含(4)DNA上碱基对的形成遵循碱基互补配对原则,即A=U,G=C。
( )答案:2.(1)×(2)√(3)√(4)×◎想一想:A—T之间两个氢键,C—G之间三个氢键,什么样的DNA分子结构较稳定?提示:C和G的比例高的DNA分子结构稳定。
二、DNA分子的复制(填表)答案:亲代DNA 子代DNA 有丝分裂减数第一次分裂细胞核DNA的两条链脱氧核苷酸ATP 解旋酶解旋酶DNA聚合酶碱基互补配对双螺旋边解旋边复制半保留子代DNA分子遗传信息连续性◎想一想:DNA 分子为什么能够复制?提示:DNA 分子独特的双螺旋结构提供了精确的模板,碱基互补配对保证了复制的准确进行。
三、基因是有遗传效应的DNA 片段(判断正误)1.构成基因的碱基总数与DNA 分子的碱基总数相等。
( )2.基因是有遗传效应的DNA 片段。
( )3.不同DNA 分子携带遗传信息不同的根本原因在于碱基排列顺序不同。
( )4.DNA 的多样性主要取决于碱基排列顺序的多样性。
( )答案:1. × 2.√ 3.√ 4.√DNA 分子的结构、基因的本质1.(2013·广东卷,2)1953年Watson 和Crick 构建了DNA 双螺旋结构模型,其重要意义在于( )①证明DNA是主要的遗传物质②确定DNA是染色体的组成成分③发现DNA如何存储遗传信息④为DNA复制机构的阐明奠定基础A. ①③B. ②③C. ②④D. ③④解析:构建DNA双螺旋结构模型,不能证明DNA是主要的遗传物质,而噬菌体侵染细菌的试验证明了DNA是遗传物质,故①错误。
DNA双螺旋结构研究_生物论文作业

DNA双螺旋结构摘要:1953年4月25日在生物科学史上是个值得几年的日子,两位科学家在《自然》杂志上发表了一篇论文展示了他们的研究成果——DNA双螺旋分子模型,这不足两页的论文在随后向世界展示了伟大的力量。
DNA的发现及研究经历了无数来自不同领域科学家的努力,其研究成果在生物科学史上具有重大意义,其研究过程也极具教育意义,带给我们很多启发。
关键词:双螺旋结构、发展、分子生物学、启发20世纪对于遗传学而言极其特殊,成为发展最快、变化最烈的生物科学学科。
1900年,孟德尔解释的生物遗传被重新发现,2000年人类基因组全序列工作草图宣告完成,这展现了整整100年来遗传学的重大成就,而将这两件大事连接起来的则是1953年沃森和克里克共同提出DNA双螺旋结构模型。
一、发现历程——多代科学家的努力DNA,其中文译名为脱氧核糖核酸,其结构为双螺旋结构,是染色体的主要化学成分,DNA或RNA分子上具有遗传信息的特定核苷酸序列被称为基因。
这些在现代生物学书籍上翻阅即见的知识经历了及其复杂的发现历程。
1859年,达尔文在《物种的起源》一书提出生物进化学说,系统地提出了遗传在生命世界中的重要作用。
1865年,孟德尔通过豌豆子代性状显示的规律,首先发现了由父母向子代遗传,并且能够一代一代遗传下去的。
但他的发现过了30多年以后才被其他几位科学家重新发现。
1869年科学家迈斯切从鱼的精子细胞核中分离出DNA分子。
1882年弗莱明在火蜥蜴幼虫体内发现染色体。
1914年富尔根发现DNA可以染色。
1920年代,生化学家分析了DNA的分子构成,发现它由四种核苷酸分子组成。
1944年,有几位科学家初步确定了转化因子存在于DNA上,不在蛋白质上。
1950年,查伽夫指出DNA中碱基分子A和T、C和G的数目是相等的,鲍林成功发现了蛋白质的α螺旋结构。
1951年威尔金斯和富兰克林取得更为清晰的DNA衍射照片,他们所提供的X 射线照片成为发现双螺旋结构最重要的实验根据。
2015年全国中学生生物学联赛试题及官方答案(精排精校)

2019年全国中学生生物学联赛试题注意事项:1.所有试题使用2B铅笔在机读卡上作答;2.试题按学科分类,单选和多选题混排,单选题每题1分,多选题答案完全正确才可得2分;120题,共计151分;3.答题时间120分钟。
一、细胞生物学、生物化学、微生物学、生物信息学、生物技术31题39分1.细胞分化发生在细胞周期哪一阶段:(单选)A.细胞分裂前期B.细胞分裂间期C.细胞分裂中期D.细胞分裂末期2.细胞骨架是由一系列结构蛋白装配而成的纤维状网架结构,在细胞运动、物质运输、能量转换、信息传递、细胞分裂、免疫行为、细胞分化以及细胞形态维持等过程中发挥重要作用。
下列不属于细胞骨架的是:(单选)A.微丝B.微管C.中间纤维D.内质网3.下列哪种细胞最适合用来研究溶酶体:(单选)A.肌肉细胞B.神经细胞C.具有吞噬作用的白细胞D.细菌细胞4.ICM(内细胞团)属于:(单选)A.人工诱导干细胞B.胚胎干细胞C.多能干细胞D.化学诱导干细胞5.下列哪种特征是癌细胞特有的:(单选)A.细胞进行频繁分裂B.血管新生C.基因突变D.进行组织浸润6.受体是细胞膜上或细胞内能识别生物活性分子并与之结合的物质,能与受体结合的生物活性物质统称为配体。
下列有关受体的描述中,不正确的是:(单选)A.—般为糖蛋白B.与配体的结合具有特异性和亲和性C.通过共价键与配体结合D.具有饱和效应7.如果一种质膜糖蛋白是通过膜泡分泌途径来自于高尔基复合体,该蛋白寡糖链和N端都面向高尔基体腔内,那么在质膜上,该糖蛋白的寡糖链和N端面向:(单选)A.胞外面B.胞质面C.寡糖链在胞外面,N端在胞质面D.寡糖链在胞质面,N端在胞外面8.以下哪项描述与马达蛋白的功能不相关:(单选)A.鞭毛和纤毛的运动B.肌肉收缩C.蛋白质的折叠D.有丝分裂中染色体的移动9.以下脂质分子中,具有乳化作用的是:(单选)A.甘油三酯B.棕榈酸钠C.甘油磷脂D.胆固醇10.下列几种不同碱基组成比例的DNA分子,哪一种DNA分子的Tm值最高:(单选)A.A+T=15% B.G+C=25% C.G+C=40%D.A+T=80% E.G+C=35%11.蛋白质组学是:(单选)A.研究一个基因组所表达的全套蛋白质B.研究蛋白质序列以发现新的蛋白质C.研究DNA与蛋白质的复合物D.研究蛋白质合成过程中的能量消耗12.大肠杆菌DNA复制过程中,下列哪种酶不参加该生物学过程:(单选)A.DNA聚合酶B.RNA聚合酶C.DNA连接酶D.RNA酶E.端粒酶13.在亲和层析中,如果使用链霉亲和素制备亲和吸附剂,则目标蛋白质需要具有:(单选)A.多聚His标签B.HA标签C.生物素标签D.泛素标签14.Sanger终止法测序中,用于使DNA合成反应终止的是:(单选)A.dNDP B.ddNDP C.dNTP D.ddNTP15.蛋白质泛素化修饰是一种重要的蛋白质翻译后修饰调控方式,以下关于蛋白质泛素化修饰的说法,错误的是:(单选)A.蛋白质上特定的Lys侧链与泛素之间形成共价连接B.蛋白质泛素化修饰是不可逆的C.蛋白质泛素化修饰可调节蛋白质的降解D.泛素是一种低分子量的蛋白质16.染色质DNA的碱基可被甲基化,DNA甲基化的作用是:(单选):A.关闭某些基因B.可关闭某些基因,同时活化另一些基因C.与基因表达调节无关D.活化某些基因17.以下四个代谢反应中,没有焦磷酸生成的反应是:(单选)A.生成UDP-葡萄糖的反应B.生成脂酰CoA的反应C.生成精胺琥珀酸的反应D.生成谷氨酰胺的反应18.质粒是一种存在于微生物细胞染色体外的DNA分子,它们:(单选)A.大多数是双链、环状DNA分子B.大多数是单链、环状DNA分子C.大多数是线性的DNA分子D.大多数是线性的RNA分子19.与革兰氏阴性菌相比,革兰氏阳性菌细胞壁中特有的组分是:(单选)A.肽聚糖B.脂多糖C.蛋白质D.磷壁酸20.GenBank主要收集:(单选)A.基因化学样品B.遗传物质化学样品C.遗传物质的序列信息D.蛋白质的结构信息21.高通量测序方法在下面哪种实验中没有应用:(单选)A.基因表达谱检测B.全基因组变异检测C.基因组甲基化检测D.蛋白质表达检测E.非编码RNA表达检测22.用超声波处理烟草基因组DNA后,用下列哪一个工程酶处理可以获得平末端片段,用于后续克隆:(单选)A.限制性内切酶B.大肠杆菌DNA聚合酶C.Klenown片段D.反转录酶23.下列哪个指标能证明在大肠杆菌中成功表达了外源酶蛋白质:(单选)A.核酸杂交证明蛋白质表达B.在蓝白筛选中菌落呈现蓝色C.RT-PCR能扩增外源基因D.纯化目的蛋白质具有酶活性24.革兰氏染色是重要的细菌鉴别染色,影响革兰氏染色结果的关键因素是:(多选)A.菌株培养时间B.菌液稀释倍数C.涂片时间D.固定方式E.酒精脱色时间25.可以由RNA聚合酶III转录的RNA包括:(多选)A.5SrRNA B.mRNA C.tRNA D.部分miRNA 26.核仁中存在的生物成分为:(多选)A.rDNA B.28SrRNAC.16SrRNA D.RNA聚合酶ⅡE.RNA聚合酶I27.以下哪些蛋白质与其配体之间的相互作用中存在明显的诱导契合效应:(多选)A.抗体与抗原B.氧结合蛋白与氧分子C.己糖激酶与葡萄糖D.蛋白激酶A与cAMP28.细胞是完美的能量转换器,能够将化学的、电磁的、机械的及渗透形式的能量有效地进行转换。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
封一 答卷编号(参赛学校填写):
答卷编号(竞赛组委会填写): 论文题目: B题 组 别: 本科生 参赛队员信息(必填): 姓 名 年级专业 学 号 联系电话 参赛队员1 邓鑫 14机制二班
参赛队员2 徐晓睿 14机制二班
参赛队员3 陈杰 14机制二班
指导教师:____ 刘宪敏 _ 参赛学校: 沈阳农业大学 封二 答卷编号(参赛学校填写):
答卷编号(竞赛组委会填写): 评阅情况(学校评阅专家填写): 学校评阅1.
学校评阅2. 学校评阅3 ___ _ 评阅情况(联赛评阅专家填写):
联赛评阅1. 联赛评阅2. 联赛评阅3. 第 1 页
DNA 序列的k-mer index 问题 摘要: 随着生物技术和计算机技术交叉,合作的范围不断地扩大,深度不断地加深,字符串匹配在生物科学的信息检索领域有着广泛的应用,生物研究对DNA序列的碱基信息快速搜索的要求也与日俱增,DNA 序列的k-mer index 问题研究日益突出。本文在查阅了相关文献资料后,基于“数据结构”中的“Sunday算法[7]”,我们给出了一种函数覆盖优化Sunday算法,对DNA 序列的k-mer index 问题中给出固定值k ,进行碱基片段查找。 函数覆盖优化Sunday算法对所给出的大量数据的碱基序列先运用函数覆盖,同时把DNA序列进行分组预处理。 当数据链接时用函数覆盖,将整个DNA序列数据划分成若干个小的区域,然后再针对若干个小区域进行碱基片段的匹配。在划分小区域时,首先将每个小区域的末端多划分四个属于下个区域的碱基,其次在匹配的过程中需要按给定k值对小区域进行分组,之后再用算法对碱基片段进行匹配,最后再统计所有小区域与所要查找的碱基片段的匹配信息。匹配时经过优化后的算法能够实现同时对划分的所有区域进行查找,直到与所有DNA序列都进行了匹配。当匹配成功时,首先会自动将char *格式强制转换成void *格式,然后通过DNA碱基片段中第一个字符的指针访问DNA序列,最后输出DNA碱基片段中第一个字符的(常量)地址。 函数覆盖优化Sunday算法后的主要特点:查找速度简洁、高效、执行速度快。函数覆盖优化Sunday算法,因为快速跳跃匹配和多区域同步搜索的特征使它可以快速的生成数据和信息。实现了对DNA序列数据库的查找,在DNA序列中可以得到固定k 长度的碱基片段的位置。
关键词:Sunday算法,函数覆盖,字符串匹配,碱基序列,数据库。 第 2 页
1问题重述 给定一个DNA 序列,这个系列只含有4 个字母ATCG,如S =“CTGTACTGTAT”。 给定一个整数值k,从S 的第一个位置开始,取一连续k 个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA), 然后从S 的第二个位置, 取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S 的末端,就得一个集合,包含全部k-mer 。如对序列S 来说,所有5-mer 为 {CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT} 通常这些k-mer 需一种数据索引方法,可被后面的操作快速访问。例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA 序列S 中的位置为{1,6}。 解决以下问题: 现在以文件形式给定100 万个DNA 序列,序列编号为1-1000000,每个基因序列长度为100 。 (1)要求对给定k,给出并实现一种数据索引方法,可返回任意一个k-mer 所在的DNA 序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k 值。 (2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。 (3)给出建立索引所用的计算复杂度,和空间复杂度分析。 (4)给出使用索引查询的计算复杂度,和空间复杂度分析。 (5)假设内存限制为8G,分析所设计索引方法所能支持的最大k 值和相应数据 查询效率。 (6)评价索引方法性能。包括:索引查询速度,索引内存使用,8G 内存下, 所能支持的k 值范围,建立索引时间。
2符号说明 iostream类(文件输入流和输出流类)[2] a:构造方法: #include 创建文件输入流类对象和已存在的文件相关联。文件不存在的话,并创建。 如:#include(C:\Users\dengxin\Desktop\DNA); b:#include 创建文件输出流类对象和已存在的文件相关联,并设置该该流对文件的操 作是否为续写。 如:#include(C:\Users\dengxin\Desktop\DNA,at+); c: 表示在 #include 对文件再次写入时,会在该文件的结尾续写,并不会覆盖掉。主要方法:#include写入字符串。 当执行完此方法后,字符数据还并没有写入到目的文件中去。此时字符数据会保存在缓冲区中。此时在使用memcpy函数就可以使数据将目标数组地址增加到要追加数据的地址,从而保存到目的文件中去。 d: 定义函数:void exit(int status) exit()用来正常终结目前进程的执行, 并把参数status 返回给父进程, 而进程所有的缓冲区数据会自动写回并关闭未关闭的文件.。在关闭后,再写入或者刷新 第 3 页
的话,会显示EOF异常。 字符串读写函数 a:定义一个头文件,此文件是输入类对象,头文件是关联于源文件。 #include= #include b:主要方法 读字符函数fgets(字符数组名,n,文件指针); 其中的n是一个正整数。表示从文件中读出的字符串不超过 n-1个字符。在读入的最后一个字符后加上串结束标志'\0'。 例如:fgets(str,n,fp);的意义是从fp所指的文件中读出n-1个字符送入字符数组str中。
写字符函数fputc(字符量, 文件指针 ); fputc函数的功能是把一个字符写入指定的文件中。其中,待写入的字符量可以是字符常量或变量。 例如:fputc('a',fp);其意义是把字符a写入fp所指向的文件中。 exit()用来正常终结目前进程的执行, 释放与之关联的所有资源。 数据块读写函数fread和fwrite;
C语言还提供了用于整块数据的读写函数。可用来读写一组数据,如一个数组元素,一个结构变量的值等。 读数据块函数fread(buffer,size,count,fp);[6]
写数据块函数fwrite(buffer,size,count,fp); 其中: • buffer:是一个指针,在fread函数中,它表示存放输入数据的首地址。在fwrite函数中,它表示存放输出数据的首地址。 • size:表示数据块的字节数。 • count:表示要读写的数据块块数。 • fp:表示文件指针。 假设在发生碱基不匹配时S[i]≠T[j],1≤i≤N,1≤j≤M。此时已经匹配的碱基片段为u,并假设字符串u的长度为k,如图1。[8]明显的,S[L+i+1]肯定要参加下一轮的匹配,并且T[M]至少要移动到这个位置(即模式串T至少向右移动一个字符的位置)。每组DNA碱基序列中,当第一个K长度中没有子串(碱基片段)出现时,这个时候碱基片段的第一个碱基移动到k长度碱基之后的碱基的位置。
图1 Sunday算法不匹配的情况
分如下两种情况: (1) S[L+i+1]在模式串T中没有出现。这个时候模式串T[0]移动到S[L+i+1]之后的字符的位置,如图2。
图2 Sunday算法移动的第1种情况
图1
图2 第 4 页
(2)S[L+i+1]在模式串中出现。这里S[L+i+1]从模式串T的右侧,即按T[M-1]、T[M-2]、„T[0]的次序查找。如果发现S[L+i+1]和T中的某个碱基相同,则记下这个位置,记为k,1≤k≤M,且T[k]=S[L+i+1]。此时,应该把模式串T向右移动M-k个字符的位置,即移动到T[k]和S[L+i+1]对齐的位置,如图3。
图3 Sunday算法移动的第2种情况 依次类推,如果碱基完全匹配了,则碱基片段匹配成功;否则,再进行下一轮的移动,直到主串S的最右端结束。对于碱基片段的匹配问题,该算法执行速度较快。
3模型建立与求解 3.1函数覆盖分组 首先根据题目所给的文件中有10 0 万行的碱基序列,[1]其中每行序列的长度为10 0,我们用二维数组a[ 1 0 0 0 0 0 0 ] [ 1 0 0 ]存储所给的碱基序列, 函数覆盖对DNA序列进行分组,用指针数组将整个DNA序列分成若干小区域,我们要做的就是取定一个固定的k 值,将每行序列分成10 0 - k + 1 个长度为k 的序列, 查询某序列在DNA碱基序列中的编号和位置。
3.2算法匹配 Sunday算法是从前往后匹配,[4]在匹配失败时关注的是碱基片段中参加匹配的最末位碱基的下一位碱基,如果该碱基没有在匹配串中出现则直接跳过,即移动步长= 匹配串长度+ 1,如果DNA序列中匹配字符串的右侧一个碱基没在子串中,碱基片段移动步长=整个k长度碱基的距离+1,如果DNA序列中匹配范围内的右侧一个字符在子串中,碱基片段移动距离=子串长度-这个字符在子串中的位置。
3.3输入k,s 将输入的特定的k 个碱基片段在10 0 万行分成不同几个小序组中,[5]以跳跃匹配的形式进行匹配。 3.4位置输出 从左向右匹配过程中,当遇到不匹配的时候,看DAN序列中匹配范围之外的右侧第一个字符在子串中的最右位置 ,根据事先计算好的移动步长移动DAN序列指针,直到匹配,程序会输出所有要查找碱基片段的位置。(如果遇到重复的碱基片段和查找的k长度碱基片段相同的情况,我们在文章后面进行了分析和处理。)
图3