基因组学 第十三章 新一代测序技术与复杂疾病
全基因组测序技术在疾病诊断中的应用

全基因组测序技术在疾病诊断中的应用近年来,全基因组测序技术在疾病诊断中的应用逐渐得到了广泛的关注和重视。
全基因组测序技术指的是对一个体细胞的全部DNA序列进行测序,这种技术可以全面地分析一个人的基因组,了解其所有基因的作用,从而更好地诊断和治疗疾病。
一、全基因组测序技术的原理全基因组测序技术的实现需要借助高通量测序技术,通过将DNA样本分离成小片段进行测序,最终将这些片段拼接起来,得到原始DNA序列。
这一过程需要大量的计算资源,因为DNA序列的长度非常庞大,一个人的基因组包含的信息量相当于数十亿个字节,需要通过高性能计算机进行处理和存储。
二、1. 遗传性疾病的诊断遗传性疾病是指由基因突变引起的疾病,这类疾病在患病率和死亡率方面都有着严重的影响。
利用全基因组测序技术可以帮助医生和研究人员更好地了解不同人群中遗传因素的变化和基因突变的模式。
通过研究遗传性疾病和密切相关的基因变异,科学家可以更好地理解疾病的发生机制,提供有效的药物治疗方法。
2. 癌症的诊断和治疗癌症是一种普遍存在的疾病,全基因组测序技术可以用来分析癌症细胞中的DNA序列变异,寻找与癌症相关的基因和突变。
通过全基因组测序技术可以提供更准确的癌症诊断结果和更有效的治疗方法。
例如,在肺癌治疗方面,全基因组测序技术可以帮助医生更好地了解病人的基因突变情况,从而制定更贴近病人个体化治疗的方案。
3. 复杂疾病的研究全基因组测序技术可以帮助研究人员更好地了解复杂疾病的发生机制。
例如,研究人员可以通过全基因组测序技术分析大样本数据,研究与多个基因相关的复杂疾病的遗传基础,进一步了解疾病的发病机制和风险因素,为疾病的预防和治疗提供了更有效的手段。
三、未来的展望随着全基因组测序技术的不断发展和完善,其应用范围将会越来越广泛。
未来,全基因组测序技术可以应用于遗传咨询、药物开发、监测疾病进展等方面,为人类健康保驾护航。
总之,全基因组测序技术在疾病诊断和治疗上的应用已经成为了重要的研究方向,在未来的医学和健康领域中将会越来越广泛地应用。
遗传疾病的多基因遗传与复杂性研究

遗传疾病的多基因遗传与复杂性研究遗传疾病是由基因突变或变异引起的一类疾病。
在人类基因组计划的推动下,科学家们对遗传疾病的研究取得了显著进展。
然而,令人困惑的是,许多遗传疾病并非由单个基因突变引起,而是由多个基因和环境因素的复杂相互作用导致。
这种现象称为多基因遗传与复杂性。
本文将介绍多基因遗传与复杂性的研究进展,并探讨其在遗传疾病领域的意义。
1. 多基因遗传的概念多基因遗传是指一个特定病状或性状由多个基因共同决定的遗传模式。
与常见的单基因遗传疾病相比,多基因遗传疾病的发病机制更为复杂。
多个基因之间的相互作用及其与环境因素的相互作用,使得多基因遗传疾病的表型表现出很大的变异性和复杂性。
2. 多基因遗传疾病的研究方法如何研究多基因遗传疾病一直是遗传学领域的一项重要难题。
近年来,随着高通量测序技术和生物信息学的发展,研究人员利用系统生物学、基因组学和生物信息学等多学科的交叉手段,逐渐揭示了多基因遗传疾病的复杂性。
例如,关联分析、全基因组关联研究和群体遗传学等方法,可以帮助确定与疾病相关的基因位点,并进一步阐明这些位点之间的相互关系。
3. 多基因遗传与疾病的关系多基因遗传与疾病之间存在着复杂而微妙的关系。
一方面,基因突变或变异可能会增加个体患上特定疾病的风险。
然而,由于遗传和环境因素的相互作用,即使携带高风险位点的个体并不一定会发展出相应的疾病。
因此,多基因遗传疾病的发展往往与环境因素的调控紧密相关。
4. 多基因遗传研究的意义多基因遗传研究的深入可以帮助我们更好地理解遗传疾病的发病机制,并为预防、诊断和治疗提供重要依据。
通过研究多基因遗传疾病,我们可以揭示基因之间的相互作用网络,进一步了解基因调控网络的复杂性,以及环境因素与遗传因素在疾病发展中的作用。
同时,多基因遗传的研究成果还可以为个性化医疗和精准治疗提供理论与实践指导。
5. 多基因遗传疾病的未来展望随着技术的不断发展和研究方法的不断完善,多基因遗传疾病的研究将进一步深入。
新一代测序技术的原理及其应用

新一代测序技术的原理及其应用在生物学领域,测序技术是一种重要的手段,用于研究DNA 序列和基因功能等问题。
而随着科技的发展,新一代测序技术已经成为当前测序领域的主流方法,其所具有的高通量、高准确度和高分辨率的特点,极大地推动了遗传学、生物学、生态学以及医学等领域的研究。
本文将从原理及其应用两方面,介绍新一代测序技术。
一、新一代测序技术的原理新一代测序技术的原理是基于高通量测序技术,主要包括重复DNA片段的获取、连接、扩增、定向定深测序等步骤,其工作流程与传统测序技术有明显的区别。
1、DNA片段获取新一代测序技术会将DNA片段随机破碎成短序列,然后将其捕捉并固定到测序芯片上。
常见的捕捉方法有PCR、磁珠和基于特异性亲和力的方法等。
2、连接将特异性适配体连接到片段两端,并在适配体内加入引物,这些引物用于DNA聚合酶的扩增。
3、扩增通过PCR等方式进行多程扩增操作,得到大量的DNA复制品。
4、定向定深测序新一代测序技术在测序过程中,采用备选耗材对芯片进行重复扫描,同时获取更多的读取数据用于进一步分析。
这种方法能够大大提高测序的准确度和分辨率,从而帮助破解更加复杂的基因密码。
二、新一代测序技术的应用新一代测序技术在医学、农业、科学、环境等领域都有广泛应用,下面着重介绍一下其在医学领域的应用。
1、基因组学研究新一代测序技术可以对大规模的基因组进行测序,为对基因和基因组的变异研究提供了强有力的工具。
例如,它可以快速地发现基因突变等疾病的致病基因,同时为医学研究提供更加精准的方向和方法论。
2、个性化治疗新一代测序技术可以帮助医学研究人员确定个体在药物代谢方面的特征,进而为特定患者量身定制治疗计划。
这种方法能够避免药物过敏等副作用,提高治疗效应,从而将医学研究推向更为智能化、个性化的方向。
3、中生态学新一代测序技术可以对人体内营养元素和代谢产物进行分析以及相关微生物群的研究,从而深刻地揭示人体和微生物群体之间的关系,包括生存条件、代谢、营养以及疾病等方面。
基因组学研究中的遗传变异和复杂疾病关联分析

基因组学研究中的遗传变异和复杂疾病关联分析随着科学技术的发展,基因组学研究正在成为解开人类遗传谜团的关键所在。
在基因组学研究中,遗传变异和复杂疾病关联分析是重要的研究领域之一。
本文将讨论遗传变异和复杂疾病关联分析的重要性以及相关的方法和技术。
一、遗传变异的重要性遗传变异是指不同个体之间在基因序列上存在的差异。
这些差异可以包括单核苷酸多态性(SNP)、插入/缺失(indels)、复杂的结构变异等。
遗传变异在个体的形态、功能和疾病易感性方面发挥着重要作用。
通过对不同人群的基因组进行比较,我们可以发现这些变异与多种复杂疾病的发生发展密切相关。
二、复杂疾病的遗传基础复杂疾病是由多个遗传因素和环境因素的相互作用引起的疾病。
与单基因遗传疾病不同,复杂疾病通常涉及多个基因的变异以及其与环境因素的复杂相互作用。
研究表明,复杂疾病往往与遗传变异密切相关,而遗传变异可以通过影响基因表达、蛋白质功能以及信号通路的调控来影响疾病的发生和发展。
三、遗传变异和复杂疾病关联分析的方法和技术为了揭示遗传变异和复杂疾病之间的关联,研究人员采用了多种方法和技术。
其中,关联研究是最常用的一种方法。
关联研究通过分析人群中疾病患者和对照组的遗传变异信息,来确定遗传变异与疾病之间的关联程度。
这种方法在发现与复杂疾病相关的遗传变异方面取得了许多突破性发现。
此外,全基因组关联研究(GWAS)和全外显子组测序(WES)等技术的发展也为遗传变异和疾病关联分析提供了有力工具。
GWAS通过对大规模人群进行基因型分析和疾病表型的关联分析,可以揭示许多与疾病发生发展密切相关的遗传变异。
而WES则通过测序人体基因组中的编码区域,进一步深入研究遗传变异和复杂疾病的关联。
四、研究中的挑战和前景虽然遗传变异和复杂疾病关联分析已经取得了很多重要的发现,但仍面临一些挑战。
首先,由于复杂疾病的发生发展受到基因和环境的相互作用影响,研究人员需要进一步探索复杂的遗传和环境因素之间的相互作用机制。
遗传变异与复杂疾病的遗传学研究

遗传变异与复杂疾病的遗传学研究遗传变异与复杂疾病之间的关系一直是遗传学研究的重点。
在过去的几十年间,科学家们通过不断的实验证据和研究发现,遗传变异在复杂疾病的发病机制中扮演着重要的角色。
本文将探讨遗传变异与复杂疾病的关系,并介绍遗传学研究在理解这一关系方面的重要进展。
1. 遗传变异的定义遗传变异是指基因组中的任何改变,包括单核苷酸多态性(SNP)、插入缺失、基因组重排等。
这些变异可以造成基因功能的改变,进而对个体的表型产生影响。
由于人类基因组中存在大量的遗传变异,因此每个人的基因组都是独特的。
2. 复杂疾病的遗传学研究复杂疾病是指由多个基因和环境因素共同作用引起的疾病。
与单基因遗传病不同,复杂疾病的遗传学机制更为复杂。
研究人员通过对大量患者和健康人群进行基因组分析,发现在复杂疾病的发病过程中,遗传变异是一个重要的因素。
3. 候选基因和全基因组关联研究遗传学研究中常用的两种方法是候选基因研究和全基因组关联研究。
候选基因研究是选择与疾病可能相关的候选基因进行研究,而全基因组关联研究则是对整个基因组进行广泛的扫描和分析。
这两种方法在不同的研究中起到了互补的作用,帮助科学家们发现与复杂疾病相关的遗传变异。
4. 功能验证和动物模型研究仅仅发现与复杂疾病相关的遗传变异是不够的,科学家们还需要进一步验证这些变异是否真正与疾病发病相关。
功能验证是通过细胞实验和动物模型研究,探究遗传变异对基因功能和疾病发病机制的影响。
这些验证研究为后续探索治疗方法奠定了基础。
5. 高通量测序技术的应用高通量测序技术的快速发展为遗传学研究提供了强大的工具。
通过高通量测序,科学家们可以对大规模的样本进行基因组分析,深入研究复杂疾病的遗传学机制。
高通量测序技术的应用进一步推动了遗传变异与复杂疾病之间的关系的研究进展。
6. 精准医学的发展随着遗传学研究的不断深入,精准医学也逐渐崭露头角。
精准医学根据个体的基因组信息,为患者提供个性化的诊断和治疗策略。
生物信息学研究进展之人类基因组拷贝数变异与复杂疾病

2008年8月的一项研究发现,克罗恩病和IRGM基因 (与对抗侵入性细菌有关)上游区域20,000碱基对的缺 失之间存在相关。
2008年9月的一项研究证实了早先的发现,表明在 22号染色体的一个区域有长度为3百万碱基对缺失的人三 成患有精神疾病,像自闭症和精神分裂症。
2009 年 1 月 另 有 研 究 发 现 , 体 重 指 数 和 一 个 称 为 NEGR1的基因中45,000个碱基对缺失具有很高的相关性, 这个基因影响调节饥饿感和代谢的下丘脑的神经生长。
What makes humans unique?
美国科学家对比研究了人类和其它灵 长类动物的基因组,发现这可能是因为 人类某些基因的拷贝数与其它动物有很 大不同。
这一发现将有助于人们对疾病、寿命 等展开更深入的研究。相关论文发表于 2007年7月31日的Genome Research上。
以前的报道认为,CNVs之所以普遍存在是因为它对人 类的健康和进化有益。
生物信息学研究进展
拷贝数变异(CNVs)
(1860-1902年)
安妮-琼斯是美国一位长 有大胡子的女子,她是巴尔 努穆杂技团的亮点人物。
成年之后,她成为美国 最著名的“胡须女子”,并 作为杂技团“畸形人”的代 言人。她曾在俄罗斯进行巡 回表演,并以耶稣形象作为 绘画模特。
后期琼斯成为一位音乐家, 1902年,琼斯死于肺结核。
典型地,假如一个基因组含有某个基因的三份拷贝, 而不是正常的两份(分别来自父母),那么细胞就会用三 份拷贝都来生产、达并非总是如此,细胞不管怎样 还是维持正确的量;CNVs对调控另外的基因表达的DNA 区域有影响,使问题更加复杂。
尽管如此,科学家们已经将CNVs和一些复杂的疾病联 系起来。
基因诊断中测序技术的应用及优缺点

基因诊断中测序技术的应用及优缺点一、概述基因诊断,作为现代生物医学领域的一项重要技术,正逐步改变我们对人类遗传性疾病和复杂病症的认知。
测序技术作为基因诊断的核心手段,发挥着至关重要的作用。
测序技术通过直接对DNA或RNA 序列进行测定,能够精准地揭示个体的遗传信息,进而为疾病的预防、诊断和治疗提供有力支持。
随着科技的不断进步,测序技术也在不断更新换代,从早期的第一代测序技术,到如今的第二代、第三代测序技术,其测序速度、准确性和成本效益都得到了显著提升。
这些技术的发展,使得基因诊断的应用范围越来越广,不仅限于遗传性疾病的诊断,还逐渐扩展到肿瘤、心血管疾病、感染性疾病等多个领域。
测序技术在基因诊断中的应用也并非尽善尽美。
其优缺点并存,使得在实际应用中需要谨慎权衡。
优点方面,测序技术具有高度的准确性和灵敏度,能够检测到基因序列中的微小变异同时,其信息量巨大,能够为研究者提供丰富的遗传信息。
缺点也不容忽视,如测序成本较高、数据处理复杂、隐私保护问题等,都在一定程度上限制了测序技术的广泛应用。
在探讨基因诊断中测序技术的应用及优缺点时,我们需要全面、客观地分析其技术特点、应用范围及挑战,以期更好地推动其在生物医学领域的发展和应用。
1. 基因诊断的概念与重要性在《基因诊断中测序技术的应用及优缺点》一文的“基因诊断的概念与重要性”段落中,我们可以这样描述:基因诊断,即通过直接分析人类基因或基因产物来诊断疾病的方法,是现代医学领域中的一项重要技术。
它涉及对个体的基因组进行深入研究,以揭示与特定疾病相关的基因变异或异常表达。
基因诊断不仅为疾病的预防、早期发现和治疗提供了有力支持,还极大地推动了个性化医疗的发展。
基因诊断的重要性在于其能够提供精准、可靠的疾病诊断信息。
通过基因测序等技术,医生能够直接检测到与疾病相关的基因变异,从而明确疾病的遗传背景和发病机制。
这有助于实现疾病的早期发现和干预,提高治疗效果,降低医疗成本。
SNP关联分析与复杂疾病

SNP关联分析与复杂疾病SNP(Single Nucleotide Polymorphism,单核苷酸多态性)是人类基因组中最常见的遗传变异形式之一、研究表明,SNP在复杂疾病的发生和发展中起着重要的作用。
SNP关联分析是一种用于确定SNP与复杂疾病之间关系的方法,可以帮助我们了解疾病的发病机制、诊断和治疗方法。
在进行SNP关联分析之前,首先需要进行全基因组关联研究(GWAS)。
GWAS通过使用高通量技术,如DNA芯片和测序技术,对成千上万的SNP进行检测,并与复杂疾病的表型数据进行关联分析,以找到与疾病相关的SNP。
然后,通过统计学方法进行数据处理和分析,以确定SNP以及它们与疾病之间的关系。
根据研究目标和实际情况,SNP关联分析可以分为两种类型:关联性研究和功能性研究。
关联性研究是最常见的SNP关联分析方法。
它通过检测SNP在疾病发病群体和健康对照群体中的频率差异来确定SNP与复杂疾病之间的关联关系。
如果一些SNP在发病群体中的频率显著高于对照群体,就说明该SNP可能与该疾病的发生有关。
通过进行大规模的GWAS和复查实验,可以找到与复杂疾病相关的SNP。
功能性研究是在关联性研究的基础上,进一步研究SNP与复杂疾病之间的功能机制。
功能性研究可以通过分子生物学技术,如转录组学、蛋白质组学和表观遗传学等,来研究SNP对基因表达、蛋白质功能和细胞信号传导等方面的影响。
这将有助于我们深入了解SNP与疾病之间的关系以及疾病发生的生物学机制。
SNP关联分析在复杂疾病研究中的应用非常广泛,尤其是在研究遗传因素在疾病发生中的作用时。
例如,通过SNP关联分析,我们已经发现了很多与复杂疾病相关的基因。
例如,通过GWAS研究,已经发现了与2型糖尿病、心血管疾病、肺癌等多种复杂疾病相关的SNP。
这些研究有助于我们了解疾病的遗传基础,开发新的预防和治疗方法。
然而,SNP关联分析也存在一些挑战和限制。
首先,关联性研究只能确定SNP与疾病之间是否有关联,而不能确定SNP是导致疾病发生的原因。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章新一代测序技术与复杂疾病一、新一代测序技术基本概念(一)读段、重测序与从头测序将gDNA打碎形成小片断DNA的文库,这些小片断DNA能够在百万次平行反应中被一致且准确的测序。
新识别出的碱基串,被称为读段(read)。
使用一个已知的参考基因组作为支架将这些读段进行重新组合,这个过程被称为重测序(resequencing)。
在参考基因组缺失的情况下将读段进行组合,这个过程被称为从头测序(de novo sequencing)(二)测序分辨率、覆盖度与测序深度覆盖度,又称为测序深度(depth),一般定义为比对到样本DNA中单个碱基的测序读段数量的均值。
二、新一代测序技术常见测序仪及工作流程新一代测序仪产品:美国Roche Applied Science公司的454基因组测序仪美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪美国Applied Biosystems公司的SOLiD测序仪Dover/Harvard公司的Polonator测序仪以及美国Helicos公司的HeliScope单分子测序仪有这些新型测序仪都使用了一种新的测序策略:循环芯片测序法(cyclic-array sequencing),也可将其称为“新一代测序技术或者第二代测序技术”。
定义:对布满DNA样品的芯片重复进行基于DNA的聚合酶链反应(模板变性、引物退火杂交及延伸)以及荧光序列读取反应。
与传统测序法相比,优点:操作更简易、费用更低廉层流加样方法,生物传感器(一)新一代测序技术流程工作流程(Roche)产生单链模板DNA文库对文库进行em-PCR扩增边合成边测序利用生物信息学工具分析数据1.样品准备与文库准备样品准备:先分离基因组DNA,随机切割成小片段分子,然后通过有限稀释和聚合酶扩增反应即体外克隆方式制备模板片段。
这样,从模板制备到最后的测序反应,整个过程都能在体外完成。
文库制备:首先随机切割样品基因组,获得大量DNA片段,然后接上接头进行扩增反应。
新一代测序技术的样品制备程序和Craig等人的鸟枪法样品制备程序有着本质的差别。
通过乳糜PCR(emPCR)或桥式PCR等方法对文库进行扩增,获得测序模板。
emPCR:454 & SOLiD具体:将制备的DNA文库与油水包被的直径大约28um的磁珠在一起孵育、退火,由于磁珠表面含有与接头互补的寡聚核苷酸序列,因此ssDNA会特异性地连接到磁珠上。
同时孵育体系中含有PCR反应试剂,因此可以保证每一个与磁珠结合地小片段都会在各自地孵育体系内独立扩增,扩增反应物仍可以结合到磁珠上。
反应完成后,破坏孵育体系并富集带有DNA的磁珠。
经扩增反应,每一个小片段都将被扩增大约100万倍,从而达到下一步测序反应所需的模板量。
桥式PCR:正向引物和反向引物都被通过一个柔性接头固定在固相载体上。
经过PCR反应,所有的模板扩增产物就被固定到了芯片上固定的位置。
Illumina测序仪的桥式PCR与传统的PCR不同,它会交替使用Bst聚合酶进行延伸反应以及使用甲酰胺进行变性反应。
这样,经过桥式PCR扩增后,也会在固相载体上形成一个个的模板“克隆”。
一块芯片的8条独立“泳道”上每一天泳道都可以容纳数百万的模板“克隆”,这样一次就可以同时对8个不同的文库进行测序。
2.合成测序法循环可切除终止测序法焦磷酸测序法(二)单分子测序技术:第三代测序技术Heliscope单分子测序仪SMRT技术纳米孔单分子技术三、新一代测序数据存储、处理与分析作图(mapping)或定位:对读段进行定位的过程新一代测序数据库SRA:NCBI最近专门为短片段序列建立了数据库Short Read Archive(SRA),并同步制定数据提交格式。
SRA数据库不仅会收集包括实验注释信息、实验参数等信息的数据,而且还会被整合到Entrez查询系统当中。
目前的工作主要包括开发线上搜索工具、数据图形化工具。
根据SRA数据产生的特点,将SRA数据分为四类:study—研究课题experiment—实验设计run—测序结果集sample—样品信息第三节二、DNA测序数据分析方法(一)数据的质量控制:FastQC(二)片段比对:Bowtie(三)变异的识别:SNP、INDEL、CNV、SV(四)数据可视化:IGV三、DNA测序应用(一)DNA重测序与个体变异发现(二)细菌基因组测序与致病位点发现(三)宏基因组测序与感染性疾病分析如何利用重测序进行SNP分析?(1)测序结果的预处理,去除低质量的数据;(2)利用短序列比对软件进行全基因组比对,找出多态性位点;第四节RNA测序技术与数据分析一、RNA测序技术流程(详情见P111)(一)RNA样本的准备(二)cDNA测序文库的构建构建特异cDNA文库的方法:①通过在RNA的5N和3N端添加不同的接头,标记RNA的方向②在cDNA第二条链合成时添加dUTP化学标记,降解被标记的cDNA链(三)高通量测序二、RNA-seq 数据分析(一)RNA-seq数据的比对问题:reads来源于剪接后的转录组序列,但由于参考转录组信息不完善,当前研究通常是将reads 比对到参考基因组,而不是参考转录组。
这种现象可能导致一些位于剪接区域的reads比对不准确。
由于测序错误引起的碱基插入、缺失、错配等现象使得reads比对更为复杂,影响比对结果的准确性。
在序列比对过程中,一个read可能比对到基因组的多个位置。
软件:(二)转录组的重建:利用reads定位信息推断出表达转录本的外显子结构,从而将比对的reads组装成转录单元,最终确定所有表达的转录本的结构:基因组引导法:Cufflinks和Scripture基因组独立法(从头组装):Trinity(三)转录本的表达定量常用:RPKM ,该测序同时考虑了转录本的长度及映射到的基因组的reads总数。
而对于双末端的RNA-seq的测序结果,则通常使用FPKM定量表达(四)RNA-seq的差异表达分析包括:①统计基因或转录本对应的reads计数;②对reads计数进行标准化,使样本间和样本内的表达水平能够进行精确比较;③对标准化后reads分布进行统计学模型拟合,利用统计学检验评估基因的差异表达,得到相应的P值和差异倍数(fold change),并完成多重检验校正;④根据特定阈值(例如FDR<0.05)提取显著差异表达的基因。
常用分析方法:edgeR和DESeq三、RNA-seq的应用(一)选择性剪接识别1.基本概念选择性剪接又称可变剪接,是调节真核生物基因功能的多样性的重要机制之一。
可变剪接是指mRNA前体中的外显子以不同的组合方式进行剪切和拼接,从而产生不同结构、不同功能的mRNA和蛋白质。
同一基因产生的不同结构的mRNA和蛋白质也被称作可变剪接异构体。
可变剪接的方式主要包括5种类型:外显子盒、外显子互斥、可变5’供体、可变3’受体和内含子保留。
2.RNA-seq识别可变剪接单末端和双末端RNA-seq测序均可用于检测可变剪切事件,但原理略有不同单末端测序:通过将reads比对到参考基因组,检测每个外显子中落入的reads和覆盖外显子边界的reads,如果特定外显子没有reads覆盖,则提示在转录本中可能被剪切。
对于双末端测序产生的成对的reads,通过比较每对reads之间的实际距离和匹配到基因组位置之间的理论距离,推测转录本的结构。
目前常用的基于RNA-seq的识别可变剪接软件,TopHat的工作流程:步骤1.reads基因组比对利用Bowtie将所有reads比对到参考基因组,并分为匹配的reads和未匹配的reads。
其中,未匹配的reads称为初始未匹配reads2.预测潜在外显子利用MAQ重新将匹配的reads比对到参考基因组,得到reads富集的基因组区域,这些区域被称为岛序列(island sequence),即潜在的外显子。
3.预测可能的剪切方式TopHat将岛序列两端各延长一定距离的侧翼序列(默认为45bp)以包含供体位点和受体位点。
供体位点和受体位点分别指内含子的5’末端的剪接位点和3’末端的剪接位点。
TopHat 遍历所有延长后岛序列的供体和受体位点,并进行邻近岛序列间的两两组合,使其能够形成经典的GT–AG结构,这些组合被认为是候选的剪接方式。
4.匹配识别剪接位点对于每种候选的剪接方式,TopHat利用“种子延长”策略确定是否存在IUM reads覆盖潜在的剪接位点。
最后,TopHat返回所有满足条件的的剪接位点和组合方式。
(二)复杂疾病中融合基因识别1.基本概念融合基因是指染色体重排过程中两个或多个不同基因的编码区首尾相连,并被同一套调控序列(如启动子、增强子等)控制所构成的嵌合基因。
融合基因可以编码异常的融合蛋白,从而参与疾病的发生。
2.RNA-seq识别融合基因全基因组测序和转录组测序是主要的两种用于融合基因识别的技术。
由于WGS技术具有明显的缺点——测序耗时过长、分析复杂、价格昂贵。
因此,当前大多数研究都是基于RNA-seq数据开发识别融合基因的算法,这些算法主要分为两种:先匹配、先组装。
先匹配算法首先将reads匹配到参考基因组,然后从比对结果中寻找融合位点从而识别融合基因。
而先组装算法则首先将有重叠的reads组装形成长序列片段,然后将这些长序列片段匹配回参考基因组,进而识别融合基因事件。
先匹配算法相比于先组装算法运行速度更快、计算更方便。
因此,先匹配算法的使用更为广泛。
分离reads同时适用于单末端和双末端测序,而跨越对只适用于双末端测序。
以先匹配算法为例,融合基因的识别主要经过三个步骤:1)匹配和过滤;2)融合位点的检测;3)融合基因的组装和选择。
三、ChIP-seq技术应用(见P114)(一)识别转录因子或组蛋白修饰的协同调控(二)调控元件的识别基因的启动子: H3K4me3信号主要富集在基因的转录起始位点附近,因此H3K4me3的峰能够识别基因的启动子(举例);增强子:H3K4me1和H3K27ac信号可用于定义激活的增强子区域;绝缘子:转录因子CTCF信号可用于定义基因组绝缘子区域;转录区域:H3K36me3可用于定义基因组转录区域。
抑制区域:H3K27me3信号可用于定义基因组抑制区域。
(三)motif发现模体:转录因子的结合位点通常具有特定的DNA序列模式,称为模体(motif),它是转录因子与DNA结合的重要功能域,长度一般为5〜20bp。
(四)预测基因表达。