全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制

合集下载

国内分子生物学知识图谱的构建及解读

国内分子生物学知识图谱的构建及解读

国内分子生物学知识图谱的构建及解读一、本文概述确定研究范围:需要明确知识图谱所涵盖的分子生物学领域,例如基因表达调控、蛋白质互作网络、代谢途径等。

数据收集:收集相关的生物信息学数据,这可能包括基因序列、蛋白质结构、功能注释、文献报道的实验结果等。

实体识别与关系抽取:从收集的数据中识别出关键的实体(如基因、蛋白质、代谢物等)以及它们之间的关系(如激活、抑制、催化等)。

知识整合:将不同来源和类型的数据进行整合,形成一个统一的知识体系。

图谱构建:利用图谱构建工具或编程语言,将实体和关系可视化为节点和边,创建知识图谱。

解读与应用:对知识图谱进行解读,挖掘生物学意义,支持科学研究和决策制定。

例如,通过分析蛋白质互作网络找到关键调控节点,或通过代谢途径分析寻找潜在的药物靶点。

更新与维护:随着科学研究的进展,知识图谱需要不断更新和维护,以保持其准确性和时效性。

通过这些步骤,可以构建出一个反映分子生物学领域知识的图谱,为研究者提供一个直观、全面的信息平台,促进科学发现和技术创新。

二、国内分子生物学知识图谱的构建在当前的科学研究领域,分子生物学扮演着至关重要的角色。

为了更好地整合和利用国内在这一领域的研究成果,构建一个全面、系统的分子生物学知识图谱显得尤为必要。

本章节将详细介绍国内分子生物学知识图谱的构建过程,以及在构建过程中所采用的方法和技术。

知识图谱的构建始于数据的收集与整理。

我们通过多种途径,包括但不限于学术期刊、会议论文、专利文献以及科研机构的公开数据,收集了大量与分子生物学相关的信息。

这些信息涵盖了基因、蛋白质、代谢途径、细胞信号传导等多个方面,为构建知识图谱提供了丰富的原始数据。

数据预处理是构建知识图谱的关键步骤。

在这一阶段,我们对收集到的数据进行清洗、标准化和整合,以确保数据的质量和一致性。

通过使用自然语言处理技术和生物信息学工具,我们从文本中提取出关键概念、实体及其相互关系,为后续的知识图谱构建打下坚实基础。

2023年毒理学之毒理基因组学解读

2023年毒理学之毒理基因组学解读

▪ 单链环状DNA病毒
5386nt 2500氨基酸 噬菌体phiX174 1977,Sanger
▪部分开环双链DNA病毒
HBsAg
HBcAg
聚合酶
乙型肝炎病毒(HBV)
HBsAg
HBcAg
聚合酶
乙型肝炎病毒基因组 --部分开环双链DNA
▪ 单链RNA病毒
血凝素(HA)
8节段-ssRNA
.
神经氨酸酶(N)
2002年4月,水稻基因组 图谱公布。
2002年 小鼠、疟原虫和按蚊基因组测序完成
• 鼠基因组共有约27亿个碱 基对,比人类少15%,但其 包含的基因数目约在3万个 左右,与对人类基因数的最 新估计非常接近。
疟原虫破坏 两个红细胞
疟原虫的 裂殖孢子
* 人被蚊子咬之后5-10分钟,疟原虫孢子到达肝 脏,入侵肝细胞内就可逃逸人体免疫系统的攻击。 * 孢子侵吞肝细胞的营养,大量地分裂繁殖,一 周后,肝细胞胀破,数以百万计的新孢子释放进 入血液。 * 新的孢子立刻重新入侵红细胞,再次逃过免疫 系统的攻击。且以血红蛋白为食,继续繁殖; * 两天后又可再次破坏红细胞,产生更多的孢子 入侵其它红细胞……不久,2/3的红细胞都会被 疟原虫侵袭。 * 疟原虫在血液里这种周期性的繁殖过程,而导 致病人三天两头地发高烧、打寒战。
2003年11月,世界上首个复杂生物体的蛋白图 谱——果蝇蛋白图谱公布,实现了由仅显示遗传 密码信息的基因图谱到揭示遗传密码功能的蛋白 图谱的飞跃。
果蝇(Drosophila melanogaster)蛋白图谱 发表在《科学》杂志的网络版上;
研究发布的这个含有7,000多个果蝇蛋白的图谱 含盖了这些蛋白之间超过20,000种不同的互相作 用。

基因组图谱的构建和应用

基因组图谱的构建和应用

基因组图谱的构建和应用自从人类基因组测序工程(Human Genome Project)在2001年成功完成后,基因组图谱(genome map)已经成为了生物学、医学和生物技术领域中不可或缺的工具,对人类健康、精准医疗和新药研发产生了深远的影响。

基因组图谱指的是对一个物种的基因组(genomes)进行详尽的描述和标记,包括基因的数量、位置、序列和功能等信息。

根据在基因组图谱中标记的基因位置,能够定位和诊断与基因相关的疾病或性状,同时也能帮助科学家理解基因组演化、细胞分化和发育等重要生物学问题。

因此,基因组图谱的构建和应用被广泛认为是21世纪生物学领域的重要里程碑之一。

一. 基因组图谱的构建方法基因组图谱的构建有多种方法,但在本文中重点介绍两种:物理图谱(physical map)和遗传图谱(genetic map)。

物理图谱是基于物理化学实验方法,通过测量DNA分子的长度或其他属性来构建的基因组图谱。

较为常见的构建物理图谱方法有:切割点限制酶(restriction enzymes)诱导的切割实验、电泳分离手段、镜像队列(BAC,Bacterial Artificial Chromosome)克隆技术等。

物理图谱的优点在于高度精确、高分辨率、无需建立近缘族谱或已知基因型,但其建图过程较为繁琐。

遗传图谱是依据遗传和连锁原理的图谱,利用位点间遗传距离和亲缘关系来重建基因组图谱。

比较典型的遗传标记是基因多态性位点,如单核苷酸多态性(Single Nucleotide Polymorphism,SNP)等。

遗传图谱有着可靠的遗传学基础和固有的遗传特性,但由于基因组的复杂性和多样性,有时会出现连锁性断裂、误差等情况,需要通过更加准确和精细的方法来进行校正和修正。

二. 基因组图谱的应用1. 了解种群基因结构与演化个体和种群之间的遗传变异是基因组图谱最基本、最丰富的应用之一。

这种变异可以用来研究种群的起源、演化和迁移历史,以及人类和其他物种的多样性。

黄瓜全基因组遗传变异图谱构建完成

黄瓜全基因组遗传变异图谱构建完成

国际 黄 瓜 闪组 计 划 继 2 0 0 9年 完 成 黄瓜 全 基 l h i 组 序列 图绘 制 后 的 另

分析 发 现 ,印度 类 群遗 传 多样 性远 驯化 基 因打下 了基 础 。 同时 , 研 究还 远超 过其 他 3个 栽 培变 种 。 由此也 创造 性地 运 用 了群体 分化 这 一新 分
水 稻新 品种 。
种子 纯 度检 测是 保证 水 稻 安全
生 产 的核 心 。 张 大兵说 , 常规做 法是 选 取 小 量 样 本 冬 季 在 海 南 种 植 杂
团 队负 责 人 张 大 兵 教 授 介 绍 ,
科研 团队 以上海 地 区推 广 的 常规水
系, 通 过分 期播 种实现 稳定 、 高 效 的 制 种 和 繁 种 …… 上 海 交 通 大 学 科 研 团 队 研 究 多 项 水 稻 育 种 新 技 术 和 水 稻 新 种 、 新 组合 , 为 我 提 供 科 技支 撑 该 校举 行 的 水稻
入、 删 除和 5 9 4个 获 得 、 缺失变异。
味, 变成 了可 口的蔬 菜 。 本 研究 发现
基 于这 些数 据 ,研 究人 员构 建 了一 黄瓜 基 因组 中有 1 0 0多个 区域 受到
序 ,并 构 建 了包 含 3 6 0多万 个位 点
个单 核 苷 酸分 辨率 的黄 瓜遗 传 变异 了 驯化 选择 , 包含 2 0 0 0多 个 基 因 。
野 生黄 瓜原 本在 印度被 作 为草
药使用 , 果实小 、 口味 苦 , 经 过人 类 挖掘 重要 性状 基 因提供 了新 思路 。
水 稻育种新技术 :
察“ 叶” 观色 鉴 定种子 纯 度
◇东 方
通 过 分 子标 记 手 段 , 肉眼 观 察 水 稻 幼 苗 叶 片 的颜 色 就 能 鉴 定 种 子纯度 ; 发 现 光敏 型 水 稻 雄 性 不 育

全基因组关联分析技术对遗传数据研究的应用

全基因组关联分析技术对遗传数据研究的应用

全基因组关联分析技术对遗传数据研究的应用遗传数据是生物学研究中的重要组成部分。

通过对个体的遗传信息进行分析,我们可以了解个体的遗传特征、疾病风险、生理功能等方面的信息。

随着生物技术的发展,全基因组关联分析技术成为了高通量、高分辨率的分析遗传数据的方法之一。

全基因组关联分析技术是一种以整个基因组的多态性位点为基础,分析遗传变异与疾病之间的相关性的方法。

这种方法的优点在于不需要了解具体变异位点的基因功能或生物学作用,而是可以通过整个基因组的遗传多态性位点寻找与疾病发生相关的位点和基因。

这相对于之前的研究方式来说,降低了对研究者专业知识和研究方向的要求,更加适合进行大规模研究。

在全基因组关联分析技术中,GWAS(全基因组关联研究)是最为常用的方法之一。

GWAS通过检测大量的遗传多态性位点(SNP),来探索突变位点与疾病之间的联系。

这种方法的优点在于可以同时研究整个基因组,从而发现很多早先未知的致病基因,可能能够解释疾病的发生和发展的规律。

GWAS研究的对象可以是人类,也可以是其他物种。

例如,GWAS可以用来探索不同人群之间的差异、人群的起源、动物的进化历程等方面的问题。

在GWAS研究中,研究者需要确定合适的样本规模、标准化分析方法、多重假设校正等问题。

不同的GWAS研究可能需要处理的数据量不同,但是可以肯定的是,这种研究需要大量的计算资源和统计学的知识。

经过全基因组关联分析技术研究的结果,可以获得与疾病相关的基因,可以为进一步的生物功能研究、人类基因组学以及医学研究提供重要的线索。

值得一提的是,全基因组关联分析技术目前已经成为众多生物学、医学研究领域的信息研究方法之一。

通过全基因组关联分析技术来分析遗传数据,可以帮助我们了解人类、动物和植物群体遗传特征、准确预测疾病风险、发现新的特定生物学功能等研究目标。

此外,全基因组关联研究还可以用于对人口数量学、历史学、疾病流行病学等方面的研究。

总之,全基因组关联分析技术是一种高通量、高分辨率的研究遗传数据的方法。

全基因组测序数据的分析方法与技巧

全基因组测序数据的分析方法与技巧

全基因组测序数据的分析方法与技巧全基因组测序是一种高通量的生物学技术,可以通过测序整个基因组的DNA序列,为研究人类遗传变异、基因功能和进化等提供了重要的数据支持。

然而,全基因组测序产生的数据量庞大且复杂,需要使用一系列的分析方法和技巧来解读和挖掘信息。

本文将介绍一些常用的全基因组测序数据分析方法和技巧。

首先,全基因组测序数据的预处理是分析的第一步。

预处理包括去除测序错误、剔除低质量的reads以及去除测序引物等步骤。

常用的去除错误的方法是利用质量值来过滤reads,质量值较低的reads往往包含有较高的测序错误率。

此外,还可以使用Trimming软件去除末端的低质量碱基,以提高数据的质量。

第二,全基因组测序数据的比对(alignment)是分析的关键步骤之一。

比对即将测序reads与参考基因组进行比对,以确定其在基因组上的位置。

常用的比对软件包括Bowtie、BWA和STAR等。

比对的结果可以用来检测样本中的单核苷酸多态性(single nucleotide polymorphisms, SNPs)和插入/缺失(insertions/deletions, Indels)等遗传变异。

第三,全基因组测序数据的变异检测是最重要的分析任务之一。

变异检测可以通过比对结果来确定样本和参考基因组之间的差异。

常用的变异检测软件有GATK、SAMtools和FreeBayes等。

这些软件可以识别出SNPs、Indels和结构变异等多种类型的变异。

变异检测结果可以帮助我们理解人类遗传变异的模式和机制,以及其与人类疾病之间的关系。

第四,全基因组测序数据的基因表达分析是另一个重要的任务。

基因表达分析可以帮助我们了解不同基因在不同组织和条件下的表达水平。

常用的基因表达分析软件包括DESeq、edgeR和limma等。

这些软件可以对全基因组测序数据进行差异表达分析,帮助我们鉴定差异表达的基因。

差异表达分析结果可以为疾病诊断、治疗和药物研发提供重要的线索。

中国绘成世界首幅双峰驼全基因图谱

中国绘成世界首幅双峰驼全基因图谱

患癌风险增加 了 2 0 %, 但 与其 他 已知 的遗 传 变异 或基 因 突 变相 比, 它与遗传性癌症 的基 因联 系更为密切 。
研究人员认为 , 新发现 有 助于 未来 的癌症 防治 研究 , 但 相应药物的开发还需多 年时间 。 ‘ [ 基 因组研 究]
“ 千人基 因组计划 ” 发布高精度遗传 变异图谱 。 有助 于寻找疾病的基 因根源
生 物学 教 学 2 j ) 1 3 年( 第3 8 卷) 第4 期
研究证实癌症存在 基因“ 开关” 据光 明网 2 0 1 2年 1 1 月 3日援 引新华 网斯 德哥 尔摩 1 1

7 7・
腺癌 种族 差异的遗传学 基础 。该 研究 结果 是我 国前 列腺 癌
研究 的历 史性突破 。
二军大科学 家发 现中国人群特 异性前列腺癌遗传位点
中国是梨属植物 的中心发源地之一 , 也是全球第 一产梨 大国, 年 产量约 占世 界总 产量 的 6 o % 以上 。梨在 中 国遍 布 据2 0 1 2 年1 O月 2 7日《 科 技 日报》 报道 , 国际学 术期 刊
大江南北, 但多年来梨的分子层面的研究相对滞后, 限制 了
前 列腺癌是威胁男性健康最常见 肿瘤 之一 , 其 显著特 点 是发病率 和死亡率存在 明显 的种族差异 。但 是 , 造成 这种 差
异 的分 子生物学 基础 并不 清楚 。孙颖 浩 率领课 题 组在 9 7 3
项目 支持 下 , 联合复旦大学 、 美 国维克森 林大 学等 国内外 4 0
具有5 0 0 多年培 育历 史的砀山酥梨是 目 前 中国 , 也是 全
球栽培 面积 最大的品种。在研究 中, 研究人 员对砀 山酥梨进

东亚与东南亚人群迁徙与融合的古DNA证据

东亚与东南亚人群迁徙与融合的古DNA证据

专题J13SPECIAL TOPIC东亚与东南亚人群迀徙与融合的古D N A证据0白帆张明东亚与东南亚在地理上紧密相连,文化上相互影响从史前到历史时期,两地一直存在着人群迀徙和融合,而古D N A研究提供了有别于传统考古学和现代人群遗传关系的新见解进入全新世后,欧亚大陆东部的人群发生了多次自北向南的扩散11]。

在我国的诸多朝代(如西晋、唐 和南宋)都发生了东亚人群的南向迁徙,进入东南亚 大陆及各岛国。

历史学家通常利用文献记录和考古证据,来了解 历史上不同地区间人群的迁徙。

近几十年来,随着遗 传学和D N A测序技术的发展,科学家可以通过比较不同地区人群的遗传信息来了解他们之间的遗传关系,并推测历史上的人群迁徙与融合。

东亚(亚洲东部)包括中国、朝鲜、韩国、蒙古 和曰本。

东南亚位于亚洲东南部,包括中南半岛和马来群岛两大部分。

中南半岛包括中国云南南部、越南、缅甸、泰国等国;马来群岛散布在亚洲东南部太平洋和印度洋之间辽阔的海域上,包括印度尼西亚、菲律宾、马来西亚等国。

东南亚人群的语言和文化均存在着较大的差异,中南半岛以壮侗语系和南亚语系为主,马来群岛则主要属于南岛语系。

不同 的语言和文化提示人群本身的来源可能并不相同,东南亚地区的人群迁徙与融合历史,需要进行更多的研究才能厘清。

白帆,硕士生;张明,博士后:中国科学院古脊椎动物与古人类研 究所,北京100044。

*****************.cnBai Fan, Master Degree Candidate; Zhang Ming, Postdoctor: Institute of Vertebrate Paleontology and Paleoanthropology, CAS, Beijing 100044.目前科学家已对现代东亚与东南亚的人群间遗传关系进行了深入研究:基于对亚洲现代人群核基因组的研究,发现东南亚现代人群具有更高的遗传多样性,超过90%的东亚人群遗传类型能在东南亚人群或中亚和南亚人群中发现,其中50%的类型为东南亚人群特有,仅有5%的类型为中亚和南亚人群特有,据此推测东南亚是东亚人群最初的起源地m。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

项目名称:全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制首席科学家:王俊深圳华大基因研究院起止年限:2011.1至2015.8依托部门:深圳市科技局二、预期目标本项目的总体目标:全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制项目旨在集中顶尖基因组中心的测序和数据分析能力,基于新一代测序技术平台,通过对400 个人类个体黄种人低深度全基因组重测序并结合少数个体和家系高深度测序的方法,绘制一张黄种人的人类遗传变异图谱,建立起一套基于重测序技术构建重大疾病分子标记集的研究思路和技术路线,极大加速人类常见复杂疾病的研究。

本计划目标包括检测基因组非基因区内几乎所有在人群中的出现频率不低于1 %的单核苷酸变异,基因区内几乎所有出现频率不低于0.5 %的单核苷酸变异,以及全基因组上的拷贝数变异、结构性变异等大片段变异。

这一数据资源将完全成为一个开放的公共资源,为各种疾病的关联分析提供详细的基础数据;为解释人类重大疾病发病机理、开展个性化预测、预防和治疗打下基础。

此外,该项目还将加深人类群体遗传学的理解,促进人类进化历史研究。

五年预期目标:在本项目中,我们将针对不少于400 个亚洲个体,共计不少于3Tb 的全基因组重测序数据,完成东亚代表人群频度低至1%的高分辨图谱,同时绘制包括拷贝数变异、倒位变化的遗传变异图谱。

设计可用于全基因组扫描的精细至1%频度的基因分型芯片。

建立起一套针对大规模重测序数据、低频度变异分析和结构性变异的分析流程和方法。

预计将申请5 个以上软件著作权,发表10 篇以上SCI 文章,其中包括Nature、Science 级别文章,培养20名研究生和一支年轻的、国际一流团队(百人以上),其中30名技术骨干。

1.制定规范化的大规模样品收集流程,表型定义清楚、收集方法规范统一、个人信息记录完整且保密。

为今后类似的大规模样品收集工作提供典范。

2.在目前已有测序生产平台的基础上,能够以较高的产量和稳定的质量,日产200Gb 数据,产出适用于不同研究目的的各类测序数据。

3.建立完善的数据质量控制系统,定义规范的数据格式,提供针对超大规模数据采集、传输、存储、分析的高性能计算解决方案。

4.开发识别基因组变异的生物信息学工具并完成相应变异多态性的检出,包括SNPs、CNV(拷贝数变异)、插入、删除以及其它结构性变异。

由于在人类单体型计划(HapMap)已经识别了许多常见的SNPs,该计划将重点挖掘在人群中发生频率较低的稀有多态性和基因组的结构变异,并估计各种变异的等位基因型的频率,确定稳定遗传的单体型结构,以及各变异之间的连锁遗传(LD)模式,最终提供更有代表性、更全面的SNP 集合,供基因分型芯片的探针设计作参考。

5.通过千人基因组计划研究和分析结果,完善现有公共数据库中人类基因组的参考序列。

6.为个体间、群体间的基因组变异研究提供支持。

进一步揭示人类基因组突变和遗传重组发生的内在机理。

7.提供大规模群体个人基因组重测序数据展示方案,构建公众可免费访问的数据库,提出具有可扩展性的大规模数据共享方案。

三、研究方案1)总体思路:人类基因组计划和人类单体型计划的完成,构建了第一代人类基因组遗传多态性图谱,并推动了基因分型技术的发展,为全基因组关联分析奠定了数据基础,极大地推动了复杂常见疾病的基因组学研究。

然而,由于当前遗传多态性标记的密度较低,全基因组关联性分析仍然只能解决一小部分与疾病相关联的多态性位点,且所找到的目标区域范围较大,需要大量额外验证工作。

唯有通过对更大的样本群体进行大量全基因组测序工作,进行科学探索,发现新的在人群中更加稀有的遗传多态性标记,构建高密度人类基因组遗传多态性精细图谱,才能突破当前复杂疾病研究的瓶颈。

自2006 年开始的测序技术革命使得基因组测序成本大幅降低,使得对大量人类个体进行测序并大规模发现遗传多态性位点成为可能。

通过模拟计算证明,对亚洲人随机选取不少于400个样本,这样的样本容量可以保证90%以上在人群中频率为0.5%-1%的多态性位点的出现。

如果对每个样本进行4倍基因组深度测序,在考虑测序错误率,序列比对错误率及分布均匀性等实际因素的情况下,仍然能够准确发现在人群中频率为1%的多态性位点;在基因区所能有效检测到的最低频率甚至可达0.5%。

在基本的群体基因组学结构的假定下,预期将发现至少1500 万例以上的单核甘酸多态性位点和100 万例以上的插入删除多态性位点。

这一精度可以大幅提高遗传多态性标记的密度,将当前分子标记密度从每一千碱基一个提高到每200bp 一个,从而发现与疾病关联性更强,风险更高的稀有位点,极大降低了医学基因组学研究的成本和技术门槛,对复杂疾病研究具有重大的推动作用。

通过对多个个体大量测序,还将发现大量基因组结构性变异,而这些结构性变异的特征和意义目前研究刚刚起步,属于未知领域。

利用当前的测序技术,可从预计在进一步深入探索疾病关联多态性位点的同时,还将首次获得基因组结构性多态特征及其与疾病之间的关系。

此外,通过对亚洲人族群的群体基因组学研究,对人类进化生物学和群体遗传学的理解也有着重大的作用。

2)技术途径:3)可行性分析:在测序技术获得历史性突破的2008 年,国际千人基因组计划顺时而生,我国作为发起国之一,将在其中承担黄种人的测序和数据分析工作。

经过本课题小组参与的前期先导实验的工作,证实了整个项目在数据产出,数据同步,数据分析及实现最终目标的可行性。

另一方面,2008 年11 月,本课题小组在世界著名的Nature 杂志上,以封面文章的形式发表了第一个亚洲人基因组的重测序和数据分析工作,发现了超过300 万SNP 位点13 万插入删除位点及2682 例结构性变异位点,也进一步证实了使用这一技术对人类个体进行测序并检出多态性的可行性。

通过第一个亚洲人基因组重测序项目(即“炎黄一号”)的顺利开展,目前我们课题组已经建立了一套针对新一代测序仪的数据产生、数据分析平台。

高通量的数据产出能力确保了该项目所需数据能够顺利产生,强大的数据分析能力为Tb 级别的数据处理和分析提供了保障。

先期发表的炎黄一号数据库也将作为数据展示的模型,添加入新的数据,成为一个中国人群基因组数据的展示平台,共各国科学家共享。

4) 创新点:本项目最大的创新之处在于利用新一代测序技术高速发展的契机,推出了针对中国人群的全基因组重测序计划,研究成果将极大的提升我国在国际基因组学研究领域的地位、深入理解和保护我国丰富的遗传资源、并为针对中国人群的疾病相关研究提供基础数据。

这一重大研究从规模和深度上都是史无前例的,是科研工作者对人类基因组学研究最大的一次努力。

1.高通量的测序平台。

以日产200Gb 碱基的速度,产生不少于3000Gb 的400 个个体全基因组重测序数据,这在整个基因组学历史上都是前所未有的创举。

2.高标准的数据质量控制和校正系统。

自主搭建专门的信息化管理系统,用于所有测序数据的电子信息化管理和质量控制。

及时反馈测序质量和结果,并记录备查。

3.高性能的大规模存储、计算平台。

针对大规模测序数据,我们将专门定制一套解决方案,用于数据的传输、存储、分析等。

具有专业性、可扩展性、可管理性等特点。

4.高水平的生物信息学分析。

针对新的数据类型,我们将自主开发在数据处理和分析过程中所涉及到的所有分析方法和流程。

包括质量控制、序列比对、SNP 检出、SV 检出、CNV 检出、indel检出等。

5.全面、详尽的新一代人类遗传多态性图谱。

通过数据分析,预计将发现超过1500 万例SNP 位点,500万例插入删除位点,100万例结构性变异多态性位点。

这一遗传多态性图谱的密度较之前的人类单体型计划提高了10倍,将极大促进基因组医学的研究。

课题设置课题1、中国(东亚)人群样品收集和大规模数据产出研究内容:1、收集需要的样本数,达到不少于400 份纯正的黄种人样品。

1)通过国际协商,制定统一的样品采集标准与流程。

2)以规范化的操作采集样品,保存个人信息并匿名处理,保存样品。

2、共需产出不少于3000Gb 符合质量标准的测序数据。

1)文库制备。

根据需求,将分别构建不同插入片段长度的文库,包括200~500bp,2~5kb 等。

2)cluster 生成及上机测序。

根据需求,对不同样品分别进行从35bp single-end 测序到100bp paired-end 测序。

预期目标:完成400个样品的收集工作。

产出3Tb 基因组重测序数据。

承担单位:深圳华大基因研究院课题负责人:李瑞强学术骨干:田埂、赵姣、李卓经费比例:32%课题2、多个体全基因组重测序数据生物信息分析方法开发研究内容:1)全基因组短序列比对软件开发。

实现将不同长度、不同插入片段的短序列比对到参考基因组上的功能。

2)全基因组序列组装软件开发。

实现独立于参考基因组,直接对特定数据进行组装的功能。

3)全基因组多态性检出软件开发。

基于比对和组装结果,生成一致序列。

综合考虑测序深度、测序质量、正反向信息等,实现多态性位点(SNP、SV、CNV、indel)检出。

预期目标:开发多个体全基因组数据的比对软件、多态性识别软件、组装软件。

承担单位:深圳华大基因研究院课题负责人:李英睿学术骨干:高扬、朱红梅、秦楠经费比例:27%课题3、生物信息学和群体遗传学分析研究内容:1、负责3000Gb 以上个人基因组数据的处理和分析工作。

包括利用自主开发完成的软件实现比对、多态性位点检出、相位分析、多态性位点注释、群体遗传学分析等。

2、针对生物信息学数据分析的特点,定制高性能计算机解决方案,事先大规模重测序数据的管理、展示与共享。

1)数据传输、存储与分析。

解决1018数量级数据传输可能存在的高I/O 问题,设计高效的数据存储、备份方案,便于数据分析和计算。

2)数据展示。

将个人基因组数据以数据库的形式存储、以web 页面的方式展示给用户,供用户查询和下载。

3)数据共享。

制定适用于大型合作项目的数据质控、共享、同步方案。

预期目标:完成不少于3Tb 数据的基因组比对、多态性检出工作。

完成群体遗传学分析。

提供超大规模数据的传输、展示与共享的解决方案。

承担单位:深圳华大基因研究院课题负责人:王俊学术骨干:杨国华、樊伟、方林经费比例:41%各课题间相互关系本项目的开展将完全由深圳华大基因研究院的团队完成。

课题设置分为三个主要部分:样品收集和数据产出、生物信息方法开发、数据分析以及数据管理和展示。

总负责人:王俊。

子课题一是整个课题的材料准备和数据产出部分。

产生的不少于3000Gb 多个体全基因组重测序将用于构建高分辨率的中国(东亚)人群遗传变异图谱。

目前世界上没有现成的软件和流程可用于处理如此大规模的数据,子课题二的设置主要是针对本项目中所产生的数据,开发相应的软件和分析方法,为子课题三提供分析流程。

相关文档
最新文档