学会跨平台筛选肝癌预后标志物,上3分一点都不难

学会跨平台筛选肝癌预后标志物,上3分一点都不难

Front Genet (IF:3.517)杂志上的一篇文章“Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data”,作者利用多个测序平台的转录组数据去鉴定不依赖于测序平台的肝癌诊断标志分子。

Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data

利用大规模转录组数据鉴定不依赖于测序平台的肝癌诊断生物标记物

一.研究背景

确诊时间过迟是导致肝癌(Hepatocellular carcinoma,HCC)患者高死亡率的主要原因。为了找到普遍的在多个测序平台都适用的基于mRNA表达量的分子诊断标志,作者利用多个测序平台的HCC患者以及对照正常组织或癌旁正常组织的转录组数据,希望通过基因表达谱的分析找出肝癌核心基因并用于建立一个预测能力良好的肝癌预测模型。

二.分析流程

•数据准备,从GEO数据库获取来自不同测序平台(Affymetrix,Illumina,Agilent,High-throughput sequencing)的29个转录组数据集,分别从其中的GSE102079分和GSE64041中提取出D1(HCC 和癌旁正常组织)和D2(HCC和正常样本)共4个数据集,加上TCGA-LIHC的转录组数据一共32个转录组数据集。此外还取GSE36076,一个含20份PBMCs(外周血单核细胞)血液样本的转录组数据集,用于验证模型。所有测序平台的的基因mRNA表达量经log2处理。

•数据分配

▪取27个GEO的转录组数据(n=2148)用于识别DEGs(差

异表达基因)和提取特征基因(图1. A),其中20个为HCC与癌旁正常组织的比较,7个位HCC和正常样本的比较

▪取GSE25097(n=511,HCCvs正常样本)作为训练集用于建立预测模型,以另外2个GEO数据集,TCGA-LIHC以及血液样本作为验证集(图1. B)。每个数据集中的样本转录组数据经过quantile normalization

•预测模型的检验以及评价指标,作者在训练集中进行10折交叉验证作为内部检验;在验证集中预测作为外部检验。模型评价指标有依赖阈值和不依赖阈值的参数指标

▪依赖阈值的参数指标包括Sensitivity(敏感度),Specifity(特异性),Accuracy(准确率)以及MCC(Matthew 相关系数),这些指标越接近于1则模型的准确性越好

▪不依赖的参数指标为AUROC,即ROC(受试者工作特征)曲线下的面积,AUROC越接近于1则模型的预测能力越好图1. 样本数据分布情况

三.结果解析

1.识别肝癌的核心基因

在27个GEO数据集中分别识别DEGs(q<0.01),识别出DEGs共9954个;再通过比较找到26个在80%以上(22/27)数据集中都差异表达的基因作为“肝癌的核心基因”(表1)。这26个基因中14个在癌组织中表达上调,12个在癌组织中表达下调(在大部分数据集中)。之后根据这些DEGs进行GO分析,发现表达下调的DEGs在凝集素相关通路富集,而表达上调的DEGs在细胞周期相关的通路中富集。

表1. 26个肝癌核心基因

2.通过单基因预测模型筛选肝癌核心基因

在训练集GSE25097中用阈值法(threshold- based approach),即找到一个表达量作为阈值使预测模型在训练集中预测能力最好。将26个肝癌核心基因根据各自单基因预测模型的预测能力进行排名,排名前10的基因建立的单基因预测模型预测肝癌的Acc>0.85,MCC>0.75,AUROC>0.85,都有很好的预测能力(表2)。为了进一步

减少核心基因数量,分别对这10个基因采用10折交叉验证法去评估其预测能力,挑选出5个基因(FCN3,CLEC1B,CLEC4M,PRC1和PBK)称之为稳定的HCC标志分子,在交叉验证中它们平均的Acc>0.9,AUROC>0.95。

表3. 以5个基因建立的分类模型预测能力

之后作者又通过两次wrapper特征选择法(包裹式)去掉了基因CLEC4M和PBK,以FCN3,CLE1B,PRC1这三个基因作为特征基因,这样模型的在训练集(内部经过10折交叉验证)和验证集中的Acc 在0.95-0.98之间,AUROC面积在0.96-0.99之间,模型的预测能力进一步提升(表4)。作者之后也尝试了两个特征基因作为输入构建模型,但是预测能力在验证集中大幅下降故作者最后选择由这三个基因构建的预测模型。作者同时也展示这三个基因在训练集和三个验证集中的表达模式(图2)。

表4. 以FCN3,CLE1B,PRC1构建的分类模型预测能力

图2. 三个肝癌核心基因在训练集和3个验证集中的表达模式

4.在血液样本中验证三基因预测模型

本文目的在于研究一种简便的肝癌检测方法,因为前文的训练集和验证集都是HCC和癌旁正常组织或正常组织的对比,难以在日常检查中实施采样,而血液样本易得不侵入病人身体,故作者选取GSE36076这一个血液样本数据集(n=20)来验证三个基因作为输入的预测模型的效果(表5)。可以看到模型在对血液样本的预测中Acc为0.9,AUROC在0.91-0.96之间。说明三基因预测模型有较好的能力辨别HCC患者血液和正常血液样本。

表5. 三基因预测模型在血样样本中的预测能力

5.对三个肝癌核心基因进行生存分析确定预后价值

在TCGA-LIHC队列(n=374)中,分别根据FCN3,PRC1和CLEC1B基因mRNA表达量的平均值将病人分为高低表达组并用KM 法对OS,DSS,DFS,PFS进行生存分析(图4,红色表示基因表达量大于平均值,蓝色则相反)。

图3. TCGA-LIHC队列的生存分析

在GSE14520队列(n=219)中,用同样方法将病人分为两组并用KM法对OS和DFS进行了生存分析(图5).从两个队列的生存分析结果可以看出肝癌组织中CLE1B和FCN3高表达预示着更好的预后;PRC1的低表达预示着更好的预后。除了对这三个特征基因进行生存分析,作者还对一些临床参数(年龄,性别,肿瘤分期等)做了单因素生存分析,发现肿瘤的分期在两个队列中有显著的预后价值而性别和年龄并没有显著的预后价值。最后作者将三个肝癌核心基因和临床数据结合,进行多因素生存分析,只有肿瘤分期是一个独立的预后因子(p<0.01),而年龄性别以及三个肝癌核心基因都不是独立的预后因子。

图4. GSE14520队列的生存分析

最后我们小结一下,本篇文章中作者从GEO和TCGA数据库选取了大量转录组数据,把在80%以上数据集中都识别出的DEGs作为肝癌核心基因并进行功能通路分析。之后根据单基因预测模型的效果选出5个稳定的HCC标志分子用于建立多基因预测模型;把5个基因的mRNA表达量作为输入,利用多种机器学习方法以及Wrapper法,通过内,外部验证,最终选定了3个基因作为预测肝癌的特征基因。最后再结合3个特征基因的生存分析便结束了本文的论证。好啦,今天的分享就告一段落了,我们下次再见。

还是和往常一样,后台回复「14a」,即可获取今天小编为大家解读的文献。我们一起期待下一篇精彩的文献吧!

▼▼是否遗漏了往期精彩生信解析没看呢?▼▼

生信思路

1. 如何筛出一篇5分文章的核心基因

2. 筛出一个5分文章的核心基因后你可以这样做

3. 国自然前期研究基础不足?你可以这样补一些生信分析

m6A热点

1.15+分的纯生信:胃癌m6A和肿瘤免疫微环境

2.即将11+分的JHO:泛肿瘤中m6A和5mC与肿瘤免疫特征

肿瘤免疫微环境

1. 5+易学套路: 基因突变+TMB+免疫浸润

2. 纯生信4+膀胱癌免疫微环境思路分享

3. 纯生信3+肾癌免疫微环境预后相关基因

4.围观:为什么别人的免疫浸润能发9+分?

单细胞测序

1.在Aging上发表的胃癌单细胞测序做了什么?

2.仅3个单细胞测序样本纯分析也发6分!

特定基因表达谱预后

1. 9+纯生信泛癌预后标志物筛选

2. 肾癌EMT基因预后标志物发5+分

3. 纯生信自噬基因与乳腺癌预后也能发5分!

4. Genome Med一文带你学会胚系突变与泛癌预后思路

5.肾癌之自噬基因预后预测模型发5+分

干湿结合

1. 干湿结合上6+高渗基因与透明细胞肾癌预后

2. 干湿结合的miRNA调控网络发7+也不难

ceRNA

膀胱癌ceRNA的3+分思路

生信杂志

1. 被“灌水”的Aging(IF=5.515)还能不能投??

2. 推荐一本生信友好并且最快1月接受的5+分杂志

3. 年刊量3000篇预计5+分的JCP

4. 即将突破5分的Frontiers in Oncology是灌水杂志吗?

5. 博士毕业神器3+分纯生信杂志:平均一审只要一个月,年刊量1000+

6.马上4分年刊量近2000的杂志:生信友好还不要版面费!

编辑:炒年糕

校审:糯米饭

学会跨平台筛选肝癌预后标志物,上3分一点都不难

学会跨平台筛选肝癌预后标志物,上3分一点都不难 Front Genet (IF:3.517)杂志上的一篇文章“Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data”,作者利用多个测序平台的转录组数据去鉴定不依赖于测序平台的肝癌诊断标志分子。 Identification of Platform-Independent Diagnostic Biomarker Panel for Hepatocellular Carcinoma Using Large-Scale Transcriptomics Data 利用大规模转录组数据鉴定不依赖于测序平台的肝癌诊断生物标记物 一.研究背景 确诊时间过迟是导致肝癌(Hepatocellular carcinoma,HCC)患者高死亡率的主要原因。为了找到普遍的在多个测序平台都适用的基于mRNA表达量的分子诊断标志,作者利用多个测序平台的HCC患者以及对照正常组织或癌旁正常组织的转录组数据,希望通过基因表达谱的分析找出肝癌核心基因并用于建立一个预测能力良好的肝癌预测模型。 二.分析流程 •数据准备,从GEO数据库获取来自不同测序平台(Affymetrix,Illumina,Agilent,High-throughput sequencing)的29个转录组数据集,分别从其中的GSE102079分和GSE64041中提取出D1(HCC 和癌旁正常组织)和D2(HCC和正常样本)共4个数据集,加上TCGA-LIHC的转录组数据一共32个转录组数据集。此外还取GSE36076,一个含20份PBMCs(外周血单核细胞)血液样本的转录组数据集,用于验证模型。所有测序平台的的基因mRNA表达量经log2处理。 •数据分配 ▪取27个GEO的转录组数据(n=2148)用于识别DEGs(差

血清中AFP,GPC3,DCP和VEGF 4种肿瘤标志物对原发性肝癌的早期诊断价值

血清中AFP,GPC3,DCP和VEGF 4种肿瘤标志物对原发性肝 癌的早期诊断价值 卢凌鹏;黄艳芳 【摘要】目的探讨AFP,GPC3,DCP和VEGF4种肿瘤标志物对早期诊断原发性肝癌的价值.方法将82例原发性肝癌患者纳入肝癌组,另外收集同期住院的肝硬化患者45例纳入肝硬化组和健康体检者50例纳入对照组.检测入选患者血清 AFP,GPC3,DCP和VEGF浓度,ROC曲线分析4种肿瘤标志物诊断原发性肝癌的价值.结果肝癌组患者血清AFP、GPC3、DCP和VEGF的浓度显著高于肝硬化组和对照组(P<0.05);肝硬化组患者血清GPC3浓度显著高于对照组(P<0.05).4种肿瘤标志物诊断原发性肝癌的敏感度由高到低依次为VEGF (0.817)、GPC3 (0.812)、DCP(0.724)和AFP(0.534);特异度由高到低依次为GPC3(0.707)、VEGF(0.692)、DCP(0.665)和AFP(0.653).其中GPC3和VEGF的敏感度和特异性显著高于DCP 和AFP(P <0.05),但GPC3与VEGF之间无统计学差异(P>0.05).联合检测的敏感度和特异度为0.852和0.800,显著高于任何一种标志物(P<0.05).ROC结果显示联合检测的曲线下面积(AUG)为0.818,高于任一种标志物单独检测的AUC.结论血清GPC3、DCP和VEGF的检测可协助AFP诊断原发性肝癌,联合4种标志物检测可显著提高原发性肝癌的检出率. 【期刊名称】《实用癌症杂志》 【年(卷),期】2016(031)009 【总页数】3页(P1399-1401)

【关键词】原发性肝癌;甲胎蛋白;磷脂酰基醇蛋白聚糖-3;异常凝血酶原;血管内皮生长因子 【作者】卢凌鹏;黄艳芳 【作者单位】200137 上海市第七人民医院;200137 上海市浦东新区高桥社区卫生服务中心 【正文语种】中文 【中图分类】R735.7 原发性肝癌是消化系统常见恶性肿瘤之一,早期诊断困难,治疗难度大,疾病进展快,死亡率高,预后极差。研究表明80%的原发性肝癌患者存在肝硬化疾病基础,因此对于肝硬化患者的定期筛查有利于原发性肝癌的早期诊断。常用的肝癌肿瘤标志物甲胎蛋白(alpha-fetoprorein,AFP)灵敏度和特异度不高,寻找可以替代或弥补AFP不足的肝癌肿瘤标志物是肝癌早期诊断的重要工作。本研究通过检测原发 性肝癌患者血清中AFP,磷脂酰基醇蛋白聚糖-3(glypican-3,GPC3),异常凝血 酶原(desrcarboxyprothrombin,DCP)和血管内皮生长因子(vascular endothelial growth factor,VEGF)浓度水平,探讨4种标志物对于早期诊断原发 性肝癌的价值。 1.1 一般资料 选择我院2012年12月至2015年12月收治的原发性肝癌患者82例纳入肝癌组,其中男性55例,女性27例;年龄27~81岁,平均(46.7±7.5)岁。另外收集同 期住院的肝硬化患者45例纳入肝硬化组和健康体检者50例纳入对照组。肝硬化 组患者男性27例,女性18例;年龄32~79岁,平均(47.5±6.6)岁。对照组男 性30例,女性20例;年龄18~80岁,平均(48.0±7.0)岁。肝癌组患者均为初

原发性肝癌新型血清标志物研究进展与应用

原发性肝癌新型血清标志物研究进展与应用 原发性肝癌是目前我国第4位常见恶性肿瘤及第2位肿瘤致死病因,严重威胁我国人民的生命和健康。原发性肝癌主要包括肝细胞癌、肝内胆管癌和混合型肝细胞癌-胆管癌三种不同病理学类型,三者在发病机制、生物学行为、病理组织学、治疗方法以及预后等方面差异较大,其中HCC 占75%~85%、ICC 占10%~15%。本文中的“肝癌”一般指HCC。 原发性肝癌诊断传统的血清标志物 血清AFP是当前诊断肝癌和疗效监测常用且重要的指标。血清AFP≥400μg/L,在排除妊娠、慢性或活动性肝病、生殖腺胚胎源性肿瘤以及消化道肿瘤后,高度提示肝癌;而血清AFP 轻度升高者,应结合影像学检查或进行动态观察,并与肝功能变化对比分析,有助于诊断。异常凝血酶原(PIVKAⅡ;DCP)、血浆游离微RNA(microRNA,miRNA)和血清甲胎蛋白异质体(AFP-L3)也可以作为肝癌早期诊断标志物,特别是对于血清AFP 阴性人群(证据等级1,推荐A)。基于性别、年龄、AFP、PIVKAⅡ和AFP-L3 构建的GALAD 模型在诊断早期肝癌的敏感性和特异性分别为85.6%和93.3%,有助于AFP 阴性肝癌的早期诊断(证据等级2,推荐A)。目前已有基于中国人群大样本数据的优化的类GALAD 模型用于肝癌的早期诊断。 原发性肝癌新型血清标志物miRNA 近年来,“液体活检”(Liquid biopsy)包括循环游离微RNA(Circulating cell-free microRNA)、循环肿瘤细胞( CTC )、循环肿瘤DNA(ctDNA)等,在肿瘤早期诊断和疗效评价等方面展现出重要价值。肝癌“液体活检”也取得较多进展,相比于血清

相关主题
相关文档
最新文档