基于TCGA数据的女性不吸烟肺癌患者相关lncRNAs的筛选

合集下载

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析作者:唐怀慧王忠帅邵茜茜来源:《医学信息》2020年第07期摘要:目的; 基于TCGA数据库挖掘肺腺癌差异表达的RNAs,通过ceRNA网络的综合分析并预测其与患者预后的相关性。

方法; 利用TCGA数据库下载肺腺癌的表达数据,使用R软件“edgeR”包初步筛选差异表达的RNAs,进一步构建肺腺癌的lncRNA-miRNA -mRNA的ceRNA网络,对ceRNA网络中的mRNAs进行了K-M生存分析。

结果; 筛选的差异表达的RNAs中有3个mRNA(ANLN、IGFBP1、TFAP2A)、4个lncRNA (AC015923.1、FGF12-AS2、LINC00211、MED4-AS1)、2个miRNA(hsa-mir-31、hsa-mir-490),均与预后相关。

其中hsa-mir-31预后价值最高(P关键词:TCGA;肺腺癌;ceRNA网络;预后Abstract:Objective; To explore the differentially expressed RNAs of lung adenocarcinoma based on TCGA database, comprehensively analyze and predict the correlation with the prognosis of patients through ceRNA network.Methods; The TCGA database was used to download the expression data of lung adenocarcinoma, Use the R software "edgeR" package to preliminarily screen differentially expressed RNAs to further construct the ceRNA network of lncRNA-miRNA-mRNA of lung adenocarcinoma, K-M survival analysis was performed on the mRNAs in the ceRNA network. Results; The screened differentially expressed RNAs included 3 mRNA(ANLN, IGFBP1,TFAP2A), 4 lncRNA(AC015923.1, FGF12-AS2, LINC00211, MED4-AS1), and 2 miRNA(hsa-mir-31, hsa- mir-490), both related to prognosis. Among them, hsa-mir-31 has the highest prognostic value (P<0.001), and LINC00461 and has-mir-139 are key node ceRNA regulatory networks.Conclusion; The 3 mRNA, 4 lncRNA and 2 miRNA selected this time can be used as new prognostic factors for lung adenocarcinoma, and LINC00461 and has-mir-139 are two important regulatory network nodes in ceRNA of lung adenocarcinoma.肺腺癌(lung adenocarcinoma)是癌癥死亡的重要原因,目前其发病率和死亡率仍在不断加[1]。

基于TCGA数据库构建肺腺癌预后相关的微小RNAs风险模型

基于TCGA数据库构建肺腺癌预后相关的微小RNAs风险模型

•实验研究•基于TCGA数据库构建肺腺癌预后相关的微小RNAs风险模型林康1 潘蓓2 徐雪妮2 孙慧玲2 王书奎1,2【摘要】 目的 寻找肺腺癌(lung adenocarcinoma,LUAD)特异性的预后相关微小RNAs (microRNAs, miRNAs),为LUAD患者预后预测及个性化治疗方案制定提供依据。

方法 下载TCGA数据库中522例LUAD患者组织标本的miRNA-Seq数据和临床病理及生存时间数据,用R语言对LUAD与癌旁组织中差异miRNAs进行分析。

采用LASSO & COX回归模型在训练集(245例LUAD)中进行LUAD预后相关miRNAs筛选,并构建基于7个miRNAs表达谱的线性风险模型。

根据风险值的高低,以中位风险值为界将患者分为高、低风险组,并分别在测试集(245例LUAD)和总体标本(490例LUAD)中对风险模型预测患者预后的有效性进行验证。

采用COX回归分析miRNAs风险模型是否是独立的预后因子。

结果 LUAD组织与癌旁组织中共有72个差异表达的miRNAs(上调45个、下调27个)。

从训练集中确定miR-101-3p、miR-148a-3p、miR-192-5p、miR-193b-3p、miR-505-3p、miR-584-5p和miR-99a-5p7个与总生存期相关的miRNAs构建预后风险模型。

在训练集、测试集及总体标本中,高风险组患者与低风险组患者相比,总体生存时间均显著降低(P均<0.05)。

经多因素COX回归分析,风险模型在训练集、测试集及总体样本中均是一个独立的预后因子(训练集HR=1.97,P=0.02;测试集HR=1.927,P=0.009;总体HR=1.909,P=0.001)。

结论 研究确定了7个与LUAD患者预后相关的miRNAs,基于7个miRNAs构建的风险模型是1个独立的预后因子。

【关键词】 肺腺癌; 微小RNAs; 预后; TCGAConstruction of risk model associated with prognosis of lung adenocarcinoma based on a set ofmicroRNAs by analyzing TCGA database Lin Kang1, Pan Bei2, Xu Xueni2, Sun Huiling2, Wang Shukui.1, 21Clinical Laboratory, 2Central Laboratory, Nanjing First Hospital, Nanjing Medical University, Nanjing210006, ChinaCorresponding author: Wang Shukui, Email: sk_wang@【Abstrcat】 Objective To explore the specific prognosis related microRNAs (miRNAs) oflung adenocarcinoma (LUAD), and provide basis for prognosis prediction and individualized treatment.Methods The miRNA-Seq data and clinical information of LUAD patients were downloaded from theTCGA database, and the differentially expressed miRNAs between LUAD and adjacent normal tissues wereidentified by R Language. The LASSO & COX regression was used to develop a miRNA-based model forpredicting patientsʹ survival in the training set (n=245) and to carry out LUAD prognostic related miRNAsscreening, and to construct a linear risk model based on 7 miRNAs expression profiles. According to the riskvalues, the patients were divided into high and low risk groups with the median risk value as the boundary,and the effectiveness of the prognosis was verified by the risk model in the test set (n=245) and the totalspecimens (n=490) respectively. COX regression analysis was used to determine whether the miRNAs riskmodel was an independent prognostic factor. Results Seventy-two differentially expressed miRNAs wereidentified between LUAD and adjacent normal tissues. forty-five miRNAs were up-regulated and 27 weredown-regulated in LUAD tissues. Seven survival-related miRNAs (miR-101-3p, miR-148a-3p, miR-192-5p,miR-193b-3p, miR-505-3p, miR-584-5p, and miR-99a-5p) were identified in the training set and a prognosticDOI:10.3877/cma.j.issn.2095-5820.2018.02.006作者单位:210006 南京医科大学附属南京医院检验科1,中心实验室2通信作者:王书奎,Email:sk_wang@model based on the expression of the 7 miRNAs was developed and its coefficient was evaluated. It showed that the overall survival time of the high-risk group was significantly lower than that of the low risk group in the training set, test set and whole cohort (P<0.05). Multivariate cox regression analysis indicated that the risk model was an independent prognostic factor in the training set, test set and whole cohort (training set HR=1.97, P=0.02; test set HR=1.927, P=0.009; overall HR=1.909, P=0.001). Conclusion Seven miRNAs are identified to be significantly associated with the prognosis of LUAD patients and the risk model based on the 7 miRNAs could be an independent prognostic factor.【Key words】 Lung adenocarcinoma; MicroRNAs; Prognosis; TCGA微小RNAs(microRNAs,miRNAs)是一类长度在18~25个核苷酸左右的短小非编码RNAs,能在转录后水平调控信使RNA(message RNA,mRNA)的表达水平[1]。

基于TCGA数据库肺腺癌预后相关microRNA风险模型的建立

基于TCGA数据库肺腺癌预后相关microRNA风险模型的建立

统计分析 1. 训练集中,LASSO算法筛选预后相关miRNAs,并建立risk score 模型 2. 分别在测试集及总体样本中验证risk score 模型 3. 判断risk score 模型是否独立于其他临床变量高预测患者预后
1、患者临床信息整理 1)数据下载
从TCGA肿瘤数据库中(https:///)确认并下载522例肺 腺癌患者的组织样本miRNA-Seq数据(level3)和相应的临床信息,并以此作为 研究对象(截止时间2016年2月28日)。
究 资
Ø未来:


• 十万人全基因组测序计划(英国)

• 百万人全基因组测序计划(美国)
癌症基因组图谱(TCGA)计划
简介
使命 目标
癌症基因组图谱 (TCGA)计划由美国Na onal Canc er Ins tute(NCI ) 和Na onal Huma n Genome Research Ins tut e (NHGRI)于2006年联合启动的项目,第一阶段为期三年, 耗资1亿美元,研究的癌症类型包括多形性成胶质细胞瘤(GBM)、卵巢癌,并于 2008年在Nature发表了GBM的研究成果,2009年9月,再投$2.75亿, 针对20余种癌 症进行大规模实验,于2014年宣布完成,目前总计33种癌症类型。
Nature, 2011
8
2017-9-9
Our Study 第一部分
构建肺腺癌预后相关的microRNA风险模型
TCGA数据库挖掘 522例肺腺癌患者,详细的临床诊疗信息及miRNA-Seq数据
临床信息整理
miRNA-Seq数据分析
患者随机分组 490例患者随机分为训练集、测试集(n=245)

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析

基于TCGA数据库肺腺癌RNAs构建ceRNA网络的综合分析肺腺癌是一种常见的恶性肿瘤,其发病率和死亡率在世界范围内都处于较高水平。

近年来,人们通过研究发现,肿瘤发生与miRNA、mRNA和lncRNA之间存在着一种相互调控的关系,即ceRNA (competitive endogenous RNA)网络。

该网络通过miRNA作为中介,调控mRNA和lncRNA的表达,影响细胞的生长、分化和凋亡。

对于肺腺癌相关RNAs的ceRNA 网络进行综合分析,有助于识别潜在的生物标志物和治疗靶点。

本文基于TCGA数据库,着重探讨了肺腺癌的ceRNA网络构建以及与肺腺癌发生发展相关的关键RNAs的生物学意义。

1. 数据来源和预处理本研究使用了TCGA数据库中的肺腺癌数据作为研究对象。

将肺腺癌组织样本和正常组织样本的RNA-seq数据进行下载,并进行预处理,包括数据质量控制、去除低质量reads、过滤掉低表达的基因等。

接着,通过miRBase数据库和LncBase数据库获取miRNA和lncRNA的注释信息,以及miRNA-mRNA、miRNA-lncRNA的相互作用信息。

2. ceRNA网络的构建通过已知的miRNA-mRNA和miRNA-lncRNA相互作用信息,可以构建肺腺癌的ceRNA网络。

在网络中,miRNA作为节点,连接着与其有相互作用的mRNA和lncRNA。

这些相互作用关系可以通过计算得到的ceRNA关系评分进行筛选和过滤,从而构建出一个较为可靠的ceRNA网络。

3. 关键RNAs的筛选和功能分析在构建好的ceRNA网络中,通过一系列的拓扑结构和网络分析方法,可以筛选出一些在网络中具有重要位置和功能的RNAs,称之为关键RNAs。

通过对这些关键RNAs进行富集分析,可以发现它们在肺腺癌发生发展过程中所涉及的生物学过程和通路。

4. 实验验证为了验证ceRNA网络的可靠性和对关键RNAs的功能预测,可以进行相关的实验验证。

基于TCGA数据挖掘筛选肺鳞癌预后相关lncRNA分子标签

基于TCGA数据挖掘筛选肺鳞癌预后相关lncRNA分子标签

基于TCGA数据挖掘筛选肺鳞癌预后相关lncRNA分子标签刘颖;王可;何杨婷;肖金荣;王唤卓;李旸凯;魏晟【摘要】目的:通过对TCGA数据库的挖掘,筛选与肺鳞癌预后相关的lncRNA.方法:提取TCGA数据库中肺鳞癌患者临床数据以及肺鳞癌和癌旁组织中的lncRNA 表达数据,采用LASSO Cox回归筛选肺鳞癌预后相关的lncRNA,并构建lncRNA 分子标签.采用Cox模型研究该分子标签的表达水平对肺鳞癌患者预后的影响.结果:首先筛选出322个在癌和癌旁组织中差异表达的lncRNA.经LASSO Cox回归分析从中筛选出6个与肺鳞癌预后相关的lncRNA,分别为KTN 1-AS1、FAM83A-AS1、AF131217.1、RP11-108M12.3、CTD-2555C10.3和AC068831.16.根据这6个lncRNA构建的分子标签表达水平中位数-0.09将肺鳞癌病人分为高表达组和低表达组,高表达组病人死亡风险是低表达组的2.14倍(HR=2.14,95%CI:1.50~3.04,P<0.01).预测模型的Harrell's C统计量为0.69(95%CI:0.64~0.75).结论:通过对TCGA数据库的挖掘,发现KTN1-AS1、FAM83A-AS1、AF131217.1、RP11-108M12.3、CTD-2555C10.3和AC068831.16对肺鳞癌的预后有影响,且构建的lncRNA分子标签表达水平与肺鳞癌病人的预后有显著性关联.【期刊名称】《癌变·畸变·突变》【年(卷),期】2018(030)006【总页数】6页(P468-472,478)【关键词】肺鳞癌;lncRNA分子标签;TCGA数据库;预后;预测模型【作者】刘颖;王可;何杨婷;肖金荣;王唤卓;李旸凯;魏晟【作者单位】华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030;华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030;华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030;华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030;华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030;华中科技大学同济医学院附属同济医院胸外科,湖北武汉430030;华中科技大学同济医学院公共卫生学院流行病与卫生统计学系环境与健康教育部重点实验室,湖北武汉430030【正文语种】中文【中图分类】R734.2肺癌是全世界发病率和死亡率最高的恶性肿瘤之一,且发病人数逐年上升 [1- 2]。

《基于TCGA数据库乳腺癌IncRNA的分析研究》

《基于TCGA数据库乳腺癌IncRNA的分析研究》

《基于TCGA数据库乳腺癌IncRNA的分析研究》一、引言乳腺癌是全球女性最常见的恶性肿瘤之一,其发病率逐年上升,对女性健康构成严重威胁。

随着生物信息学和基因组学的发展,越来越多的研究开始关注非编码RNA(ncRNA)在疾病发生、发展中的作用。

其中,长链非编码RNA(IncRNA)因其特殊的调控作用和复杂的生物学功能,成为研究的热点。

TCGA(The Cancer Genome Atlas)数据库作为全球最大的癌症基因组数据库之一,为乳腺癌IncRNA的研究提供了丰富的数据资源。

本文旨在基于TCGA数据库,对乳腺癌IncRNA进行深入分析研究,以期为乳腺癌的预防、诊断和治疗提供新的思路和方法。

二、材料与方法1. 数据来源本研究采用的数据来自TCGA数据库中的乳腺癌相关数据,包括基因表达谱、临床信息等。

2. 研究方法(1)数据预处理:对基因表达谱数据进行质量评估和预处理,去除低质量和异常值数据。

(2)IncRNA筛选:基于基因表达谱数据,筛选出在乳腺癌组织中显著差异表达的IncRNA。

(3)功能分析:通过生物信息学分析方法,对筛选出的IncRNA进行功能分析,包括基因共表达网络分析、基因集富集分析等。

(4)验证实验:结合临床样本,对筛选出的关键IncRNA进行实时荧光定量PCR验证。

三、结果与分析1. 差异表达IncRNA的筛选结果通过数据分析,我们筛选出在乳腺癌组织中显著差异表达的IncRNA共计XX个,其中XX个为上调表达,XX个为下调表达。

这些IncRNA在乳腺癌的发生、发展过程中可能发挥重要的调控作用。

2. 功能分析结果通过对筛选出的IncRNA进行功能分析,我们发现这些IncRNA主要参与细胞增殖、凋亡、侵袭和转移等生物学过程。

其中,某些关键IncRNA与乳腺癌的预后密切相关,可能成为乳腺癌诊断和治疗的潜在靶点。

3. 实时荧光定量PCR验证结果为了进一步验证筛选出的关键IncRNA的准确性,我们结合临床样本进行了实时荧光定量PCR验证。

TCGA数据库中肺腺癌标志物的数据发掘研究

TCGA数据库中肺腺癌标志物的数据发掘研究李楠;迟少丽;刘岩;王连友【期刊名称】《实用医药杂志》【年(卷),期】2018(35)9【摘要】目的探讨肺腺癌潜在的肿瘤标志物的临床诊断及预后的意义.方法对TCGA数据库中的RNA-seq数据进行挖掘,寻找在肺腺癌中变异超过10%的lncRNA,选取变异最大的进行PVT1、HCG11、TP53TG1和DGCR5在Oncimne 数据库中进行表达差异验证,有显著差异的标准为|log2 fold change|>2,P<0.05,并进行ROC及生存分析以判断其在临床诊断和预后判断中的意义.结果筛选出PVT1和DGCR5在肺腺癌中有明显差异并对其诊断和预后有显著性影响(P<0.05).结论 PVT1和DGCR5对肺腺癌的诊断和预后有影响,可以作为肺癌预后的生物标志物进一步研究.【总页数】4页(P847-850)【作者】李楠;迟少丽;刘岩;王连友【作者单位】266071 山东青岛,解放军401医院干部病房三科;266071 山东青岛,解放军401医院干部病房三科;266071 山东青岛,解放军401医院干部病房三科;450042 河南郑州,解放军153医院心内科【正文语种】中文【中图分类】R734.2【相关文献】1.基于TCGA数据库分析ASPM在肺腺癌中的表达及临床意义 [J], 杜强;姚义勇;曾刚2.基于TCGA数据库的肺腺癌组织中CDT1表达及相关信号通路分析 [J], 柳家翠;黄奔;许培培3.基于TCGA数据库分析GTSE1基因在肺腺癌中的表达及意义 [J], 高周勇;张文成;王广舜4.基于TCGA数据库分析TUBA1C在肺腺癌中的表达及临床意义 [J], 陈兰;林远生;刘建生5.基于TCGA数据库分析TUBA1C在肺腺癌中的表达及临床意义 [J], 陈兰;林远生;刘建生因版权原因,仅展示原文概要,查看原文内容请购买。

基于TCGA数据库胃癌LincRNA生物标志物筛选及生物学功能分析

基于TCGA数据库胃癌LincRNA生物标志物筛选及生物学功能分析摘要:目的:预测与胃癌相关的LincRNA,及与其相关的信号通路,并筛选出特定的LincRNA作为胃癌预后潜在的生物标志物。

方法:第一步,从TCGA(The Cancer Genome Atlas,TCGA)数据库中下载375例胃腺癌组织和32例癌旁组织的RNA-seq数据(HTseq-RNA Counts)及胃癌患者相关临床信息,并分别提取相关的LincRNA和mRNA。

第二步,使用R语言/Bioconductor的edgeR包分别筛选出差异表达的LincRNA、mRNA。

第三步,使用加权基因共表达网络分析(WGCNA)方法对数据进行加权,得到与胃癌临床特征相关性最大的模块及相对应的临床特征。

第四步,通过CytoHubba 软件寻找关键基因,得到与胃癌发生相关性最大的关键LincRNA。

第五步,对所得到的关键基因LincRNA进行靶基因预测及生物学功能分析,研究与胃癌发生、转移有关的LincRNA与mRNA的相关性,并使用Cytoscape构建LincRNA与mRNA的共表达网络。

第六步,将得到的胃癌关键LincRNA使用Kaplan-Meier软件进行生存分析,以研究LincRNA与胃癌患者的总体存活之间的关联。

结果:1.此研究筛选出2200个差异表达的LincRNA以及4623个差异表达的mRNA;2.得到与肿瘤分级相关性最大的MEbrown模块、MEturquoise模块(模块中为基因群);3.筛选出LincRNA相关性最大模块中的5个关键基因(Hub基因),分别是BARX1-AS1、CARMN、FENDRR、GAS1RR、LINC01354;4.得到胃癌发病可能相关的MAPK Signaling Pathway、CELL CYCLE Signaling Pathway、P53 Signaling Pathway、P13K-AKT Signaling Pathway、WNT Signaling Pathway、TGF-BETA Signaling Pathway、ADHERENS JUNCTION Signaling Pathway七条主要的KEGG生物信号通路;5.构建LincRNA 与mRNA共表达网络;6.BARX1-AS1、CARMN、FENDRR、GAS1RR、LINC01354高表达组生存率均较低表达组低。

基于TCGA数据库的LUSC预后相关RNAs筛选

临床医药文献电子杂志Electronic Journal of Clinical Medical Literature 2019 年第 6 卷第 63 期2019 Vol.6 No.6352基于TCGA数据库的LUSC预后相关RNAs筛选杨小妹1,2,毕育学1*(1.西安交通大学医学部公共卫生学院,陕西西安 710061;2.西安市健康教育所,陕西西安 710000)【摘要】目的 通过TCGA数据库中肺鳞癌(Lung squamous cell carcinoma,LUSC)的转录组表达谱数据分析,找到与LUSC预后显著相关的转录基因,为后续研究提供数据支持。

方法 下载TCGA数据库中LUSC 转录组表达数据及临床数据,应用R语言进行数据合并、标准化处理及差异分析,再用SPSS 20.0软件对差异表达基因进行数据分析,筛选出与LUSC生存显著相关的特异表达转录基因。

结果 Spearman秩相关分析筛选出预后相关的差异基因,再经Kaplan Meier进行Log-rank检验,筛出2个与LUSC患者预后密切相关的基因,而Cox多因素回归分析结果显示,DLX6更具有特异性。

结论 经Spearman秩相关分析和Kaplan Meier检验筛选出LUSC预后相关的转录基因的可信度较高,为LUSC预后分子标志物的研究和临床应用提供了数据支持。

【关键词】肺鳞癌,TCGA数据库,转录基因,预后【中图分类号】R734.2 【文献标志码】A 【文章编号】ISSN.2095-8242.2019.63.52.02肺鳞癌(Lung squamous cell carcinoma,LUSC)是最常见的肺癌组织学亚型,其发病率和死亡率均居恶性肿瘤之首[1]。

本研究基于TCGA数据库LUSC相关基因数据,通过limma包(R语言)分析差异表达基因,再经过Spearman秩相关分析LUSC预后相关的转录组基因,运用Kaplan Meier 进行Log-rank检验,筛选出与LUSC生存显著相关的RNAs,最后对筛选出的转录基因做Cox多因素回归分析,分析差异基因在其他类型肿瘤中的表达情况,确定LUSC的特异表达转录基因。

LncRNAs在肺癌发病机制中的最新发现

LncRNAs在肺癌发病机制中的最新发现发布时间:2022-11-26T09:33:30.879Z 来源:《医师在线》2022年7月14期作者:冯思颉刘志强侯宝华郝双影通讯作者[导读]L ncRNAs在肺癌发病机制中的最新发现通讯作者冯思颉 刘志强 侯宝华 郝双影(河南理工大学医学院,医学技术系;河南焦作454000)摘要:肺癌(lung cancer)是全球范围内最常见的癌症类型,长期以来其发病率和死亡率居高不下。

由于早期诊断的难度较大以及癌细胞转移的发生,肺癌的5年存活率极低。

最近的研究发现长链非编码RNA(LncRNAs)作为生物过程的关键参与者,在一些癌症细胞中经常出现失调的现象,包括肺癌细胞。

这篇综述将会着重关注LncRNAs在肺癌发病机制中的最新发现。

虽然我们对肺癌的发生和进展LncRNAs的认识尚处于起步阶段,但毫无疑问,了解LncRNAs 的激活情况定会有助于高效率生物标志物的发现,并能改善肺癌患者的治疗现状。

关键词:肺癌,非小细胞肺癌,长链非编码RNA简介:肺癌(lung cancer)是全球范围内最常见的癌症类型,长期以来其发病率和死亡率居高不下[1-5]。

权威杂志《CA:A Cancer Journal for Clinicians》发布的《2020年全球癌症数据报告》中显示,在世界范围内,肺癌发病率占全球第二位,在我国则高居首位。

肺癌的死亡率在我国以及世界范围内均高居首位[1]。

由于肺癌生物学特性复杂,恶性化程度高,80%的肺癌患者在确诊时已属中晚期[6],同时肺癌的病因复杂,迄今尚不能确定某一致癌因子,因此肺癌的临床治疗效果在近十年中没有显著的提高,总的治愈率仅为10%左右[1-3]。

肺癌的早期诊断提高了一定的治疗效果,比如影像学和痰液脱落细胞学的进展,为肺癌的早期诊断提供了有利的技术条件。

肺癌的治疗目前包括手术、放化疗、免疫及中药等多学科综合的治疗,传统的治疗方式虽然能够取得一定疗效,但往往由于药物具有较大的副作用而导致患者生活质量明显降低[6]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DOI:10.13602/j.cnki.jcls.2019.02.17·循证医学·基于TCGA数据的女性不吸烟肺癌患者相关lncRNAs 的筛选*肖梨花1,李淳1,曾文明2a,李娜2a,尹辉明2b(1.南华大学附属第二医院检验科,湖南衡阳421001;2.湖南医药学院第一附属医院a.病理科,b.呼吸内科,湖南怀化418000)摘要:目的通过对TCGA数据库中女性不吸烟肺癌患者相关基因测序数据进行分析,筛选差异表达的长链非编码RNA (lncRNAs)。

方法下载TCGA中女性不吸烟肺癌患者的基因表达数据及相应的临床信息,利用R软件包对数据进行处理、整合和分析,筛选差异表达基因,并通过Survival包进行预后分析。

结果筛选获得354个与女性不吸烟肺癌相关的差异表达lncRNAs,其中在肿瘤组织中降低表达的lncRNAs45个,高表达的lncRNAs309个,预后分析表明LINC01863的表达水平与女性不吸烟肺癌患者的预后呈正相关(P<0.05),LINC02487、LINC01419和DSCAM-AS1的表达水平与患者的预后呈负相关(P<0.05)。

结论对TCGA中的高通量测序数据进行再分析筛选获得多个与女性不吸烟肺癌患者致病相关的lncRNAs,为女性不吸烟肺癌患者的诊断和预后评估提供了潜在的新靶标。

关键词:女性不吸烟肺癌;TCGA数据;长链非编码RNA中图分类号:R734.2文献标志码:AScreening of lncRNAs in female non-smoking lung cancer patients based on TCGA dataXIAO Lihua1,LI Chun1,ZENG Wenming2a,LI Na2a,YIN Huiming2b(1.Department of Clinical Laboratory,the Second Hospital Affilia-ted to University of South China,Hengyang421001,Hunan;2a.Department of Pathology,2b.Pepartment ofRespiratory Medicine,the First Affiliated Hospital of Hunan University of Medicine,Huaihua418000,Hunan,China)Abstract:Objective To screen the differentially expressed long non-codingRNAs(lncRNAs)by analyzing the related gene sequen-cing data of female non-smoking lung cancer patients in the database of The Cancer Genome Atlas(TCGA).Methods The gene ex-pression data and the corresponding clinical information of female non-smoking lung cancer patients were downloaded from the TCGA database.Then,the data were processed,integrated and analyzed with theRsoftware package,and the differentially expressed genes were screened out.The prognosis was analyzed by the Survival package.Results A total of354differentially expressed lncRNAs asso-ciated with female non-smoking lung cancer were obtained,of which45were down-regulated and309were up-regulated in tumor tis-sues.The prognosis analysis showed that the expression level of LINC01863was positively correlated with the prognosis of female non-smoking lung cancer patients(P<0.05),and that the expression levels of LINC02487,LINC01419and DSCAM-AS1were negatively correlated with the prognosis of female non-smoking lung cancer patients(P<0.05).Conclusion The re-analysis on the high-through-put sequencing data in TCGA database obtains a large number of lncRNAs related to the development of female non-smoking lung canc-er,which provides the potential new targets for the diagnosis and prognosis assessment of female non-smoking lung cancer.Key words:female non-smoking lung cancer;TCGA data;long non-codingRNA肺癌的发病机制复杂,涉及多个方面,其中吸烟被公认为是肺癌发生的主要危险因素[1-2]。

但临床上女性肺癌的发病人数逐年增加,且绝大多数确诊的女性肺癌患者没有明确的吸烟史,因此,探讨女性不吸烟肺癌患者的发病机制,寻找早期诊断和预后的生物学标志物具有重要的意义。

长链非编码RNA(long non-codingRNAs,lncRNAs)近年来被认为在癌症等多种疾病的发生、发展中起着重要作用,对肿瘤的早期诊断和预后评估表现出极高的应用价值[3-5]。

本研究从癌症基因组图谱(The Cancer Ge-nome Atlas,TCGA)中下载女性不吸烟肺癌患者相关基因表达数据,利用R软件包筛选差异表达的lncRNAs,分析其表达及预后情况。

1材料与方法1.1获取基因表达数据从美国癌症基因组图谱(TCGA,https://cancergenome.nih.gov/)下载肺癌的基因表达资料,筛选出女性不吸烟患者基因表达数*基金项目:湖南省自然科学基金青年基金(2019JT50425)。

作者简介:肖梨花,1985年生,主管技师,硕士,主要从事临床分子诊断。

通信作者:李娜,主治医师,硕士,E-mail:magic5909@163.com;尹辉明,主任医师,硕士,E-mail:1976841746@qq.com。

据,共获得238例不吸烟的女性肺癌样本和24例正常的肺组织样本。

1.2数据处理利用R3.3.4软件包(https ://www.r-project.org /)对数据进行加工和归一化处理。

随后利用edge R包(http ://www.bioconductor.org /packa-ges /release /bioc /html /edgeR.html )中的TMM 方法对数据进行标准化,以似然比F 检验筛选差异表达基因,其中以|log 2FC |>2、FDR值<0.01作为筛选标准[FC 为差异倍数(fold change ),FDR为错误发生率],并利用ggplot2包绘制火山图。

利用Survival 包进行预后分析。

1.3筛选差异表达的LncRNAs 通过R语言筛选获得女性肺癌相关差异表达基因以后,利用LncRNA ,lincRNA ,non-protein coding ,antisense RNA ,intronic 和overlapping 分别作为关键词,依次从差异表达基因数据中进一步提取获得相关差异表达的lncRNAs 。

2结果2.1差异表达基因以|log 2FC |>2、且FDR值<0.01为筛选标准,通过R软件包共获得女性不吸烟肺癌相关差异表达基因3382个(图1),与正常肺组织相比,其中肺癌组织中表达增加的差异表达基因2509个,表达降低的差异表达基因873个(图2A )。

图1女性不吸烟肺癌相关差异表达基因火山图2.2差异表达lncRNAs 在差异表达基因中进一步筛选共获得354个差异表达的lncRNAs ,其中在肿瘤组织中低表达的lncRNAs 45个,包括lincRNA 30个,反义非编码RNA 14个,其他非编码RNA 1个(图2B );高表达的lncRNAs 309个,包括lincRNA 211个,反义非编码RNA 61个,内含子非编码RNA 4个,其他转录本33个(图2B )。

根据表达情况分别列出前10个差异表达的lncRNAs ,见表1、2。

图2女性不吸烟肺癌相关差异表达基因情况表1筛选到的前10个下调表达的lncRNAs基因名称差异倍数P 错误发生率表达情况LINC02016-5.675.27ˑ10394.57ˑ1036下调LINC00551-3.794.29ˑ10225.38ˑ1020下调LINC01863-3.771.20ˑ10191.07ˑ1017下调LINC00968-3.646.64ˑ10302.43ˑ1027下调NAV2-AS2-3.635.42ˑ10281.42ˑ1025下调LANCL1-AS1-3.626.73ˑ10343.81ˑ1031下调LINC00656-3.608.52ˑ10292.68ˑ1026下调PACRG-AS3-3.539.65ˑ10197.04ˑ1017下调LINC02487-3.361.77ˑ10157.40ˑ1014下调MYO16-AS1-3.332.48ˑ10161.20ˑ1014下调表2筛选到的前10个上调表达的lncRNAs基因名称差异倍数P 错误发生率表达情况LINC003927.921.33ˑ1061.01ˑ105上调LINC025827.602.18ˑ1061.56ˑ105上调TMEM132D-AS17.483.55ˑ1062.41ˑ105上调LINC014197.143.03ˑ1062.09ˑ105上调LINC012347.032.05ˑ1093.05ˑ108上调LINC019806.961.09ˑ1071.10ˑ106上调HOXC13-AS 6.896.07ˑ10101.01ˑ108上调LINC006766.681.51ˑ1058.53ˑ105上调POU6F2-AS26.631.10ˑ1081.40ˑ107上调DSCAM-AS16.352.06ˑ1051.12ˑ104上调2.3LncRNAs 的预后价值分析分别对高表达和低表达的前10个lncRNAs 进行预后情况分析,结果表明,低表达LINC01863的女性不吸烟肺癌患者相比于高表达LINC01863的患者预后不良,总生存期较短(图3A ),而高表达LINC02487(图3B )或LINC01419(图3C )或DSCAM-AS1(图3D )的女性不吸烟肺癌患者均有较短的生存期。

相关文档
最新文档