论文写作丨利用代谢相关基因构建列线图如何发4分+SCI的?
大家好!今天跟大家分享的文献是2020年9月发表在Molecular Therapy-Oncolytics(IF=4.115)杂志上的一篇文章。文章利用TGCA数据库中肺癌患者的转录组数据,使用代谢基因特征建立预测模型,预测患者的生存时间。构建列线图预测患者的3年和5年生存率。
题目:Prognostic Implication of a Metabolism-Associated Gene Signature in Lung Adenocarcinoma
肺癌代谢相关基因的预后特征
摘要
肺癌是全球最常见的癌症之一,其致死率很高。代谢途径在肺癌的发生和发展过程中起着十分重要的作用。作者旨在基于代谢相关基因(MTG)特征构建肺腺癌(LUAD)的预后预测模型。从TCGA LUAD队列中筛选差异表达(DE)的MTG。通过单因素Cox回归分析和LASSO分析作者构建了最佳风险模型,使用生存分析评估预后模型的能力。KM结果表明该模型在TCGA和GEO数据中均表现良好。最后,结合临床表型和代表基因特征构建列线图,其结果有助于个性化结果预测。校准曲线显示了实际结果和预测结果之间的一致性。
流程图
1. 数据的获取和整理
本文从GeneCards 收集MTGs。从TCGA数据库收集533个肿瘤样本和59个正常样本。从GEO数据库下载数据GSE31210和GSE30219数据集。
2. 鉴定差异表达(DE)-代谢相关基因(MTGs)和功能分析
从GeneCards数据库中收集到1943个MTGs,其中有86个是TCGA队列的差异表达基因(图1A)。差异表达基因(DEGs)和MTGs的交集情况见图1B。对这86个DE-MTGs进行GO和KEGG富集分析,主要富集在PPAR信号通路和参与酰胺结合、肽结合和正调节树突状细胞分化等功能。
图1 TCGA数据集的差异表达分析
3. TCGA训练队列构建预后基因模型
单因素Cox回归分析鉴定到了37个与OS显著相关的DE-MTGs(图1C)。图1D和1E展示了这37个基因在肿瘤和正常样本中的差异表达情况。随后使用LASSO构建预后模型,回归系数见图2A,包含这13个基因预后模型性能最好(图2B)。这些预后基因主要参与糖代谢,脂代谢和维生素代谢(表1)。
表1 预后基因的功能
作者使用cBioPortal for Cancer Genomics网站研究这13个基因的遗传变异情况。在PanCancer Atlas数据中的507位LUAD患者中有119(23%)位患者发生了突变(图2C),而Firehose Legacy中的230位LUAD患者有54(23%)位患者发生了突变。在Nat Genet2016中有1144位患者中有304(27%)位患者发生了突变。这些突变的频繁发生可能在某种程度上意味着这些基因有助于肿瘤发生。作者同样研究了6个预后基因在BRCA,CESC,PAAD,STAD,LIHC等癌症中的突变情况。分别有18%,15%,18%,9%和52%的患者发生了基因突变。
根据这13个基因的表达水平和LASSO Cox回归分析计算患者的预后risk score。作者使用单因素Cox回归分析和多因素Cox回归分析评估risk score的预后价值。单因素Cox回归分析显示risk score和临床表型与OS显著相关而多因素Cox回归分析表明risk score是独立的预后因素。
图2 构建代谢基因特征和预后价值的评估
risk score的分布及risk score和生存时间的相关性见图3A。根据risk score将患者分为high-risk和low-risk两组。使用聚类热图展示high-rish和low-risk预后基因的表达水平(图3B)。KM生存分析表明low-risk组具有更高的生存可能性(图4A)。生存期1-5年的ROC曲线见图4B,AUC的最大值为0.72,表明该模型的敏感性和特异性良好。
图3 risk score的特征和代谢基因的聚类热图
图4 预后基因的生存分析和ROC曲线
4. GEO验证数据集中预后基因的评估
为验证risk score的预后价值,作者根据TCGA数据集得到的阈值将两个GEO数据集分为high-和low-risk两组。risk score的分布和risk score及risk score和生存时间的相关性见图3C和图3E。基因表达情况见图3D和图3F。Okayama数据集包含226个Ⅰ期和Ⅱ期LUAD患者,KM生存分析表明low-risk组的生存可能性更高,AUC最大为0.83(图4C和4D)。Rousseaux数据集包含292个Ⅰ期到Ⅳ期的肺癌患者。预后基因模型在验证数据集中表现良好(图4E和4F)。总的来说,这13个代谢相关基因有助于风险分层。
作者使用TCGA数据库中6种其他癌症(BRCA,CESC,PAAD,SKCM,STAD和LIHC)的数据集评估这些预后基因的特异性,K-M生存分析表明,LIHC和PAAD的低风险组的生存率较高。
5.构建列线图
列线图是整合多种风险因子应用于临床的有效工具之一。作者对TCGA LUAD队列数据集构建列线图,主要包括年龄、性别、T期、M期、N期和代谢特征等七个风险因子(图5A)。患者3年和5年的OS与列线图预测结果一致(图5B和5C)。
图5 列线图
6.信号通路分析
GSEA分析表明high-risk组的基因主要富集在细胞循环,P53信号通路,嘧啶代谢和蛋白酶体等通路,而low-risk组的基因主要富集在血管平滑肌收缩和初级胆汁酸生物合成等通路(图5D)。
7.预后基因的免疫组化染色
为验证这些预后基因的蛋白表达水平,作者对4个基因进行了免疫组化染色。在NSCLC和SCLC lung组织中SLC2A1的表达水平增加,在肺癌组织中PSCK9和ABCC2呈弱阳性而在NSCLC和SCLC lung组织中均没有检测到KL(图6)。
图6 预后基因的免疫组化染色
7.单细胞水平上分析基因表达水平
Thienpont等人鉴定到了肺癌微环境中的7个主要细胞类型的52个细胞亚类。作者对肺癌组织进行单细胞转录组测序来评估这些基因在单细胞水平上的表达水平。结果表明,SLC2A1,CYP4B1,TFAP2A,TCN1,CDKN3和TK1在大部分细胞中表达,而FFAR4主要在髓系细胞中表达CAV3仅在纤维细胞的亚类中表达。
结语
作者基于TCGA数据集构建了一个MTG预后特征,可能有助于为LUAD患者提供治疗靶点。本研究构建的列线图可以准确预测LUAD患者的3年和5年生存率,有助于个性化治疗。本文的亮点在于使用代谢相关基因建立模型预测肺癌患者的预后情况,得到了较好的预测效果且使用外部数据进行了验证,同时使用单细胞数据集研究这些基因在单细胞水平上的表达情况具有一定的创新性,值得我们学习。但是文章还有有一些不足,例如对单细胞数据的分析较少。
版权声明:本文转自“生信发文助手”,文章转载只为学术传播,无商业用途,版权归原作者所有,如涉及侵权问题,请联系我们,我们将及时修改或删除。
沃斯(WOSCI)由耶鲁大学博士团队匠心打造,专注最新科学动态并提供各类科研学术指导,包括:前沿科学新闻、出版信息、期刊解析、论文写作技巧、学术讲座、论文润色等。
上一篇:一旦新冠病毒变异,疫苗刺激人体产生的抗体可能会加重病情?
下一篇:太平康瑞重疾险怎样?退费和退保有区别吗?退保怎么操作?
最近更新热点资讯
- 谷歌AI聊天记录让网友San值狂掉:研究员走火入魔认为它已具备人格,被罚带薪休假
- 豆瓣9.4,姐弟恋、三人行,这部大尺度太厉害
- Genes, Intelligence, Racial Hygiene, Gen
- 【土耳其电影】《冬眠》电影评价: 宛如一部回归伯格曼风格的道德剧
- 陌生人社会伦理问题研究
- 理论研究|前海实践的价值理性和工具理性
- 澳门刑事证据禁止规则
- 综艺普及剧本杀和密室逃脱助力线下实体店爆发式增长
- 日本小伙和五个小姐姐同居?看完我酸了!
- 第一学期高一语文考试期中试卷
- 高中必考的物理公式有哪些
- 这部大尺度的申奥片,却讲述了不lun恋...
- 心理语言学论文精品(七篇)
- 《贵妃还乡》 超清
- 专论 | 郭丹彤、陈嘉琪:古代埃及书信中的玛阿特观念
- 微专业招生 | 数字文化传播微专业列车即将发车,沿途课程抢先看!
- 生态安全的重要性汇总十篇
- 原创因“18禁”电影登舆论顶峰,万千少女一场春梦:这一生,足够了
- 章鱼头
- 读书心得体会
- 考研考北京大学医学部或者协和是一种怎样的难度?
- 央媒评女主播编造“夜宿故宫”:让肇事者付出代价,理所应当
- 库欣病患者求医记(流水账)
- 《太平公主》④ | 地位越高,越要装傻
- 爱体检 安卓版 v2.5