一文读懂高分文章必备分析

栏目:基础教育  时间:2023-07-01
手机版

  Gene Set Enrichment Analysis 或称 GSEA,是一种常用于转录组基因表达分析的数据挖掘技术,已经在《nature》、《Cell》、《ISME》、《Molecular Cell》、《Bioactive Materials》等高分杂志中发表多篇文章,涉及转录组及多组学内容。

  但是,GSEA的结果这么多,到底该怎么看呢?快跟着小编一起来看看吧。

  

  图 GSEA结果

  具体来说,GSEA检索某一生物过程相关的基因的表达量,并用其形成基因集合。一旦基因集合确定,就可以从基因表达谱中计算这些基因FPKM值,用于寻找表达差异的关键基因并进行分类。根据基因表达的相对变化,把基因集合划分为正调控和负调控的,最终进行富集检验,比较正负调控样本集的基因表达差异。通过计算基因在每个样品中基因集合的富集分值,可以找出基因集合在不同样本中的富集情况。

  

  图 分析思路

  GSEA的输入文件是一个基因表达量矩阵,其中的样本分成了A和B两组(如上图),首先对所有基因进行排序(fold change),用来表示基因在两组间表达量的变化趋势。排序之后的基因列表其顶部可以看做是上调的差异基因,其底部是下调的差异基因。

  下面来看看具体的结果解读吧

  

  为便于结果查阅,每组 GSEA 分析均给出了一个汇总的 html 页面(文件名:index.html)。

  对于富集结果,根据上调/下调分成了两个部分,对应两个分组,示例如下:

  

  在每个组别下富集到的基因集,从总体上看,其表达量在该组中高表达。点击enrichment results in html,可以看到具体的结果。

  老师在这里可以在网页查看富集的结果,如富集到的基因功能信息,具体示例如下

  

  GS为基因集的名字,SIZE代表该基因集下的基因数, NES代表归一化后的Enrichment score(ES), 注意GSEA采用p value < 5%, q value < 25% 对结果进行过滤。点击GS DESC可以跳转到每个基因集详细结果页面,示例如下

  

  首先是一个汇总的结果,Upregulated in class说明该基因集在MUT这组中高表达,其他信息和之前介绍的一样,比如具体的基因功能信息、NES值等。

  除此之外,还有一个详细的表格,示例如下

  

  对于该基因集下的每个基因给出了详细的统计信息,PROBE是详细的基因信息,可以再次点击就进入了该基因NCBI的详细说明,其中CORE ENRICHMENT代表是否属于核心基因,如果是Yes,即对该基因集的Enerchment score做出了主要贡献的基因。

  那常用于高分文章中的图是什么呢,就是下面这张图!

  这个表格中的数据对应下面这张图

  

  分成3个部分,重点为前两部分,第一部分为基因Enrichment Score的折线图,横轴为该基因下的每个基因,纵轴为对应的ES值, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。第二部分为hit,用线条标记位于该基因集下的基因。

  还有一种常见的图形,其Enrichment score值全部为负数,对应的在其峰值右侧的基因为该基因集下的核心基因,并在该组中低表达。

  

  除此之外,常见文章中还有一种热图,示例如下

  

  这张热图展示的是位于该基因集下的基因在所有样本中表达量的分布,其中每一列代表一个样本。每一行代表一个基因,基因表达量从低到高,颜色从蓝色过渡到红色。

  上面就是我们最经典的GSEA分析内容,通过GSEA分析,可以识别基因集在不同条件下的富集和彼此之间的显著性,从而帮助研究者确定基因集与特定生物学过程或疾病的关联性。GSEA经常被应用于基因表达谱研究、生物进化、药物靶点鉴定等领域。

  举报/反馈

上一篇:杨矿生:涉黑案“组织成员”的辩护律师如何质证二三问
下一篇:2023年中山市高中阶段学校招生志愿填报常见问答①

最近更新基础教育