GSEA为Gene Set Enrichment Analysis,为基因集富集分析。
1.GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
- 输入文件为“基因表达文件”,不仅有基因名,还有所有基因的表达值。这与我们进行GO/Pathway分析时输入差异表达的基因是不同的,我们在做GO/Pathway富集分析的时候,是首先判断差异表达基因,然后再看差异表达的基因所参与的功能;而GSEA分析则根据一组基因的整体表达趋势来看该组基因是否有差异。
比如:常规的GO/Pathway分析是这样:先从10000个基因中找到差异基因800个(倍数>1.5倍),然后再分析功能;而GSEA则把10000个基因全部放进来,不管差异倍数是1.5还是1.1,统统进行考量和富集。再极端一点,如果某条通路的分子大部分都被上调了,但是倍数只有1.3倍,常规的分析会遗漏该通路,而GSEA分析则能找出来。这一点是GSEA与常规富集分析最大的区别。
- 在一个典型实验中,mRNA的表达文件(基因表达量)大部分(既是概率也是数量)都会被分为一到两个大类,其中对于癌症基因来说相对(或者其他生物意义如疾病)的敏感。根据这些基因的不同表达值可以排成一个序列(按大小顺序),暂且成为L。那最大问题就是找出意义所在。
3.1 从一个叫S的探针集序列开始,假定它是一类编码产生新陈代谢的通路基因集,被定位于相同的细胞生成位段,或者是说有相同GO分类。GSEA的目的就在于判断S的成员是随机的分布于L(待测基因探针所排序列)上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。
3.2 EA富集过程包括三步骤:
3.2.1 计算富集分数(Enrichment Score);
3.2.2 估计富集分数的显著性水平;
3.3.3 矫正多重假设检验;
参考链接:
https://sanwen8.cn/p/57c4T7g.html
http://www.360doc.com/content/16/1226/13/19913717_617770767.shtml