这里不介绍Jaccard相似系数的定义了,最简单的例子
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3
那么如果你富集了几百个基因集,然后你想对这几百个基因集进行归类,肯定是根据基因集的相似性归类吧。比如都是3个基因集合,A通路是VIM IDO1 ITGB1 B是CD3 CD4 CD8 C是VIM ITHB1。那么肯定是A和C最像的,不过要怎么证明呢?
1.从GSEA base下载基因集合
library(GSVA)
library(GSVAdata)
library(GSEABase)
library(limma)
kegg <- getGmt("/home/data/ybk/genelist/c2.cp.kegg.v2023.1.Hs.symbols.gmt") ##186 gene sets
reactome <- getGmt("/home/data/ybk/genelist/c2.cp.reactome.v2023.1.Hs.symbols.gmt") ##1569 gene sets
2.挑两个基因集合出来
var="KEGG_VIRAL_MYOCARDITIS"
var2="REACTOME_MAPK_FAMILY_SIGNALING_CASCADES"
geneIds(kegg[[var]]) # var="KEGG_VIRAL_MYOCARDITIS" 内的基因
geneIds(reactome[[var2]])
3.计算文章来源:https://uudwc.com/A/zkrE1
这里的dat2是如果你有自测数据,那么限定一下你做计算的基因要在你的自测数据中文章来源地址https://uudwc.com/A/zkrE1