哈佛大学单细胞课程
笔记汇总(七)
哈佛大学单细胞课程
笔记汇总(八)
(九)Single-cellRNA-seqmarkeridentification对于上面提到的3个问题,我们可以使用Seurat探索3种不同类型的标记识别来解答。每种都有自己的优点和缺点:
识别每个cluster的markers:
此分析将每个cluster与所有其他cluster进行比较,并输出差异表达/存在的基因。
可用于识别未知cluster并提高对假定细胞类型的信心
鉴定每个cluster的保守markers:
如果使用的单细胞数据来源于不同的样品(如对照、处理,健康和疾病,每个算一种条件),该分析首先寻找在各个条件下不同簇之间差异表达/存在的基因,然后报告所有条件下的簇之间总体差异表达/存在的基因。
这些基因可以帮助找出clusters的身份。
在不止一种条件下有用,可识别在各种条件下保守的细胞类型标记。
特定cluster之间的标记鉴定:
该分析探索了特定cluster之间差异表达的基因。
对于确定相同细胞类型(即具有相似标记的clusters)之间的基因表达差异很有用
识别每个cluster的marker在Seurat中,对每个cluster进行marker识别是通过FindAllMarkers()函数进行,需要对该cluster与其他clusters进行比较,将每个cluster中的细胞视为重复样品,并通过某种统计学检验进行差异表达分析(默认方法为WilcoxonRankSumtest)。
在FindAllMarkers()函数中有3个重要的变量可以决定某个基因是否为一个marker:
logfc.threshold:相对于其他clusters平均表达的变化倍数值,取log2。默认值为0.25。
如果平均log2FC不满足阈值,则可能会错过只在目标簇中一小部分细胞表达,但不在其他簇中表达的细胞标记。
由于不同细胞类型的代谢输出存在细微差异,可能会返回许多代谢/核糖体基因,这对于区分细胞类型身份没有帮助。
min.diff.pct:某个cluster中表达基因的细胞百分比与其他所有clusters中该表达基因的细胞百分比之间的最小百分比差异。
可能会错过在所有细胞中表达但在特定细胞类型中高度上调的那些细胞标志物。
min.pct:在两个clusters中任一clusters的最少比例细胞中检测到的基因。默认值为0.1。
如果将其设置为非常高的值,则可能会导致许多假阴性,原因是并非在所有细胞中都检测到了所有基因(即使它已被表达)。
可以根据需要的严格程度使用这些参数的任意组合。同样,默认情况下,此函数将返回正向和负向表达变化的基因。我们可以使用only.pos观察阳性变化。下面的是查找每个cluster标记的代码:
##DONOTRUNTHISCODE###Findmarkersforeverycluster