了解归一化计数对于细胞之间的准确比较是必要的
了解如何通过主成分分析(PCA)评估细胞之间细胞基因表达的相似性
计数归一化和主成分分析
获得高质量的单细胞后,单细胞RNA-seq(scRNA-seq)分析工作流程的下一步是执行聚类。聚类的目的是将不同的细胞类型分为独特的细胞簇。为了进行聚类,我们确定了在细胞之间表达差异最大的基因。然后,我们使用这些基因来确定哪些相关基因集是造成细胞之间表达差异最大的原因。
但是,在进入集群之前,我们需要讨论一些概念。
计数归一化
第一个是计数归一化,这对于准确比较细胞(或样品)之间的基因表达至关重要。除许多其他因素(“无用”)外,每个基因的定位读段计数与RNA的表达成比例(“有用”)。规范化是缩放原始计数值以解决“无用”因素的过程。这样,表达水平在细胞之间和/或细胞内更加可比。
标准化期间经常考虑的主要因素是:
测序深度:需要测序深度来比较细胞之间的基因表达。在下面的示例中,每个基因在细胞2中的表达似乎都增加了一倍,但这是细胞2具有两倍测序深度的结果。
scRNA-seq中的每个细胞都将具有与之关联的不同数量的读取。因此,要准确比较细胞之间的表达,有必要对测序深度进行标准化。
基因长度:需要基因长度来比较同一细胞内不同基因之间的表达。映射到较长基因的读段数似乎与较高表达的较短基因具有相同的计数/表达。
在scRNA-seq分析中,我们将比较细胞内不同基因的表达以使细胞成簇。如果使用基于3'或5'液滴的方法,则基因的长度将不会影响分析,因为仅对转录本的5'或3'末端进行了测序。但是,如果使用全长测序,则应考虑转录本的长度。
主成分分析(PCA)
主成分分析(PCA)是一种用于强调变异和相似性,并在数据集中显示强模式(降维)的技术。在本课中,我们将简要介绍PCA(摘自StatQuests / Josh Starmer的YouTube视频),但我们强烈建议您浏览StatQuest的视频,以获得更全面的解释/理解。
如果您已经量化了两个样本(或细胞)中四个基因的表达,则可以绘制这些基因的表达值,其中一个样本在x轴上表示,另一个样本在y轴上表示,如下所示:
您可以沿代表最大变化的方向在数据上画一条线,在此示例中为对角线。数据集中的最大变异是在组成该品系两个端点的基因之间。
我们还看到基因在线的上方和下方有所不同。我们可以在数据上绘制另一条线,表示数据中变化第二大的量,因为该图是2D(2轴)的。
每行末端附近的基因将是变异最大的基因。这些基因在数学上对线的方向影响最大。
例如,基因C值的微小变化将极大地改变较长线的方向,而基因A或基因D的微小变化对其几乎没有影响。
我们还可以旋转整个图并查看代表变化的线条从左到右和上下。我们看到数据的大部分变化是从左到右(较长的线),数据变化第二大的是上下(较短的线)。现在,您可以将这些线视为代表变化的轴。这些轴本质上是“主要组件”,其中PC1代表数据的最大变化,PC2代表数据的第二大变化。
如果我们有三个样本/像元,那么我们将有一个额外的方向可以发生变化(3D)。因此,如果我们有N个样本/细胞,我们将有N个变化方向或主成分(PC)!计算完这些PC后,将处理数据集中最大变化的PC命名为PC1,将下一个PC 2命名为PC2,依此类推。
确定了数据集的PC后,我们必须弄清楚每个样本/细胞如何适应该上下文,以使我们能够以直观的方式可视化相似性/不相似性。这里的问题是“基于sample_X中的基因表达,给定PC的sample_X得分是多少?”。如以下步骤所述,为所有样本PC对计算分数:
(1)首先,根据基因对每个PC的影响程度,为其分配“影响力”评分。对给定PC没有任何影响的基因得分接近零,而对影响力更大的基因得分更高。PC线末端的基因将产生更大的影响,因此它们将获得更大的分数,但符号相反。
(2)确定影响后,将使用以下公式计算每个样本的分数:
Sample1 PC1 score = (read count * influence) + ... for all genes
对于我们的2个样本示例,以下是如何计算分数的方法:
## Sample1
PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51
PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7
## Sample2
PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21
PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5
(3)一旦为所有PC计算了这些分数,就可以将其绘制在简单的散点图上。下面是此处示例的图:
对于具有大量样本或细胞的数据集,通常会绘制每个样本/细胞的PC1和PC2分数。由于这些PC解释了数据集中最大的变化,因此可以预期的是,彼此更相似的样本/细胞将与PC1和PC2聚在一起。请参见下面的示例:
有时,也可以使用更高的PC进行此可视化,特别是如果PC1和PC2解释的差异不是很大,并且数据集有几个因素会导致样本之间的差异。
对于我们的scRNA-seq数据,我们将使用10-100个PC评分来比较细胞,而不是比较所有细胞中20,000+个基因的表达,这将突出显示数据集中存在的最大变异来源。除了探索与这些最高PC相关的变异来源外,我们还将使用这些PC根据表达的相似性来聚类我们的细胞。
本课程由哈佛大学生物信息学核心(HBC)的教学团队成员开发。这些是根据知识共享署名许可(CC BY 4.0)的条款分发的开放获取材料,只要原始作者和出处均受到认可,就以在任何介质中不受限制地使用,分发和复制。