今天给各位分享fluidigm的知识,其中也会对Fluidigm C1进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

Seurat4.0系列教程15:映射和注释查询数据集

在此教程中fluidigmfluidigm我们首先构建一个整合fluidigm的参考集,然后演示如何利用此参考集来注释新fluidigm的查询数据集。生成参考集可以 参考该文 中详细流程。生成后,此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是,这不需要校正基础原始查询数据,因此,如果提供高质量的参考集,则可以成为高效的策略。

fluidigm了演示,我们选择了通过四种技术(CelSeq (GSE81076)、 CelSeq2 (GSE85241)、 Fluidigm C1 (GSE86469) 和 SMART-Seq2 (E-MTAB-5061) 产生的人类胰岛细胞数据集。为了方便起见,我们通过 SeuratData 包分发此数据集。元数据包含四个数据集中每个细胞的技术(列)和细胞类型注释(列)。

为了构建参考集,我们将在各个数据集之间识别"锚点"。首先,我们将合并后的对象拆分为一个列表,每个数据集都作为元素。

在找到锚点之前,我们执行标准的预处理,并单独识别每个变异基因。

接下来,我们使用 FindIntegrationAnchors() 识别锚点。在这里,我们将其中三个对象整合到到参考集中(使用第四个对象作为查询数据集来演示映射)。

然后,我们将这些锚点传递到函数 IntegrateData() 中,该函数返回 Seurat 对象。

运行 IntegrateData() 后, Seurat 对象将包含一个新的 Assay ,具有整合表达矩阵。请注意,原始值(未校正值)仍存储在"RNA" Assay ,因此您可以来回切换。

然后,我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里,我们对整合数据进行归一化,运行 PCA,并使用 UMAP 可视化结果。可以看出,整合数据集按细胞类型而不是按技术进行聚类。

Seurat 还支持将参考数据集(或元数据)投影到查询对象上。虽然许多方法都是保守的(这两个程序都是从识别锚点开始),但数据转移和整合之间有两个重要区别:

找到锚点后,我们使用 TransferData() 根据参考数据对查询数据进行注释。 TransferData() 返回带有预测 ID 和预测分数的矩阵,我们可以将其添加到查询数据中。

因为我们有完整的整合分析的原始标签注释,因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中,我们发现细胞类型分类存在高度一致性,超过 96% 的细胞被正确标记。

为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意,即使其中一些细胞类型仅由一个或两个细胞(如 epsilon 细胞)表示,我们仍然能够正确地对它们进行分类。

在 Seurat v4 中,我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型,然后调用 MapQuery() 。

现在,我们可以同时可视化参考组和查询组细胞。

单细胞转录组(Single cell RNA)概述

这几年单细胞实验和分析技术如雨后春笋般涌现,相关文章也层出不穷,各种软文也是铺天盖地。作者呕心沥血整理了一篇关于单细胞的长文,详细介绍单细胞转录组分析的整体分析。本文是第一篇,我们一起来看看单细胞转录组的基本知识。

单细胞转录组就是某一时刻单个细胞内所有mRNA总表达量,其表达量反映该细胞的总体特征。随着2009年汤富酬老师首先开发单细胞转录组技术后,单细胞转录组技术如雨后春笋般涌现出来,比如Smart-seq、CEL-Seq、Quartz-Seq、Drop-seq、InDrop-seq、Smart-seq2等等。单细胞转录组技术的出现使得我们可以把研究的精度从组织多细胞层面精确到单个细胞领域,可以单独研究某个细胞或者某群细胞具体的特征,特别是对于细胞发育、肿瘤微环境、单细胞图谱绘制方面发挥了关键作用。

单细胞转录组的平台有很多,常用的有10xGenomics、BD Rhapsody、Fluidigm C1、Bio-Rad等平台,其中10xGenomics单细胞转录平台由于其成本优势和通量优势,是最常见的一种单细胞解决方案提供商,其在市场上处于绝对优势。10xGenomics单细胞转录组平台能够一次高效地捕获100-80,000细胞(一个芯片),1000个细胞的双细胞率仅为0.9%,是目前最为常用的单细胞捕获平台。

在这里主要也是介绍基于10xGenomics单细胞转录组平台数据进行的后续生信分析以及注意事项。

普通转录组(Bulk RNA)是生物组织样品中在某个时间对应的所有mRNA转录情况,通常作为组织或者样品某个时刻状态的重要指标,不同的样品、不同组织、不同物种、不同的处理都会造成mRNA表达情况的改变,从而调控机体的生命状态或者执行某些细胞功能,相对于蛋白而言,mRNA的稳定性和检测的便利性,大大促进了转录组技术的发展和应用。

“Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and induced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.” ----Method of the Year 2013(Nature Methods )

但是样品或者组织的转录组是所有细胞的一个转录组表达量的平均值,不能反映样品中所有细胞或者某群细胞的状态,因此需要对单个细胞的或者某群细胞的转录状态进行深入的研究,这样将更精细、更准确反映组织的状态。 如果在进行免疫或者药物反应研究的时候,可以更精准地针对细胞或者细胞亚群进行免疫治疗或者靶向治疗,这是精准医疗必要条件。

在思考这个问题之前,我们首先需要考虑的是什么是单细胞转录组?只有了解单细胞转录组本质以后,才能更好了解如何去研究?

10xGenomics单细胞转录组基本流程如下图所示,我们最终得到的是一个表达矩阵,此矩阵一般每行为基因,每列为细胞。其实这个矩阵就是每个细胞所有的基因表达情况。

后续10xGenomics单细胞转录组的分析几乎都是基于上述方式得到的表达矩阵进行分析的,不管是聚类还是发育轨迹构建,其实 单细胞转录组研究的本质就是研究我们捕获细胞的的异质性 ,也就是研究细胞与细胞具体有什么差异,研究样品中有什么类型的细胞,这些细胞有什么差异。

异质性具体如何研究?虽然现在单细胞转录组分析的工具和方案有几百种,就本质来说, 只有两种研究方法:一种是细胞类型的差异;另外一种是发育轨迹的构建。 现在所有的工具都可以归类到此两类。

单细胞转录组表达矩阵的获取

10xGenomics单细胞转录组表达矩阵一般是通过 cellranger 软件获取,cellranger为10xGenomics官方分析软件,一般后续高级分析或者重新分析都是基于此矩阵。

一般cellranger资源消耗如下图所示:

这一篇我们对基本知识进行了介绍,同时讲解了如何获得表达量矩阵。下一篇我们会介绍详细的单细胞转录组亚群分析过程和原理,请大家继续关注。

参考文献

1.Giovanni Iacono, Ramon Massoni-Badosa, Holger Heyn. Single-cell transcriptomics unveils gene regulatory network plasticity[J]. Genome biology, 2019, 20(1).

2.Gioele L M , Ruslan S , Amit Z , et al. RNA velocity of single cells[J]. Nature, 2018.

3.Park J , Shrestha R , Qiu C , et al. Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease[J]. Science, 2018:eaar2131.

4.Zhang X, Lan Y, Xu J, et al. CellMarker: a manually curated resource of cell markers in human and mouse[J]. Nucleic Acids Research, 2019.

5.Aran D, Looney A P, Liu L, et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage[J]. Nature Immunology, 2019, 20(2): 163-172.

6.Aibar S , González-Blas, Carmen Bravo, Moerman T , et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature Methods, 2017.

7.Wouter, Saelens, Robrecht, et al. A comparison of single-cell trajectory inference methods[J]. Nature Biotechnology, 2019.

8.F, Alexander, Wolf, et al. PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.[J]. Genome biology, 2019.

9.Diether L , Els W , Bram B , et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature Medicine, 2018.

10.Zheng C , Zheng L , Yoo J K , et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing[J]. Cell, 2017, 169(7):1342-1356.e16.

Day2-单细胞转录组分析综述

这篇关于单细胞的综述发表于2017年7月的Molecular Aspects of Medicine, Identifying cell populations with scRNASeq 第一作者是Tallulah,通讯是Martin Hemberg

想必都知道全网的英文scRNA教程就是他们实验室的

单细胞转录组在进行单个细胞的表达定量检测是强有力的工具,但是它产出的数据噪音和维度都比较高,相比bulk RNA-seq增加了分析难度。文章就介绍了几种不同的实验流程和最流行的分析方法,可以识别具有重要生物学意义的基因,可以将数据投射到低维,可以对细胞聚类推断亚群,可以解释验证鉴定到的细胞类型和细胞状态。

人体中大约有 个细胞( Bianconi et al., 2013 ),形态与功能都具有多样性。传统的方法是根据形态学而非分子学特征将细胞分成200种( Junqueria et al.,

1992 )。上世纪中叶以来,免疫荧光(immunofluorescence)和流式细胞分选技术( flow cytometry )可以基于细胞表面蛋白标记物存在与否进行更精确地分类( Coons et al., 1941 ; Fulwyler, 1965 ),但是这些技术还仅限于易于分离的组织(如:血细胞谱系),而且只能检测表面少量的标记物。

单细胞测序的发展允许使用整个转录组的数千个细胞去鉴定细胞类型,目前scRNA-seq已经应用在许多发育中的或者固定时间点的组织和器官,包括大脑不同区域的研究 (Darmanis et al., 2015 ; Karlsson and Linnarsson,2017 ; Liu et al., 2016 ; Tasic et al., 2016 ; Zeisel et al., 2015 )、视网膜研究( Baron et al., 2016 ; Jaitin et al., 2014 ; Macosko et al., 2015 ; Zheng et al., 2017 )、胰腺研究( Baron et al., 2016 ; Segerstolpe et al., 2016 ; Wang et al., 2016 )、免疫细胞研究( Jaitin et al., 2014 ; Villani et al.,2017 ) 、早期胚胎发育( Biase et al., 2014 ; Goolam et al., 2016 ; Xue et al., 2013 )、造血( Velten et al.,2017 ; Wilson et al., 2015 )

文章列出了一些方法可以根据scRNA数据识别细胞群 (图1)

【图中不同的颜色表示对第一步得到的表达矩阵进行的不同处理,例如第二个蓝色框"feature selection"是从原始表达矩阵中删除行,方法有HVG、M3Drop、Spike-in;再往下"dimensionality reduction "目的是降维,会计算出一个新的包含meta-features的矩阵,可以想象成把细胞分类,相似的群体汇集到一起有共同的meta元信息,方法如:PCA、tSNE、Diffusion map;接下来是聚类"Clustering",包括计算细胞与细胞之间的聚类,如K-means、DBSCAN;或是" K近邻算法 ",如Louvain、infomap、densityCut、SNN-cliq】

此外,文章还讨论了设计实验时需要考虑的不同方案,因为实验设计的好坏直接影响下游分析结果;讨论了鉴定生物学相关的细胞类群对scRNA数据分析的挑战以及应对的一些统计方法;然后就是非监督式聚类,用来细胞分群;最后讨论了如何去验证分群的细胞是否真的有生物学意义。

scRNA-seq并不是一成不变,需要根据具体实验进行调整。

比如一个常用的操作就是鉴定稀有(数量小于1%)细胞群( Campbell et al. (2017 ; Grün et al., 2015 ; Jiang et al., 2016 ; Segerstolpe et al., 2016 ),意味着需要大量的供试细胞。例如:Campbell作者对小鼠下丘脑的20921个细胞进行测序,结果鉴定了包含少于50个细胞的神经元亚群(占比0.2%) 。

另一个scRNA-seq的应用就是确定相似的细胞类型之间有何差异,这就需要对低表达基因提高检出率,降低技术噪音。例如:分析造血干细胞之间的差异就需要检测低表达丰度的转录因子,反过来就需要敏感度更高的scRNA测序方法( Tsang et al., 2015 )或者靶向检测(如RT-qPCR)( Wilson et al., 2015 )。

一般每个scRNA-seq都包含三个方面:1)单个细胞分离;2)文库制备;3)测序。

1)细胞分离需要先将样品解离,然后分选到PCR板的单独孔中,或者利用单独的液滴(droplets)、微孔(microwells)或微流控(microfluidic)捕获单个细胞;

2)文库制备需要反转录和扩增,可以利用全长转录本或者"3'或5'"标记的一端;

3)测序一般是 多重测序 (目的:单次实验中同时测序大量样本),深度可以从平均25000reads/cell( Macosko et al.,2015 ),到5M reads/cell( Kolodziejczyk et al., 2015 )

对于需要高通量的研究, 基于液滴(droplet)的方法 ,如InDrop( Klein et al., 2015 )、Drop-seq( Macosko et al., 2015 )、10X Chromium( Zheng et al., 2017 )是比较流行的,可以一次制备成千上万细胞,捕获的性价比高,但是大量的细胞测序可能增加总体成本。不过有研究表明,确定细胞类型所需要的最低测序深度可以为25000-50000reads/cell ( Jaitin et al., 2014 ; Pollen et al., 2014 )。虽然droplet的方法通量比较高,但是细胞检测率和mRNA的捕获效率会偏低( Svensson et al., 2017 ; Ziegenhain et al., 2017 )。近年来有一些可以替代droplet的方法出现,包括基于微孔的方法( Fan et al., 2015 ; Gierahn et al., 2017 )和组合索引(combinatorial indexing)的方法( Cao et al., 2017 )。以上这些方法需要再细胞裂解前加上barcodes,因此只支持3'/5'测序。

如果实验中细胞量不大,可以考虑 PCR plate-based的方法 (将少量的细胞分选到含有建库PCR引物的多孔板中),包括Smartseq2( Picelli et al., 2013 )、SCRB-seq( Soumillon et al., 2014 ) 、CEL-seq( Hashimshony et al.,2012 )和MARS-seq (Jaitin et al., 2014 )。细胞一般利用微流控芯片(如:Fluidigm C1,它将细胞捕获和文库构建组合在一起)。以上的方法捕获细胞的性价比比较低,但检出率较高( Svensson et al., 2017 ; Ziegenhain et al.,

2017 )。另外这些方法既支持3'/5'端测序,也支持全长转录本测序。有研究表明,1M reads/样本细胞可以最大化基因检出率(Svensson et al., 2017; Ziegenhain et al., 2017),但为了精确定量isofroms或者找到含量更低的ncRNAs,需要更多的测序( Huang and Sanguinetti,2017 ; Sims et al., 2014)。

scRNA测序方法中一个不可回避的问题就是:"双细胞 doublet",即一个液滴或一个微孔中包含了2个或多个细胞,这种情况必须通过进一步仔细的分析( Segerstolpe et al., 2016 ; Wang et al., 2016 )才能避免被误认成新的中间细胞类型。

对于高通量的捕获方法,需要权衡细胞捕获效率和doublet检出率,一般设定doublet的范围是1-5%(Ziegenhain et al., 2017),微流控Fluidigm平台为1-10%( Fluidigm Corporation, 2017 ) [过去设定阈值竟然高达30%(Macosko et al., 2015)]。对于 plate-based的方法,没有这种明确的的规定。

除了doublet可能导致混合文库(mixed libraries),还有可能是测序文库发生了"泄露",有报道说Illumina的Hiseq 4000中有5-10%的reads会发生( Sinha et al.,2017 ),在HiseqX中没有发现( Owens et al., 2017 )

Doublet只是实验中产生的一种情况,会混淆细胞类群的识别。另一个挑战是批次效应( Hicks et al., 2015 ; Tung et al., 2017 ) 。批次效应是不同时间或不同人员制备的实验重复之间的实验效率或细胞状态不同而产生的。如果对感兴趣的生物学类型(如突变型与野生型)进行不同批次的处理(如:不同日期提取或使用不同PCR板扩增),那么基本不可能从数据分析角度消除批次效应(只能用一些算法比如quantile、SVA包的ComBat ( Stein et al., 2015 ) )、RUVs( Risso et al.,2014 )、linear mixed-modelling ( Tung et al., 2017 )。

想要消除批次效应只能通过仔细的实验设计,将每个生物条件分散到各个实验批次中,做到"一视同仁",例如:采用"balanced"方法( Hicks et al.,2015 )让每个批次包含不同生物处理的细胞,每个生物处理在不同的批次中都存在。

单细胞转录组一般会搭配unique molecular identifiers (UMIs) 或已知浓度的外源RNA分子(spike-ins) 来解决高技术噪音问题。

UMI是反转录过程中添加到每个cDNA的5'或3'端,长度为4-10bp的barcodes(Islam et al., 2014)。它的作用是将reads分配给每个反转录事件,区分哪些reads是来自于同一个原始的cDNA分子,然后估算原始分子数量(Islam et al., 2014; Kivioja et al., 2011)。因为它和转录本的一端结合后进行5'/3'测序,因此会存在丢失isoform信息、捕获的遗传变异较少等问题,评价等位基因表达会比较难。5'/3'测序的主要优势就是借助UMI,消除基因长度差异,消除了扩增的偏差,相比之下,全长转录本测序虽然捕获了转录本整体,但存在3'/5' bias。

标准的spike-ins是ERCC组织指定的一段细菌序列(Baker et al., 2005; Jiang et al.,

2011),它们在转录长度、核苷酸含量、poly-A尾的长度和内含子缺失方面都和哺乳动物不同(因为目前单细胞主要应用于人和小鼠)。存在的问题是:ERCC spike- ins的捕获效率低于内源性mRNA (Svensson et al., 2017);具有较高的技术变异性,有时会比内源基因的含量还多(Robinson and Oshlack, 2010; SEQC/MAQC-III Consortium, 2014);spike-in的计数受到生物条件的影响,因此有时会失去作为control的优势。新开发的spike-ins是来自人类的序列,可能更能代表哺乳动物转录本,从而减轻一些旧spike-in的影响( Paul et al., 2016 )。如果使用了spike-ins,比对前应该将spike-in序列和参考基因组序列合并作为共同”参考基因组”。

Plate-based方法既可以用UMI也可以用spike-ins,而基于液滴和基于微孔的方法是能用UMI ( Gierahn et al., 2017 ; Macosko et al., 2015);微流控的仪器不确定是否可以与UMI或者spike-ins兼容,取决于仪器的设计。

多重测序也是产生技术噪音的一个原因,因为它会导致不同细胞之间的reads数不在一个层次。使用标准化可以纠正不同细胞之间的测序深度影响( Vallejos et al.,2017 )。可以利用CPM/TPM(counts/transcripts per million)进行校正。目前开发的方法,如Scran( Lun et al., 2016 )分析含有许多差异基因的数据集比较有优势,SCnorm( Bacher et al., 2017 )可以解释测序深度对基因不同表达水平的影响。如果数据集中包含有spike-ins,它们可能就被用于标准化,在鉴定差异基因中具有高鲁棒性,并且可以保留由于总RNA含量不同而产生的差异(Buettner et al., 2015; Grün et al., 2014; Owens et al., 2016; Risso et al., 2014; Vallejos et al., 2015)。

虽然scRNA-seq结果汇总包括所有基因的信息,也非常有用,但是我们同时分析数千个基因在计算上困难很大。数据集中测量的总基因数称作"维数(dimensionality)",对于哺乳动物通常有1万个维度左右。当在一个高维基因表达空间中比较细胞时,细胞间的距离变得更加均匀,使得区分群体间或者群体内的差异就非常难。

解决这个诅咒有两种方法:

首先,将数据投射到一个较低的二维空间(称作"降维"),低维空间一般由算法定义,既降低维度,又最大化保留原始数据的某些特征。因为投影过程不可避免会丢失基因信息,所以投影方法的选择涉及到一组特定属性的优先级排序。

其次,可以取出信息量少的基因(在机器学习中称为"特征选择"),同样也是减少分析中用到的维度数量。这样不仅利于可视化,还可以降低噪音、加快计算。下面是一些无监督降维的方法和特征选择。

它将数据投射到较少的独立的线性维度中,从而捕捉到可能的最大方差。PCA相对较快,当与稀疏的矩阵(比如单细胞的表达矩阵中就包括了许多的0)一起使用时,它可以扩展到非常大的数据集。缺点是PCA限于线性维数,并且假设数据接近正态分布。针对单细胞数据的大量0值,PCA的变体 zero-inflation算法被开发出来( Pierson and Yau, 2015 ) ,但是这个模型可能不适用于所有的数据集( Andrews and Hemberg, 2016 )。2017年又有人开发了一个类似PCA的方法,它是基于零膨胀负二项分布模型(zero-inflated negative binomial model )取代了高斯模型[Risso et al. (2017)](http://

dx.doi.org/10.1101/125112)。

它也是一种用于大型高维数据可视化的统计方法( Maaten et al., 2008 )。它使用概率分布来估计嵌入的情况,tSNE将数据投射到各个孤立的簇中,实现细胞群的可视化。tSNE的缺点就是算法的随机性,即使应用于同一个数据集,也会产生不同的嵌入结果,不过这种差异比较小并且不显著。因此最佳的操作就是多次运行该算法,确保结果的完整性。另外,tSNE对"perplexity"参数的选择很敏感,需要多次运行才能找到合适的perplexity。该方法的作者建议仅用tSNE作为可视化方法,而不是降维的方法。

DM是一种非线性的投影方法,主要用于分析细胞的连续发展( Moon et al., 2017 ; Angerer et al., 2016 ; Haghverdi et al., 2016 )。它是基于扩散过程的模型,将高维数据嵌入低维空间。它假设低维空间是平滑的,并且空间可以从细胞之间的距离推断得到。与tSNE不同,DM保留了点自身位置和与远端点位置的关系。因为它假设细胞是相对平滑的连续体,因此在大量的scRNA或RT-qPCR实验中表现良好(细胞数 1000),对于细胞数量较少或存在异质性很高的细胞群时效果不好( Qiu et al., 2017 )。

M3Drop利用dropout rate(丢失率:本来有表达量却没有测到)与平均表达量之间相对紧密的关系进行特征选择。高丢失率的基因可能在细胞亚群中出现差异表达,因此从拟合关系中识别离群点是一种有效地特征选择方法。该方法改进了聚类算法,允许批量校正结果( Andrews and Hemberg, 2016 )。

它基于这种假设:基因相当于平均表达值而言,出现的较大的差异是由于生物学影响,而不仅仅是技术噪音。这种方法试图通过权衡方差与平均表达量之间的关系来找到比预期差异性更高的基因。这种关系很难拟合,实际中基因是按照与移动中位数(moving median)的距离进行排序的( Kolodziejczyk et al., 2015 ),或者使用另一种源自方差的统计量,比如:方差的平方系数( Brennecke et al. 2013 )

它使用与HVG或M3Drop类似的算法确定感兴趣的特征。利用来自spike-in RNAs的数据进行技术噪音建模,以确定基因表现出的丢失率或显著升高的方差。基于spike-in的方法包括:BASiCS( Vallejos et al., 2015 ) 、scLVM( Buettner et al., 2015 )。

相关表达法是另一种识别生物学相关基因的方法,可以专门用于识别细胞群(Andrews and Hemberg, 2016)。两种细胞类型之间的差异表达基因之间是相互关联的。如果他们在同一种细胞类型都表达,那么相关系数就为正;如果在不同细胞类型中同时表达,那么相关系数为负。特征选择利用的就是相关性的大小或显著性。另一种方法如PAGODA( Fan et al., 2016 )结合了HVG和PCA的加载信息,可以鉴别高度相关或者有共同功能注释的基因集

单细胞比较常用的用途是识别细胞群。从生物学角度看,细胞是有异质性的,一个细胞群通常包含不同的细胞亚群,例如大脑样本汇总的神经元和胶质细胞;另外还可以看同种细胞类型的不同状态,例如受刺激和为受刺激的T细胞。从数学角度看,对细胞群的从头识别是一个非监督聚类的问题。目前已经有几种成熟的方案应用到了单细胞中。

将大量细胞分成k个群的可能性多到不可想象,因此我们不能考虑所有的可能分群情况,而是应该寻求最优解。聚类的质量取决于群内与群间的相似性比较,不同的指标对数据的基础分部做不同的假设。比如:"modularity"假设一个稀疏的图形结构,而计算k-means使用的数据到簇质心的距离就是假设数据中的圆形簇大致相同。将一种方法应用到和算法本身假设不同的数据上将导致错误的聚类,并且没有一种聚类方法具有普适性( Wiwie et al., 2015 )。

K-means是一种单细胞分析常用的聚类算法,一般在特征选择和降维后使用。它的计算比较快,将细胞迭代分配给最近的簇中心(或叫"质心centroid"),然后重新计算簇的质心。然而,K-means需要预先指定簇的数量,并为每个簇提供随机的起始位置,需要多次运行来检查这些参数的鲁棒性,这些结果可以再传递给SC3进行组合( Kiselev et al., 2017 )。K-means的一个缺点是:它先假设一个预先确定的等大小的圆簇数目,如果不符合假设,那么k-means就会沿着分化轨迹识别许多相邻的簇,将罕见的细胞与常见的细胞类型合并。当然,对于罕见的细胞群,可以结合k-means检测离群点(outlier)的方法,如RaceID( Grün et al., 2015 ),当不包含罕见细胞群时,RaceID表现较差。

层次聚类是另一种常用的识别细胞群体常用方法。不同的层次聚类有不同的假设,比较常用的是"Ward"和"complete",假设存在圆的和k-means大小一致的簇,不过层次聚类 比k-means要慢 。层次聚类的优点是可以做成树状图,因此可以确定不同 粒度 的聚类之间关系,然后在不同的高度"切割"树状图,可以生成不同数量的群体。对单细胞数据进行层次聚类的方法包括:pcaReduce( Zurauskiene_ and Yau, 2016 ),SINCERA( Guo et al., 2015 ),CIDR( Lin et al., 2017 ) 。有研究将层次聚类拓展到了大脑神经元细胞类型( Zeisel et al., 2015 )和胰腺中胰岛细胞类型分析( Baron et al., 2016 ),这类方法倾向于识别同种类型细胞群。

基于密度的聚类方法将聚类定义为细胞密度较高的相邻区域。与层次聚类或者k-means聚类不同,它不假设簇有特定的性状或大小,而是通常假设所有簇是一样密集的,比如细胞群是同样均匀的。另外,密度必须用一个或多个参数来定义。设置密度的参数类似于k-means选择簇的数量,或者像层次聚类中选择树的切割位置。基于密度的聚类需要 大量的样本 来准确估计,因此更适用于droplet实验的数据、大型RT-qPCR实验或几千上万的细胞( Campbell et al., 2017 ; Jiang et al., 2016 ; Macosko et al., 2015)。主要方法是:DBSCAN( Ester et al., 1996 ),它结合了Seurat包中的降维算法和GiniClust中的罕见细胞型特征选择算法。

图聚类,又叫"群体检测",是基于密度聚类的一个拓展,专门用于以图形展示的数据,比如一组细胞用"边edges"相互连接。图可以轻松使用极小诊断假设(minimal assumptions) 表示复杂的非线性结构,因此可以识别不同大小、密度、形状的细胞群( Lancichinetti and Fortunato, 2009 )。另一个优势是可以拓展到数百万个细胞的聚类。

图中的密度可以根据连接一组细胞"edges"的数量测量,然后与零假设比较,例如:完全随机图或由一定程度控制的随机图中使用一个叫做"模量modularity"的度量。最常用的方法是:Louvain算法(Blondel et al., 2008; Lancichinetti and Fortunato, 2009),在PhenoGraph (Levine et al., 2015) 和Seurat(V 1.4)中也使用。另外,密度可以通过图中的随机漫步" random walks"建模,并使用在每个细胞上建模消耗的时间来估计,这也是densityCut ( Ding et al., 2016 )的策略。另外一种估算密度的方法是使用每个细胞的k个最临近neibour之间的重叠,这在SNN-Cliq ( Xu and Su, 2015 )被应用。主要的缺点就是:数据没有固定的图形结构。

聚类方法的一个关键选择因素就是要识别多少组,粗略聚类可以识别出少数非常不同的聚类,这些聚类与细胞类型可能相对应;而精细聚类可以识别大量但不明显的聚类,这些聚类可能对应不同细胞状态

大多的聚类算法需要我们预先定义个数(如k值)或者与聚类粗细相关的参数(如密度参数),而选择合适的K值是比较麻烦的,因为没有一套标准的选择方法。

有许多样本,存在细胞类型和细胞状态的层次结构,可能都有研究价值。比如 2015年Zeisel 对大脑样本细胞进行聚类,粗略聚类发现9中细胞类型(从神经胶质等许多非神经元细胞类型中分离出神经元),然后进行精细聚类发现神经元又分成了7个皮层特异性组

许多的聚类工具可以在 ASAP 中找到,它是一个web工具( Gardeux et al., 2016 )

聚类容易解释难(相对来说)。首先,聚类算法有一种"启发式"效应,即使使用均匀分布的数据,他也能找到一些不同进行划分;另外,即使cluster有生物学效应而非噪音,它们依然可能没有细胞类型的差异。目前没有一个公认的标准去判断一个分析的细胞群真的是一类新型细胞。还有,利用转录差异来定义细胞类型比较困难(Buettner et al., 2015),因为细胞状态(如细胞周期)的瞬时差异相比于细胞类型对转录组的影响更大。

为了避免多数聚类算法"启发式”的影响,为了评价细胞的重要程度,算法必须重新重复运行一个空模型,将结果与观察的结果比较。这个空模型数据集可以从观测数据中按一定的概率分布提取,也可以通过对每个基因的观测表达值进行独立的随机重排序得到。

为了确保得到一个质量比较好的聚类结果,可以对同一个数据集应用多个算法,并确保结果一致性,保证同一个数据不依赖于任何聚类方法自身的假设。此外,随机聚类方法如:k-means或Louvain maximum modularity,多次运行得到一致结果,比单独运行一次得到的结果更有说服力 (Goder and Filkov, 2008; Kiselev et al.,2017)。显著区分的cluster在不同的聚类算法结果中都是一样可以分开的,当然,如果clusters之间基本不分离,那么不同的算法结果差异也就比较大。

计算的方法主要是提高结果的可靠性,但真正要证明鉴定的细胞群是有生物学意义(如细胞类型和细胞状态是不是与特定的功能特征相关),目前没有自动化的程序可以全部完成。

第一步通常是找差异表达基因,也就是能可靠区分两个或多个cluster的基因(又叫" marker"基因 ),例如只有一个cluster高表达的基因就是marker。这里就需要利用功能注释、富集分析。得到的marker基因可以利用实验进行验证,例如:共表达的marker可以利用RT-qPCR、高通量测序或者细胞仪进行重复(Burns

et al., 2015; Jaitin et al., 2014; Muraro et al., 2016; Tasic et al.,2016)。Marker基因可以用于分离细胞群进行培养和功能测定。Marker基因也可以用于小细胞群的原位成像,Burns等(2015)利用免疫荧光技术展示了不同细胞类型在内耳中的空间定位,免疫荧光也可用于确认细胞类型标记物的共表达或互斥表达(Tirosh et al., 2016)。细胞类型的特异性标记可以使用FISH作为靶点,除了确定细胞类型在组织中的空间分布外,还可以验证它们的共同表达。Joost 采用免疫组织化学和单分子RNA-FISH方法,识别毛囊内不同假定细胞类型的空间位置,并分析了空间与分化相关的表达模式( Joost et al., 2016 )。

验证cluster的另一种方法是比较不同物种的cluster(例如人和小鼠),从而确定cluster是否广泛保守,从而推断是否为真正的细胞类型。 Johnson等人(2015) 对人类、小鼠和雪貂的放射状胶质祖细胞种群进行了比较,结果发现了两种新的亚群,分别存在于人类和雪貂中,但在小鼠中却没有,通过对各自标记基因的比较基因组学发现,它们与哺乳动物的脑回畸形有关。

研究与特定细胞群相关的关键转录因子水平(增加或减少)可以辅助验证细胞群。 Olsson等人(2016) 敲除了与不同的造血祖细胞有关Gfi1和Irf8,结果产生了不同的细胞类型,Gfi1的粒细胞祖细胞和Irf8的单细胞祖细胞。

确定新的或已知的细胞群可能仍然是未来scRNASeq实验的一个关键目标。然而,由于细胞数量和灵敏度之间的权衡,可能永远不会有仅有一个最优的scRNASeq实验平台。同样,对于降维、特征选择和无监督聚类,没有一种比较方法在所有情况下都是最优的。得到细胞分群以后,虽然利用现有的方法可以很容易地识别出新的细胞群,但这些发现必须通过外部数据或实验来验证,以确保它们具有生物学意义。

深度好文 | 单细胞RNA测序技术简介

文献解读

Potter, S. S. (2018).Single-cell RNA sequencing for the study of development, physiology anddisease. Nature Reviews Nephrology , 14 (8), 479.

        人体细胞中包含大约2万个基因,每个细胞存在自身特异的基因表达模式,仅对部分基因进行表达,导致了细胞特异性的蛋白质成分和生物功能。近来单细胞测序技术的兴起,使得我们能够在单个细胞水平上研究基因的表达模式,从而能够对细胞间的异质性问题进行更精准的研究。

        这篇综述出自美国俄亥俄州辛辛那提儿童医疗中心发育生物学系的Steven Potter研究员,文章主要围绕单细胞测序技术展开,包括现行单细胞测序技术的基本流程、存在问题与难点、数据处理过程,及其在生物医学领域的一些应用等。

        单细胞测序技术主要包括以下流程:组织解离得到单细胞悬液,细胞裂解,RNA逆转录成cDNA,PCR扩增,高通量测序,数据分析等。

        具体到操作层面上,单细胞解离主要包括三种方法:(i)人工显微操作,需要借助于显微镜和微量吸管等设备,同时人工成本较高;(ii)激光捕获显微切割(Laser capture microdissection,LCM)技术,使用激光束从冷冻组织中切割分离单个细胞;(iii)荧光激活细胞分选(fluorescence-activated cell sorting,FACS),通过荧光标记将细胞群分开。FACS的方法通量较高,是目前的主流方法。细胞解离过程主要存在两个难点:(i)如何避免外在刺激对细胞转录产生影响。细胞内部存在早期反应基因(Early response genes)能够对外界刺激做出快速反应,因此解离过程中可能会发生细胞转录的变化。这个问题可以通过加入转录抑制因子,采用嗜冷性蛋白酶在冷冻条件下解离,或是仅对核RNA进行测序分析等方法进行克服;(ii)组织中可能存在一些细胞极难解离,或是十分脆弱容易破碎等,这个问题目前仍没有很好的解决方法。

        解离之后的单细胞处理,包括建库和扩增,主要采用的是基于微流控(Microfluidics)技术的方法。在微流控芯片中进行细胞裂解、反转录和cDNA的扩增,之后进行测序。代表性方法是Fluidigm C1测序平台,这样的方法精度较高,成本也较高。另一种是基于微液珠(Microdroplet)的方法,将分离的单细胞与微液珠结合形成油包结构,在油包结构中进行反转录和扩增,之后进行测序。代表性方法如10X Genomics测序平台。这种方法测序通量较高,当前的测序成本大约为1美元/细胞。

        单细胞测序的数据分析主要包括以下三步:(i)计算基因表达矩阵。根据测序reads上的barcode和UMI标签将reads比对到特定细胞的特定基因上并计数,以获得每个细胞中不同基因的表达量;(ii)质控。去除基因表达量很少和线粒体DNA含量较高的细胞;(iii)数据降维和聚类。通过主成分分析(Principal components analysis)及其他一些方法对基因表达数据进行降维,然后通过迭代性聚类分析对细胞进行分型。

        单细胞测序数据中的偏差主要来自于三个方面:(i)基因表达伴有随机性。许多基因的转录并不是一个稳定的过程,而是伴有很强的随机性,其mRNA的含量也是在不断变化的;(ii)单细胞mRNA含量较低。尤其对于一些转录水平更低的基因来说,mRNA检测十分困难;(iii)反转录和扩增过程的效率较低。

        单细胞测序技术的应用主要体现在三个方面:(i)细胞分化研究。借助单细胞测序以阐明同一亲本细胞如何分化产生不同类型的子代细胞;(ii)癌症发生发展研究。对肿瘤组织进行单细胞测序以对肿瘤微环境进行更加精准的刻画;(iii)其他疾病研究。对正常组织和疾病组织进行单细胞测序,以研究致病通路、鉴定新的疾病标志物以及可能的治疗靶标等。

单细胞测序这样的高通量技术的优势具体体现在哪里?

单细胞全基因组测序主要应用于肿瘤发生机制及胚胎发育研究。单细胞转录组分析可以在全基因组范围内挖掘基因调节网络,尤其适用于存在高度异质性的干细胞及胚胎发育早期的细胞群体。

2017年6月16日,北京大学生命科学学院生物动态光学成像中心汤富酬课题组在《Cell Research》杂志在线发表fluidigm了题为“Single-cell multi-omics sequencing of mouse early embryos and embryonic stem cells”的研究论文。在国际上率先发展fluidigm了对一个单细胞同时进行染色质状态、DNA甲基化、基因组拷贝数变异、以及染色体倍性的全基因组测序技术(single-cell COOL-seq),并采用这一技术在单细胞分辨率上系统、深入地解析了小鼠着床前胚胎发育过程中表观基因组重编程的关键特征,以及染色质状态与DNA甲基化之间的互动关系。  

现有的基于高通量测序来分析全基因组染色质状态的研究方法通常需要大量细胞(例如ATAC-seq、DNase-seq、FAIRE-seq、MNase-seq等)。即使这些方法可以做到单细胞分辨率,也无法在单细胞分辨率上对多种组学之间的互动关系进行研究。而汤富酬课题组将NOMe-seq(全基因组核小体定位及DNA甲基化组测序)技术和PBAT-seq技术(全基因组重亚硫酸盐测序)巧妙地结合起来,并进行了系统的优化和提高,实现了对同一个单细胞进行多达5个层面的基因组和表观基因组特征的分析。  该课题组利用这一新建立的scCOOL-seq方法,在单细胞分辨率系统地描绘了小鼠着床前胚胎发育过程中表观基因组多个层面的动态变化。该项研究发现fluidigm:  

受精后12小时以内,来自高度特化的卵细胞和精子的雌雄原核就经历了大规模的基因组去甲基化。在此过程中,父母源基因组的染色体状态迅速打开,在受精卵的原核期就已经达到高度开放的状态,随后在受精卵晚期染色质开放程度大幅度回落,并在2-细胞阶段之后开放程度再次逐步增加,到囊胚期时达到最高点。  

首次在单细胞分辨率系统分析了小鼠着床前胚胎发育过程中染色质状态的异质性。该研究发现在受精后12个小时以内受精卵中大部分基因的启动子区域就由均匀关闭状态迅速重编程为均匀开放状态,为合子基因在随后的转录做好准备。  

首次在单细胞分辨率证明持续转录对于维持早期胚胎中大部分基因的启动子处于开放状态是必需的,染色质状态开放和转录活动互相促进,共同维持合子基因的稳定表达。  

研究发现多能性核心因子Oct4的靶基因结合位点在4-细胞阶段就处于开放状态,远早于真正建立多能性的囊胚期,暗示这些位点作为潜在的顺式调控元件可能参与了早期胚胎细胞的命运决定过程。  

首次在单个细胞内对父母源基因组的染色质状态以及DNA甲基化进行了深入分析。研究发现,受精后染色质状态和DNA甲基化进行了不同步的重编程过程,父母源基因组的染色质状态快速重编程、在每个单细胞中迅速达到精确平衡并一直维持。而DNA甲基化的重编程要慢一些并在父母源基因组之间维持不对称分布。  

首次在单细胞分辨率解析了雌性胚胎细胞中父母源X染色体的DNA甲基化和染色质状态重编程过程的异同。研究发现受精后,在雌性胚胎中失活的父源X染色体其DNA甲基化重编程速度要明显慢于活跃的母源X染色体,二者之间DNA甲基化的差异一直到囊胚晚期才逐渐消除fluidigm;而雌性胚胎中父母源X染色体同步进行快速的染色质状态重编程,并在整个植入前时期维持这一父母源X染色体之间染色质状态的精确平衡。  

首次在单细胞分辨率揭示了小鼠植入前胚胎发育过程中表观基因组的异质性。受精后,启动子区域DNA甲基化异质性强烈的基因和染色质状态异质性强烈的基因分别是两类不同的基因。这暗示在小鼠着床前胚胎发育的过程中,染色质状态异质性和DNA甲基化异质性可能分别受不同机制的调控。  

首次在单细胞分辨率将细胞周期与染色质状态联系了起来,准确推断出每个单细胞的倍性和细胞周期阶段,并发现小鼠着床前胚胎在体内发育过程中和胚胎干细胞使用了基本相同的一组DNA复制起始位点。  

该研究系统地描绘了高度特化的配子在受精后重编程到具有发育全能性的受精卵、以及进一步发育成多能性胚胎的过程中,DNA甲基化和染色质状态发生的精准、有序的变化,各个组学层面之间的互动关系,以及父母源基因组在着床前胚胎发育中DNA甲基化和染色质状态的重编程过程。该工作为今后人们继续研究哺乳动物早期胚胎细胞全能性和多能性的开启奠定了基础,同时为体细胞克隆效率的提高以及早期胚胎发育异常的诊断与治疗提供了新思路。  北京大学生命科学学院BIOPIC中心的博士后郭帆博士、博士生李琳、李静云为该论文的并列第一作者;北京大学生命科学学院汤富酬研究员和四川大学郭帆研究员为这篇文章的共同通讯作者。该研究工作由北京大学和四川大学共同合作完成,并且得到了国家自然科学基金委员会、北京未来基因诊断高精尖创新中心,以及北大-清华联合中心的资助。

单细胞分析方法

在过去的10年里,发展fluidigm了多种单细胞方法,不同的方法影响了细胞的捕获和扩增,以及每个细胞的read深度等[2]。每种方法都有各自的优缺点,但一般说来,迄今为止发展起来的所有scrna-seq技术都共享一个共同的工作流程:样品制备、单细胞捕获、反转录和扩增、文库制备、测序和分析[3]。

1、样本制备(分离细胞)

单细胞RNA测序的一般实验工作流程始于将感兴趣的器官或组织解离。充分的样本准备是产生良好的单细胞转录组数据的先决条件。样品制备过程中的一个关键步骤,特别是对于致密组织,是单细胞解离,这通常是在温和的机械搅拌(在某些情况下通过组织灌注)下通过酶促实现的,以限制过多的细胞溶解和背景噪音[4]。蛋白水解酶(如胰蛋白酶、胶原酶或解放酶)的选择和消化时间也应仔细优化,以最大限度地提高单细胞产量,同时将细胞死亡降至最低。

2、分离单个细胞

早期的单细胞捕获方法包括显微移液法、显微操作法和激光捕获显微切割法[26-27]。与目前常用的几种方法相比,这些方法通量低,技术上具有挑战性,需要费时费力,但在需要分析的细胞数量较少(如稀有细胞)时仍可使用。

荧光激活细胞分选(FACS)是一种特殊类型的流式细胞术,它提供了一种方法,根据细胞大小和荧光,一次一个细胞地分选不同种类的细胞,与早期的方法相比,它具有更高的通量和更快的速度[29]。流式细胞仪的潜在限制包括需要特定的抗体,以及这些抗体可能干扰下游分析,但也包括所需的大量输入材料(微升甚至毫升),这阻碍了从极少量样本中分离细胞或分离稀有细胞[29]。

微流控设备的出现使其作为分离细胞的首选技术,因为它们相对于FACS和其他以前使用的方法需要较小体积的试剂。在微流控器件中,流体动力通量允许在几十微米到几百微米的通道中隔离和处理单胞,因此可以与单胞的大小相媲美。此外,微流控设备还可以使一些下游RNA处理反应自动进行测序,并允许测量和控制细胞外试剂浓度[30]。还有另外几种分离技术和平台,具体可看综述[31]。

2、mRNAs捕获

当细胞完全分离时,必须捕获成熟的mRNAs,将其反转录成cDNA并进行扩增。细胞捕获的方法通常由感兴趣样本的属性(如细胞大小)决定。目前的scRNA-seq技术可以根据单细胞分离和捕获的方法进行分类,不同的方法决定了不同的产量、规模、测序深度。细胞捕获的效率取决于所使用的protocol。许多设备使用特定的barcode,它允许同时捕获多个细胞和mRNA,这一过程被称为“‘multiplexing”。例如inDrop和Drop-Seq方法都在液滴中包括了barcode的cDNA制备。

3、逆转录和PCR扩增

通常,使用寡聚脱氧核糖核酸引物进行mRNA的RT。这样做是为了避免捕获其他结构RNA,如核糖体RNA和转运RNA,它们占细胞RNA的大部分。然而寡聚脱氧核糖核酸引物的使用存在捕获效率低的问题,据报道,对于目前的protocols,捕获效率约为10-15% [28]。

4、文库制备

当单细胞被成功捕获后,它们被裂解和加工,通过反转录产生第一链cDNA,然后进行第二链合成和PCR扩增。一些scRNA-seq方法(如Fluidigm C1 system)所需的PCR扩增反应与分析的细胞数量一样多,但是其它技术(诸如基于液滴的方法)允许使用细胞barcoding技术(如10xGenomics Chromium)的混合PCR,降低了成本并提高了产量[5]。

4、测序

5、mapping

执行下一代测序以产生原始数据,当单细胞捕获、文库准备和测序完成后,可以将原始数据进行read比对。最初为bulk RNA-seq开发的mapping工具也适用于scRNA-SEQ数据。有多重mapping工具可以用来比对RNA-seq数据,目前流行的比对工具如TopHat2、STAR和HISat在速度和准确性方面表现良好,它们可以有效地将数十亿read比对到参考基因组或转录组上。其中STAR是一种基于后缀数组(suffix-array based)的方法,比TopHat2更快,但它所需内存较大[22]。 HISAT是基于BWT和Ferragina-Manzini (FM)方法发展起来的。Kim等人的研究表明,HISat是目前最快的工具,并可以达到与其他可用的校准器( aligners)相等或更高的精度[23]。

可以使用通用的RNA-seq read比对软件STAR生成具有公共可用平台(如10x基因组公司的Cell Ranger)的特征条形码( feature-barcode)矩阵。也可以使用Cell Ranger来过滤和计数barcode以及UMI。cellranger、dropEst、Dr.seq2 、scPipe都可以用于生成表达矩阵。

6、转录本定量

不同处理步骤带来的高技术可变性阻碍了准确量化转录本丰度的能力。目前,这些问题的可能解决方案是增加定量标准,如添加Spike-in或唯一分子标识符(UMIS)。

Spike-ins 是一段已知序列和数量的RNA转录本,在细胞裂解液中按一定的量加入,用于校准rna杂交分析的测量在细胞分离后经过所有的实验步骤。使用这些分子的目的是提供关于分子的输入数量和观察到的测序读数数量之间的关系的信息。最受欢迎的一组插入是ERCC的92个单一异构体合成RNA[32]。使用Spike-ins 的一个复杂之处在于,它们通常以较高的相对浓度添加到单细胞样本中,因此,它们占据了相对较大的reads比例。因此,并不是所有的protocols都能适应它们的使用,例如基于液滴的技术 。

在scRNA-seq中使用的另一种类型的定量标准是UMI。它们是长度为4到12个核苷酸的核苷酸序列,它们在逆转录之前被合并到引物中,以唯一地对每个转录本的每个单独mRNA拷贝的5‘或3’端进行barcode。同一种mRNA连上同样的UMI概率几乎为0,则fluidigm我们可以忽略由于PCR造成的误差,对于一种mRNA,测到的UMI数量可以近似看成mRNA的表达个数。其基本思想是能够根据不同UMI的数量对每个转录本进行量化,从而避免由于PCR扩增而产生的偏差。为了避免低估高表达基因的原始转录本数量,必须选择UMIS的长度n,以便唯一barcode的数量高于在最高水平表达的转录本的数量[28]。基于UMI的协议消除了与扩增和测序深度相关的偏差,因为与同一UMI相关联的、来自同一转录拷贝的多个读数被折叠成唯一的计数。然而,只有当所有的文库都以足够的深度进行测序,以便每个唯一标记的分子至少被观察到一次时,这才是正确的。如果不是,一些UMI标记的cDNA分子可能会丢失[33]。

由于固有的协议差异,Spike-ins和UMIS并不适用于所有的scRNA-seq技术。Spike-ins用于Smart-seq2和Super-seq等方法,但与基于液滴的方法不兼容,而UMIS通常应用于3'端测序技术(如Drop-Seq、InDrop和Mars-Seq)。因此,用户可以根据技术特性和优点、要测序的细胞数量和成本考虑来选择合适的scRNA-seq方法。

对于基因/转录本表达的定量,需要根据scRNA-seq捕获的转录本序列的范围,采用不同的方法。

对于全转录scRNA-seq方法(如Smart-seq2和MATQ-seq)生成的数据可以用为bulk RNA-seq开发的软件进行分析,以定量基因/转录本的表达。

①目前比较流行的基因组组装工具,包括Cufflinks、RSEM、Stringtie等已被广泛用于许多scRNA-seq研究,以获得相对基因/转录本的表达估计。其中Pertea等人[24]指出,StringTie在基因/转录本重建和表达定量方面优于其他工具。

对于3'端scRNA-seq协议(例如CELseq2、MARS-seq、Drop-Seq和InDrop),需要特定的算法来基于UMIS计算基因/转录本的表达。

①SAVER是一种基于UMI的有效工具,用于精确估计单细胞的基因表达[25]。

为了确保高质量的scRNA-seq数据,在细胞捕获之前适当地将组织解聚成单个细胞是至关重要的。单细胞制备的主要挑战包括起始样品的脆性、物理应力、缓冲液的选择、细胞解离的持续时间和单细胞的产量[18]。对于基于微滴的scRNA-seq,在单细胞捕获之前需要制备活的单细胞群体,并且必须清除细胞聚集体或成团、死亡细胞碎片和自由漂浮的mRNA。传统的细胞分离方法对于单细胞制备就足够了,但是必须优化将原生组织(primary tissue)酶解为单个活细胞的效率,以避免失去比较脆弱或容易死亡的细胞群体。细胞外基质的组成和组织的类型可能会影响消化酶的选择以及消化的温度和持续时间,还应根据原始组织来选择和优化酶解方法[15]。

建议解离后立即用钙黄绿素乙氧甲基等染料标记活细胞,然后用流式细胞仪(FACS)对活细胞进行阳性选择,而一些核酸结合染料,如碘化丙啶等,能与自由漂浮的双链核酸结合,通过流式细胞仪负选择来分离活细胞[4]。在单细胞制备过程中使用商用细胞碎片清除解决方案有助于提高样品清洁度和目标细胞计数的准确性,特别是对于存活率低于70%的细胞制剂[4]。

1、基于液滴(droplet)的方法: 基于液滴的方法使用了DNA条形码技术对包裹在油滴中的单个细胞进行分析,大大减少了每次分析所需的时间和成本。大规模分析使得每个样本可分析多达约10,000个细胞[11]。使得其具有高通量,捕获效率高的特点。并可以提供更大的细胞通量和更低的细胞测序成本。因此,基于液滴的方案适用于产生大量细胞来识别复杂组织或肿瘤样本的细胞亚群。

其中10x Genomics能够实现单细胞的3‘端或5’端测序,与平板或微流控方法相比,具有更高的规模和产量。每个细胞的read深度在10000到100000之间[13]。基于液滴的方法通过3‘端或5’端测序来量化转录本,与现有的其他方法(10-20%)相比,转录本回收率(3-10%)降低了[12]。

细胞检测率和mRNA的捕获效率偏低。在灵敏度和read深度方面表现也有所欠佳,但其灵敏度仍然足以用于复杂异质样品的大规模分析,并有望随着方法的不断优化和成本的降低而提高。

2、plate-based或microwell-based的方法: 如果实验中细胞量不大,可以考虑plate-based的方法,将细胞分选到含有建库PCR引物的多孔板中,捕获细胞的性价比比较低,但检出率较高[1],另外这些方法既支持3'/5'端测序,也支持全长转录本测序。基于平板或基于微孔板的方案使用自动微吸管或荧光激活细胞分选(FACS)将单个细胞分离到包含裂解缓冲液和其他处理试剂的96孔板或384孔板中。这种方法的一个主要优点是可以在分析前长期保存细胞样本,这为实验计划和协调提供了灵活性。plate-based或microwell-based的方法通常具有很高的灵敏度,并且可以可靠地量化每个细胞多达10,000个基因。然而,这种方法的一个缺点是必须在单独的well中进行逆转录,这可能会减慢工作流程,限制产出,并增加下游分析中的噪音[4]。

3、Microfluidic-based的方法: 基于微流控的自动化平台,在微流控器件中,流体动力通量(hydrodynamic flux)允许在几十微米到几百微米的通道中隔离和处理单个细胞,其通道大小可以与单个细胞的大小相媲美。这种方法的一个关键特点是可以在反转录和扩增之前在显微镜下查看捕获的细胞,此外,该技术所需的小体积细胞悬浮液(150nL/孔)有助于降低外部污染的风险[6],并允许测量和控制细胞外试剂浓度。该方法具有较高的灵敏性,使用全长转录本测序可以检测单核苷酸变体和转录起始点的特征以及单等位基因和印记基因等[6]。但是由于每个微流控阵列的单细胞捕获位点数量有限,其在规模和产量方面受到限制(每次仅分析100到1,000个细胞)。

此外,这种方法还需要细胞大小的均匀性,而且比其他技术成本更高,限制了其在高通量实验中的使用。

CEL-SEQ方法[9],结合了通过体外转录的线性扩增和标记了barcode样本的汇集,以便于并行分析多个样本。

CEL-seq2方法[8],实现了单一文库的构建,并提高了转录本和基因检测的灵敏度。与可以捕获全长转录本的Smart-seq方法相比,CEL-seq2仅限于3‘端阅读,因此不能检测到替代剪接形式、microRNA或其他非多聚腺苷酸转录本[10]。

1、与基于液滴的方法不同,基于平板或基于微流控的方法可以容纳各种大小和形状的细胞,但受到繁琐和昂贵的单细胞选择和分离的限制[16]。

2、每种scRNA-seq协议都有其优缺点,考虑到研究目的和测序成本之间的平衡,可能需要采用特定的scRNA-seq技术[17]。

3、先前的一项研究表明,通过比较CEL-seq2、MARS-seq、Smart-seq、Drop-seq 在内的scRNA-seq技术,Smart-seq2可以检测到更多的表达基因。

4、盛等人表明[18],一种全长转录本测序方法MATQ-seq在检测低丰度基因方面可能优于Smart-seq2。

5、不同的scRNA-seq protocols具有不同的优点和缺点,一些发表的评论已经详细比较了其中的一部分[17,19]。

6、几种scRNA-seq技术可以捕获polyA+ 和 polyA− RNAs,例如SUPeR-seq [20]和MATQ-seq [21]。这些protocols对于对长非编码RNA(LncRNAs)和环装RNA(CircRNAs)进行测序非常有用。大量研究表明,lncRNAs和CircRNAs在细胞的多种生物学过程中发挥着重要作用,可能成为癌症的重要生物标志物。因此,这种scRNA-seq方法可以在单细胞水平上全面探索蛋白质编码和非编码RNA的表达动态。

关于fluidigm和Fluidigm C1的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

本文由 @网站用户 发布于 2022-09-21。

本文系 @网站用户 发布在 米粒谷。如侵权,请联系网站底部邮箱,收到立马删除。

本文地址:https://www.miligu.cn/2022/09/48882.html