單細胞測序樣本制備儀,基于Drop-seq技術*,完成高通量的單細胞mRNA 3’端測序。關于單細胞RNA測序的技術教程講解,以下是我們整理的講解。
傳統(tǒng)“批量的”RNA測序方法可以一次處理成千上萬個細胞,并得到變異的平均水平。但是沒有兩個細胞是完全相同的,而scRNA-seq則可以揭示出每個細胞獨特的微妙變化,甚至可以揭示全新的細胞類型。
例如,在使用scRNA-seq技術檢測了約2,400個免疫細胞后,位于馬薩諸塞州劍橋市Broad研究所的Aviv Regev及其同事發(fā)現(xiàn)了一些具有強大T細胞刺激活性的樹突細胞,一種能夠刺激這些細胞的疫苗可能會潛在地增強免疫系統(tǒng)功能,并預防癌癥。
這些發(fā)現(xiàn)來之不易,操縱單個細胞比大群體要困難得多,而且因為每個細胞只產(chǎn)生少量的RNA,所以沒有任何犯錯的余地。此外,另一個問題是如何分析海量數(shù)據(jù)產(chǎn)生的結果,因為我們目前所使用的工具可能不是直觀的。
通常,研究人員需要費力地在Unix操作系統(tǒng)中鍵入命令來分析RNA-seq數(shù)據(jù)。數(shù)據(jù)文件會從一個軟件包傳遞到下一個軟件包,每個工具包在這個過程中處理其中一個步驟:基因組比對、質(zhì)量控制、變異分析等。
這個過程十分復雜,但是對于“批量的”RNA-seq來說,至少已經(jīng)形成了一種共識,即每一步哪種算法最適合,以及它們?nèi)绾芜\行。因此,現(xiàn)在已經(jīng)有了基本的流程,雖然仍有待調(diào)整,但至少對非專家來說是可處理的。在分析基因表達的差異方面,英國癌癥研究所計算生物學家Aaron Lun表示,RNA-seq的問題目前來說已基本解決。
但對于scRNA-seq來說,我們還不能妄言已經(jīng)解決:研究人員仍然在探索可以用數(shù)據(jù)集做什么、哪些算法是最有用的。
但是一系列在線資源和工具正在簡化scRNA-seq數(shù)據(jù)分析的過程。在GitHub網(wǎng)站上,一個名為“Awesome Single Cell”的頁面收錄了70多種工具和資源,涵蓋了分析過程的每個步驟。西雅圖華盛頓大學的生物學家Cole Trapnell說,該領域已經(jīng)催生了計算生物學工具的小型產(chǎn)業(yè)。
夏威夷大學的生物信息學家Lana Garmire,在去年發(fā)表的一篇評論中列出了scRNA-seq數(shù)據(jù)分析以及約48項工具的基本步驟。盡管每個實驗都不盡相同,但大多數(shù)分析流程都遵循著相同的步驟來清理和篩選測序數(shù)據(jù),找出哪些轉錄子可以表達,并且對于擴增效率的差異是正確的。研究人員隨后進行一項或多項二級分析,以檢測亞群和其他功能。
Christina Kendziorsk,威斯康星大學麥迪遜分校的生物統(tǒng)計學家說到,在許多情況下,大規(guī)模RNA-seq中使用的工具也可以應用于scRNA-seq。但數(shù)據(jù)的根本差異意味著,這并不總是可行的。Lun表示,一方面,單細胞測序數(shù)據(jù)的背景噪聲更大。在如此少量RNA的情況下,擴增和捕獲效率的微小變化,就可能在細胞間產(chǎn)生與生物學無關的巨大差異。因此,研究人員必須對“批量效應”保持警惕,因為在不同日期制備的看似相同的細胞,可能因為純粹的技術原因而不盡相同,導致“中途退出”的基因在細胞中表達,但在測序的數(shù)據(jù)中卻沒有發(fā)現(xiàn)。
澳大利亞悉尼心臟研究所的生物信息學家Joshua Ho也談道,另一個挑戰(zhàn)是規(guī)模。典型的大規(guī)模RNA-seq實驗涉及的樣品數(shù)量較少,但scRNA-seq研究可能涉及數(shù)千個樣本。能夠?qū)κ畮讉€樣本進行處理的工具在遇到10倍或100倍數(shù)目的樣本時,處理速度往往會十分緩慢。
此外,即使是看似簡單的問題,如一個良好的細胞制備是如何構成的,在scRNA-seq的領域里也很復雜。Lun的工作流程假定大多數(shù)細胞具有大致相當?shù)腞NA豐度。但他表示,“這種假設并不一定是正確的”。例如,他談道,從未被抗原激活并且相對靜止的初始T細胞往往比其他免疫細胞具有更少的信使RNA,并且在分析過程中可能會被移除,因為程序認為沒有足夠的RNA來進行處理。
或許最重要的是,執(zhí)行scRNA-seq的研究人員傾向于從分析大量RNA的問題中提出不同的問題。“批量”的分析通常是研究基因表達在兩種或多種治療條件之間的區(qū)別。但是,研究單個細胞的研究人員通常旨在識別新的細胞類型或狀態(tài),或重建細胞的發(fā)育途徑。Lun強調(diào):“因為目標是不同的,所以這就需要一套不同的工具來分析數(shù)據(jù)。”
例如,單細胞分析的一種常見類型是維數(shù)約簡。該過程簡化了數(shù)據(jù)集,以便于識別類似的細胞。據(jù)英國劍橋研究所的計算生物學家Martin Hemberg所說,scRNA-seq數(shù)據(jù)將每個細胞表示為“20,000個基因表達值的列表”。 主成分分析(PCA)和t分布式隨機相鄰嵌入(t-SNE)等維度降低算法,有效地將這些特征投射到二維或三維中,使得相似的細胞簇易于分辨。另一個流行的應用程序是偽時間分析。2014年,Trapnell開發(fā)了第一個名為“Monocle”的工具。Trapnell表示,這款機器學習軟件從scRNA-seq實驗推斷出伴隨細胞分化的基因表達變化序列,這就像從空中拍攝跑步者的路徑一樣。
此外,其他工具解決了亞群檢測(例如,波士頓哈佛醫(yī)學院Peter Kharchenko開發(fā)的Pagoda)和空間定位的問題,其使用了關于組織中基因表達分布的數(shù)據(jù)來確定每個轉錄組產(chǎn)生自哪里。Rahul Satija工作于紐約基因組中心,他開發(fā)一種這樣的工具,名為“Seurat”。他表示,該軟件利用這些數(shù)據(jù),將細胞定位為三維空間中的點。“這就是為什么我們將其命名為Seurat(Seurat為法國印象派畫家,在繪畫技法上運用畫筆一筆一筆點在畫面,這種作品被稱為點彩畫)。”他解釋說,“因為這些點讓我們聯(lián)想起了一副點彩畫。”
盡管針對特定的任務,這些工具通常涉及多種功能。例如,Rahul Satija的研究團隊通過Seurat進行了細胞亞群分析,以識別新的免疫細胞。
加州大學圣地亞哥分校的生物信息學家Gene Yeo談道,大多數(shù)的scRNA-seq工具都是基于R語言的Unix程序或軟件包編程的,但相對而言,很少有生物學家在這些環(huán)境中工作。即便是這樣,他們也可能沒有時間下載和配置所有工作,使這些工具真正發(fā)揮作用。
目前,研究人員已經(jīng)開發(fā)了一些即用型的流程。還有端到端的圖形工具,包括來自FlowJo的商業(yè)化GenSeq軟件包,以及一對開源的Web工具:來自Garmire集團的Granatum和來自瑞士聯(lián)邦理工學院Bart Deplancke實驗室的ASAP(自動單細胞分析流程)。
ASAP和Granatum使用Web瀏覽器提供相對簡單的交互式工作流程,使研究人員能夠以圖形的方式探索數(shù)據(jù)。用戶上傳了他們的數(shù)據(jù)后,軟件會逐步走完他們的步驟。對于ASAP,這意味著通過可預處理、可視化、聚類和基因表達差異分析獲取數(shù)據(jù);Granatum還允許偽時間分析和蛋白質(zhì)交互作用數(shù)據(jù)的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在讓生物信息等多個領域的研究人員共同合作。研究人員曾經(jīng)認為,“(生物信息學家)獲取數(shù)據(jù)并產(chǎn)生結果是十分神奇的,”夏威夷大學博士生、Granatum首席開發(fā)人員Xun Zhu表示,“現(xiàn)在研究人員可以參與一些參數(shù)的調(diào)整,這是一件好事。”
當然,這些工具并不是完美的。例如,在識別細胞類型方面性能優(yōu)異的工具可能會因偽時間分析而出現(xiàn)問題。此外,加州大學伯克利分校生物統(tǒng)計學家Sandrine Dudoit強調(diào),合適的方法是“非常依賴于數(shù)據(jù)集的”。這可能需要對方法和參數(shù)進行調(diào)整,以考慮諸如測序長度之類的變量。但Marioni談道,重要的是不要完全信任這些流程,他打比方說:“就像衛(wèi)星導航告訴你開車進入河流,但你可不能真開進河里。”
對于初學者來說,保持謹慎的態(tài)度是有道理的。生物信息學工具幾乎總是能給出答案;但問題是,這些答案究竟意味著什么?Dudoit的建議是進行一些探索性的分析,并驗證你所選擇算法的假定條件是有意義的。
Satija還談道,一些分析任務仍然頗具挑戰(zhàn)性,如在不同實驗條件或生物體間進行比較,并整合不同組學的數(shù)據(jù)。
但是,目前的工具已經(jīng)基本滿足了大多數(shù)研究人員的需求。Kendziorski建議那些感興趣的研究人員可以深入了解。每一種新的工具都可以揭示生物學的另一個方面,只要你關注科學,并做出明智的選擇。
凈信誠邀各大測序公司、精準醫(yī)療及技術服務公司一起合作,為單細胞測序的發(fā)展貢獻力量。有合作意向請撥打:021-57790908,郵箱:zhujianming0374@163.com
轉摘請注明出處:謝謝配合