QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

前情提要

  • Nature Biotechnology:QIIME 2可重複、交互和擴展的微生物組數據分析平臺

  • 1簡介和安裝Introduction&Install

QIIME 2插件工作流程概述

Overview of QIIME 2 Plugin Workflows

英文原文見:https://docs.qiime2.org/2020.2/tutorials/overview/

正文共:9858 字 9 圖 1 視頻

預計閱讀時間:25 分鐘,視頻時長 18 分鐘

更新時間:2020年4月6日

本節即是對QIIME 2工作流程的概述,也是對擴增子分析過程的高度概括和總結,建議仔細閱讀,新人和老司機會有不同的體驗,但都會收穫滿滿。

注:在閱讀此文前您應先了解Qiime2的專業術語,請點擊此鏈接開始閱讀。👺

注:本節是QIIME 2用戶新手的指南,特別適用於那些不熟悉微生物組研究的用戶。對於已經精通微生物組分析的有經驗用戶可跳過本節,直接閱讀下一節《老司機上路指南》。

歡迎您加入QIIME 2大家庭👋。本節內容將幫助你瞭解 QIIME 2的主要插件和可用的功能,並指導你深入學習相關的教程。換言之,本節沒有回答你如何使用QIIME 2的問題,但可以指明你正確的方向。把本節當成一張藏寶圖:將QIIME 2的每個功能作為你通往榮耀的墊腳石,下方的流程圖將會告訴你所有的寶藏埋在哪裡。🗺️

請記住,條條小路通山頂,但在山頂時我們都凝視著同一個月亮。🌕

QIIME 2用戶文檔. 2插件工作流程概述

https://v.qq.com/x/page/q0913bywmop.html

視頻有廣告,清晰度不夠高嗎?在微信訂閱號“meta-genome”後臺回覆“qiime2”獲得1080p視頻和測試數據下載鏈接

讓我們定位:流程圖

Let’s get oriented: flowcharts

在我們提及插件或功能之前,對於分析擴增子數據,我們需要討論標準QIIME 2的工作流程(

workflow)這一概念。在我們看概述之前,我們必須先看一下打開藏寶圖的鑰匙長什麼樣:

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

每種類型的數據(如:對象Artifacts和可視化Visualizations)和功能action (如:方法methods、可視化工具visualizers和流程pipelines)用不同顏色的節點(即方框)代表。連接節點的邊分為實線(代表需要的輸入或輸出文件)和虛線(代表可選的輸入文件)。如果沒明白什麼意思,可以回頭讀一下第一節中的”核心概念”。

在下文的流程圖中,具體意義如下:

  • 命令/動作(Actions)採用插件或動作的名稱來命名。想使用這些命令,可以打開終端,在命令行中輸入<code>qiime/<code>,再配合各種功能,如<code>qiime demux emp-single/<code>。

  • 流程(Pipelines)是一種特殊的動作,即一條命令運行多個單獨的命令(譯者注:可以理解為一連串的命令集)。為了簡潔,在一些流程圖中,流程被標記為箱體————封裝多個在內部運行的動作。🌯

  • 對象/數據(Artifacts)採用語義類型的名稱來命名。別擔心,除非你需要將你的文件導入並轉換成這種格式,否則你不需要記往這些長的名字。譯者注:語義類型這個詞不好理解?沒關係,你可以簡單地這麼理解:語義類型=專業術語,或者直接理解為“概念”。

  • 可視化(Visualizations)有各種名稱,一些代表數據的意義,一些用表達的意義來命名…🍙

給新人劃重點

Useful points for beginners

進一步學習前的知識重點:

  1. 下面的指南並非面面俱到,它只涵蓋大多數QIIME 2“核心”插件中的一些主要操作。還有許多其他操作和插件需要你自己去發現和探索。如果你想了解更多,可以在終端中使用<code>qiime --help/<code>功能,它可以列出全部插件。比如你想看<code>dada2/<code>的功能,可以鍵入這個指令<code>qiime dada2 --help/<code>。如想查看拆分功能中的地球微生物組標準單端序列拆分的幫助,打<code>qiime demux emp-single --help/<code>。現在你學會查看每個插件和功能的方法了嗎?😊

  2. 下方的流程圖設計為了儘量簡潔,因此省略了許多的輸入文件(特別是可選的輸入和元數據)、輸出文件(如統計摘要和次要輸出文件)和其它可能的命令參數。還省略了許多附加命令(例如用於顯示統計摘要或操作特徵表的命令🎻)。現在你已經學會了查閱幫助文檔,可以查看並學習每個插件命令的具體功能和參數(提示:如果有插件的命令在這裡沒有提到,它可能是用於檢查那個插件其它命令的輸出文件的)。

  3. 元數據(metadata,樣本信息,如分組信息等)是QIIME 2中的核心概念。我們在後面有一節專門對它進行專門講解和討論。仔細品讀,可以行穩致遠!📚

  4. 對象(Artifacts <code>.qza/<code>)和可視化(Visualizations<code>.qzv/<code>)文件都是標準的壓縮文檔,包括數據文件、分析過程可追溯的文件。可以使用<code>unzip/<code>解壓對象和可視化文件後查看內容。更好的方法是使用<code>qiime tools export/<code>命令導出文件,後面的導出數據會有詳細講解。想要進一步瞭解這兩類文件格式,可閱讀數據是如何存儲一文:https://dev.qiime2.org/latest/storing-data/。🤓

  5. 在QIIME 2中進行分析數據沒有唯一的方法。大多數的插件和功能都是獨立的軟件或現存的方法。QIIME只是起到膠水的作用,將它們整合在一起,然後奇蹟就發生了。通往山頂的路不只一條。⛰️

  6. 不要忘記引用每個插件或功能的原文獻!如果你不確定應如何引用它們,可以使用<code>--citations/<code>參數查看,比如在在Terminal中輸入<code>qiime dada2 --citations/<code>就能顯示出DADA2插件的引用信息。或者,你可以把對象和可視化文件拖入這個網頁https://view.qiime2.org/來顯示相關信息。本功能自2018.4及以後版本中才有,這裡面有產生你所需要文件的全部參考文獻,方便吧!😎💃💃💃

QIIME 2分析流程概述

Conceptual overview of QIIME 2

現在我們閱讀完了詞彙表和金鑰(上一段),讓我們全面瞭解一下擴增子測序數據的分析流程:

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

==黃色框代表操作方法==,綠色塊代表文件或數據。

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

本概述中的邊和節點並不表示具體的操作或數據類型,而是表示概念類別,例如,我們在實驗中可能擁有的數據基本類型或分析目標。下面將更詳細地討論所有這些步驟和術語。

所有數據都必須導入為QIIME 2對象,以便由QIIME 2操作使用(除了一些元數據)。不同的用戶可以在不同的階段進入該工作流程。大多數人都有某些類型的原始序列(例如,FASTQ或FASTA)數據,這些數據應該按照適當的序列導入方案導入。其他用戶可以從拆分為單樣本的序列數據開始,或者從合作者給他們的特徵表開始。後面章節中的導入教程專題會詳細介紹用戶最常見需要導入到QIIME 2中的的數據類型。

現在我們已經瞭解到— — 實際上可以在幾乎任何節點上進入這個工作流程,接下來讓我們瀏覽各個部分的具體功能和應用。

  1. 所有的宏基因組/擴增子測序的分析的起點是原始序列數據。原始數據多數為fastq格式,其包含有DNA序列數據和每個鹼基的質量值。

  2. 我們必須進行混池的樣本拆分(demultiplex),以便確定每條序列來自於哪個樣本。

  3. 然後進行序列去噪(denoised)以獲得擴增子序列變異(amplicon sequence variants, ASVs),或聚類為可操作分類單元(operational taxonomic units, OTUs),這樣做目的有二個:⑴降低測序錯誤;⑵序列去冗餘。

  4. 特徵表和代表性序列是去噪獲得的關鍵結果,是下游分析的核心數據。一個特徵表簡單說就是一張Excel表,行名為ASV或OTU名稱,列名為樣本名。譯者注:特徵(feature)是對ASV/OTU等的統稱。

  5. 我們可以基於特徵表做很多事,常用分析包括

    1. 序列的物種分類。比如,這裡面有什麼物種?

    2. Alpha(α)和Beta(β)多樣性分析,即分別描述樣本內或樣本間的多樣性。比如我們可以瞭解樣本間有多少物種是一樣的,即相似性如何?

    3. 許多的多樣性分析依賴於個體特徵的進化相似性。如果你測序的是系統發育的標記基因,如16S rRNA基因,你可以採用多序列比對方式評估特徵間的系統發育關係。

    4. 不同實驗組間特徵的差異丰度分析,確定哪些OTUs或ASVs顯著的多或少。

這只是一個開始,在Qiime 2裡還有眾多的統計方法和繪圖方法觸手可及。世界是你的,就讓我們一探究竟吧(The world is your oyster. Let’s dive in)。🏊

警告

哇!彆著急!我們將開始使用一些嚴肅的技術術語🤓。你是否仔細研讀了前面講到過的語義類型核心概念?沒有的話,請趕快返回第一章閱讀,否則你再往下看會一頭霧水的。⚡⚡

樣本拆分

Demultiplexing

可以想象一下,我們收到一堆FASTQ數據,剛從測序儀下機還熱乎的(新出鍋的包子很誘人,新下機的數據你也一定有馬上分析的衝動吧!)。大多數二代測序儀器有能力在單個通道(lane)/同一批次(run)中測序數百甚至數千個樣本。我們通過多通道混用(multiplexing)的方法來提高檢測速度,即多個樣本混在一個文庫中測序。既然這些來自不同樣本的個讀段(read)混合在一個“池”中,我們是如何知道每來個read來自哪個樣本呢?這通常採用在每個序列的一端或雙端附加唯一的條形碼<code>barcode/<code>(即索引<code>index/<code>或標籤<code>tag/<code>)序列來實現區分read來源。檢測這些條形碼序列並將reads分類到所屬的樣本來源的過程就是“樣本拆分”,或者叫“序列分揀”。這個過程非常類似於快遞的分揀。

想要開始樣本拆分了嗎?你或者為你的樣品建庫和測序的人應該知道哪個條形碼屬於哪個樣品。如果你不知道,可以和你的實驗室夥伴或測序中心談談。一般在元數據文件(sample metadata)中應包含此條形碼信息,以便進行下游分析。

QIIME 2樣本拆分過程見下面的流程圖(現在暫時忽略此流程圖的右側):

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

這個流程圖描述了QIIME 2樣本拆分的可能步驟,原始數據類型不同,步驟會有差異。通常情況下,在<code>q2-demux/<code>或<code>q2-cutadapt/<code>的拆分方法只有一個適用於您的數據,但這就能滿足你的需求了。

閱讀有關樣本拆分的更多信息,並使用人體各部位微生物組教程(針對單端數據)和沙漠土壤教程(針對雙端數據)對其進行拆分實戰。這些教程包括地球微生物組計劃(EMP)格式數據(如導入文檔中所述)。你的測序數據中有條形碼和引物嗎?請參閱cutadapt教程以瞭解如何在<code>q2-cutadapt/<code>中使用<code>demux/<code>方法。有多重標籤、混合方向測序或其他不尋常的格式嗎?這些處理非標準實驗方案的處理不在標準流程中,努力祈禱🙏,然後查看QIIME 2論壇,看看是否有人找到解決辦法(這些非標準的建庫拆分方法一部分可以使用QIIME 1實現拆分和方向調整,但我強烈建議誰挖坑測序的讓誰處理好了,他們奇怪的方案肯定有自己對應的個性化工具,別浪費自己的寶貴時間為別人奇怪的想法買單)。

雙端測序結果在分析中某個合適的時間點,需要將其合併。如果您按照沙漠土壤菌群分析教程,您將看到在使用<code>q2-dada2/<code>去噪期間自動進行了雙端合併。但是,如果希望使用<code>q2-debur/<code>或<code>OTU聚類/<code>方法(下文有更詳細描述),則需要先使用<code>q2-vsearch/<code>進行雙端合併,就像上方工作流程圖所示那樣。要了解有關雙端序列合併的更多信息,在後面我們會有<code>read-join/<code>的專題教程。👯

你現在是否有點被搞暈了呢?不用絕望,重新回顧一下本節“分析流程概述”你會更加理解其思路。對大多數新用戶來說,數據導入和原始序列樣本拆分是最頭痛的部分😤。但是一旦你掌握了訣竅,就很容易了。🍰

去噪和聚類

Denoising and clustering

祝賀你走得這麼遠!去噪和聚類步驟比導入和樣本拆分更容易!🎉😬🎉

這些步驟的名稱有豐富的內涵:

  1. 我們對序列進行去噪,以便去除和/或校正噪音序列。🔊

  2. 我們將序列去冗餘,以減少多餘重複的序列,讓文件變得更小,降低計算機內存需求。不要擔心,軟件會記錄每個序列的重複次數,這種重複次數就是read counts。🕵

  3. 我們對序列進行聚類,即將相似的序列歸一為單個序列,一般相似性的閾值定位97%。這個過程,也稱為挑選OTU(OTU picking)。挑選OTU在Qiime第1個版本時曾經是一個常用的分析步驟,用於去重並同時進行去噪。但是這種去噪僅捕獲隨機的測序和PCR錯誤。目前強烈建議大家使用去噪的方法。譯者注:與時俱進是科學精神的重要內涵之一,當由於你沒有跟進近幾年的新方法和進展,而使用了過時的方法導致了不合理的結論才是時代的悲哀。

去噪

Denoising

讓我們從去噪開始,它在上圖樣本拆分和去噪工作流程的右邊描述。

目前在QIIME 2中可用的去噪方法包括<code>DADA2/<code>和<code>Deblur/<code>。您可以通過閱讀每個方法的文章來深入瞭解這些方法。DADA2的實例應用於人體各部位微生物組分析教程,糞菌移植教程(用於單端數據)以及阿塔卡馬沙漠土壤教程(用於雙端測序數據)。Deblur的示例在人體各部位微生物組教程(針對單端數據)和<code>雙端序列合併/<code>教程(針對雙端數據)。注意,<code>deblur/<code>(以及<code>vsearch/<code>的<code>dereplicate-seqences/<code>)分析之前必須進行數據質量過濾,但這個步驟對於<code>dada2/<code>來說是不必要的。<code>Deblur/<code>和<code>DADA2/<code>都包含內部嵌合體檢查方法和豐度過濾,因此按照這些方法不需要額外的過濾。🦁🐐🐍

簡而言之,這些方法濾除有噪聲的序列,校正不確定序列中的錯誤(如在DADA2的分析中),去除嵌合序列,去除單體(singletons,出現頻率僅有一次的序列),合併去噪後的雙端序列(在DADA2的分析中),然後對這些序列進行去冗餘。

由去噪方法產生的特徵有許多名稱,通常是“序列變異”(sequence variant, SV)、“擴增子SV”(ASV)、“實際SV(actual SV)”、“精確SV(exact SV)”……我相信在本教程中我們已經將這些稱為ASV,讓我們保持術語的一致性。📏

聚類

Clustering

接下來我們將討論聚類方法。去冗餘(最簡單的聚類方法,有效地產生100%相似度的OTU,即在數據集中觀察到的所有唯一序列)也在樣本拆分和去噪工作流程中描述,是QIIME 2中所有其他聚類方法的起點,如下圖所示:

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

<code>q2-vsearch/<code>實現了三種不同的OTU聚類策略:無參(de novo)、有參(closed reference)和有無參結合(open reference)。所有步驟之前都應該進行質量控制,然後進行嵌合體過濾和有侵略性的OTU丰度過濾(危險的三重奏,又稱Bokulich方法,可以極大的降低假陽性,但可能造成一定程度的假陰性——分析中很多找到最優解,通常只是經驗+嘗試選擇較優解)。🙈🙉🙊

OTU聚類教程演示了幾種<code>q2-vsearch/<code>聚類方法的使用。別忘了閱讀嵌合體過濾教程!

通過聚類方法產生的特徵被稱為操作分類單元(OTU),它是次優的世界語、不精確的垃圾。🚮

譯者注:在過去十年裡,OTU的廣泛使用為研究擴增子測序數據提供了簡單快速的分析方式,帶來了微生物組學文章的大爆發。但同時因其聚類的偏好性,序列可變性等缺點,使得不同研究無法可比較、可重複的問題十分嚴重,故被稱為“次優的、不精確的垃圾世界語——使用廣泛但並不通用”。

特徵表

The Feature Table

所有去噪和聚類方法/工作流程的最終產品是<code>特徵表[頻率Frequency](特徵表feature table)/<code>對象和<code>特徵數據[序列Sequence]/<code>(代表序列representative sequences)對象。這是擴增子分析工作流程中最重要的兩個對象,用於許多下游分析,如下面所討論的。實際上,特徵表對於任何QIIME 2分析都是至關重要的,作為每個樣本的所有觀察的<code>中心記錄/<code>。如此重要的對象值得擁有強大的插件<code>q2-feature-table/<code>。我們不會在這裡詳細討論這個插件的所有操作(有些在下面提到),但是它可以在特徵表上執行許多有用的操作,所以要熟悉它的文檔格式!😴

我重複一遍:特徵表是QIIME 2中分析的核心。幾乎所有的分析步驟(除在樣本拆分和去噪/聚類外)都以某種方式涉及特徵表。注意!😳

注:想要查看哪個序列與特徵ID相關?使用<code>qiime metadata tabulate/<code>命令,使用<code>特徵數據FeatureData[序列Sequence]/<code>對象作為輸出。

祝賀你!🎉您已經完成了數據的導入、樣本拆分和去噪/聚類,這些對於大多數用戶來說都是最複雜和困難的步驟(如果僅僅是因為有那麼多方法可以做到這一點!)如果你能走這麼遠,剩下的就很容易了。現在開始接下來愉快的旅程。

物種分類和分類學分析

Taxonomy classification and taxonomic analyses

對於許多溼實驗研究人員的目的是鑑定樣品中存在的微生物。例如,我的樣品中有哪些屬或種?這個病人的樣本中有人類病原體嗎?我的酒裡有什麼微生物在游泳?🍷🤑

我們可以通過要查詢的序列(即我們的特徵,無論是ASV還是OTU)與具有已知分類信息的參考序列數據庫進行比較來獲得物種註釋。僅僅找到最接近的比對結果並不一定是最好的,因為其他相同或接近的序列可能具有不同的分類註釋。因此,我們使用基於比對、k-mer頻率等物種分類器來確定最接近的分類學關聯,並具有一定程度的置信度或一致區域(如果不能確定地預測物種名稱,那麼這可能不是同一物種!)。那些對QIIME 2中的物種分類學有更多興趣的人可以閱讀,2018年5月發表在Microbiome上的文章(https://doi.org/10.1186/s40168-018-0470-z),夠你讀到天黑(until the cows come home)。🐄🐄🐄

讓我們看一下物種分類工作流的樣子:

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

<code>q2-feature-classifier/<code>包括三種不同的分類方法。<code>classify-consensus-blast/<code>和<code>classify-consensus-vsearch/<code>都是基於比對的方法,可以在N個最好的比對結果中找一致最高的用於分類。這些方法直接參考數據庫<code>FeatureData[Taxonomy]/<code>和<code>FeatureData[Sequence]/<code>文件,不需要預先訓練。

基於機器學習的分類方法是通過<code>classify-sklearn/<code>實現的。理論上講, scikit-learn中的任何分類方法均可應用於物種分類。用於物種分類的軟件或插件叫“分類器”,這些分類器因為採用了機器學習原理,在正式用於你的數據分類前必須訓練這些分類器,以便讓軟件“學會”哪些特徵可以最好地區分每個分類組。這個訓練過程是在進行正式分類前額外需要的步驟。訓練出來的分類器是具有“物種數據庫和標記基因”特異性的。分類器一旦訓練成功,只要你測序引物等測序條件沒有改變,它就可以多次使用而不需要重新訓練!==譯者注1:訓練分類器需要用到特定的物種分類數據庫(比如Greengenes database)和你自己測序時的引物序列,訓練步驟是:先用引物定位Greengenes中的參考序列,然後截取出這些參考序列(截取出的參考序列長度和你測序獲得的序列長度類似),然後把這些序列與物種分類名稱匹配,這樣就獲得了“分類器”。所以分類器具有“物種數據庫和標記基因”特異性。== 譯者注2:scikit-learn是一個著名的Python語言機器學習網站,裡面有很多機器學習的代碼。

大多數用戶並不需要按照該教程執行訓練步驟,因為可愛的QIIME 2開發人員提供了幾個預先訓練的分類器供大家使用。🎅🎁🎅🎁🎅🎁

哪種方法最好?它們都很好,否則我們就不麻煩把它們呈現給用戶了。😎 但是,一般來說,使用樸素貝葉斯(Naive Bayes)分類器的<code>classify-sklearn/<code>可以稍微優於我們基於16S rRNA基因和真菌ITS序列分類的幾個標準測試的其他方法。然而,對於一些用戶來說,這可能更加困難和令人沮喪,因為它需要額外的訓練步驟。這個訓練步驟可能需要大量的內存,對於某些無法使用預先訓練分類器的用戶來說,這將成為一個障礙。一些用戶還喜歡基於比對的方法,因為這種操作模式更加透明並且參數更易於操作 (參見後面會講到的數據資源章節,以瞭解這些參數的描述以及不同應用的推薦設置)。

特徵分類過程可能會比較慢。這完全取決於你序列的數量和參考序列的數量。與進行分類相比,OTU聚類的序列可能需要更長的時間(因為序列通常更多)。如果擔心運行時間太長,在分類之前從序列文件中篩選排除低丰度的特徵,並可以使用較小的參考數據庫。實際上,在“正常大小”的測序實驗中(無論這意味著什麼😜),我們需要消耗幾分鐘(幾百個特徵)到幾個小時(幾十萬個特徵)之間來完成分類。如果您希望在看到精確的時間數字,請查看我們的分類器運行時間性能評估和測試的結果。🏃⏱️

特徵分類可以是內存密集型的。通常最小需要4GB的RAM,最大可達32GB+的內存。這完全取決於參考序列的大小、長度和特徵序列的數量……

使用<code>classify-sklearning/<code>的示例在特徵分類器教程和人體各部微生物組教程中出現。分類的流程圖使其他分類器方法更加清晰。

所有分類器生成一個<code>FeatureData[Taxonomy]/<code>對象,其中包含每個查詢序列的物種分類信息。

提示:想要查看哪個序列和分類學與特徵ID相關?使用<code>qiime metadata tabulate/<code>命令,使用<code>特徵數據FeatureData[序列Sequence]/<code>和<code>FeatureData[Taxonomy]/<code>對象作為輸出。

序列分類註釋

Now that we have classified our sequences

物種分類是打開新世界成為可能 🌎

我們現在擁有了特徵數據物種註釋 <code>FeatureData[Taxonomy]/<code>對象:

  1. 按分類層次相同的分類單元進行合併,這用到<code>taxa collapse/<code>。這將共享相同分類的所有特徵合併為單個特徵。該分類單元名稱成為新特徵表中的特徵ID。這個特徵表可以與原始表相同的方式使用。一些用戶可能對這類表特別感興趣,例如,可以進行基於不同分類層級的多樣性分析,但大家都對這些分類群的差異丰度分析更感興趣。比較使用分類群作為特徵的差異丰度分析,與使用ASV或OTU作為特徵的差異丰度分析都可以為各種分析提供診斷和信息。🌂

  2. 繪製物種組成,方便查看每個樣本中各種分類群的丰度。查看物種丰度條形圖和特徵表熱圖瞭解更多細節。📊

  3. 過濾特徵表和代表序列(<code>FeatureData[Sequence]/<code>對象)以刪除某些分類學組。這對於去除已知的汙染物或非目標基團是有用的,例如,宿主DNA,包括線粒體或葉綠體序列。對於集中於特定組以進行更深入的分析,也是有用的。有關更多細節和示例,請參閱過濾教程。🌿🐀

多序列比對和進化樹構建

Sequence alignment and phylogeny building

通常多樣性分析依賴於個體特徵之間的系統發育相似性。如果你正在進行系統發育標記基因測序(例如,16S rRNA基因),你可以多序列對齊(align)這些序列來評估每個特徵之間的系統發育關係。然後這個系統發育樹可以被其他下游分析使用,例如UniFrac距離分析。

用於對齊序列和產生系統發育的不同方法展示在下面的流程圖中。有關多序列比對/系統發育構建的詳細描述,請參閱q2-phylogeny和q2-fragment-insertion教程。🌳

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

現在我們擁有了<code>有根系統發育樹Phylogeny[Rooted]/<code>對象,請注意在接下來的分析中哪些地方用到它 👀

多樣性分析

Diversity analysis

在微生物學實驗中,研究人員經常對以下事情感到困惑:

  • 我的樣本中有多少不同的物種/OTUs/ASVs?

  • 每個樣本存在多少系統發育多樣性?

  • 單個樣本和樣本組有多相似/不同?

  • 哪些因素(僅舉幾個例子,如pH、海拔、血壓、身體部位或宿主物種)與微生物組成和多樣性的差異相關呢?

還有更多。這些問題可以通過α和β多樣性分析來回答。Alpha多樣性測量單個樣本中的多樣性水平。β多樣性測量樣本之間的多樣性或差異程度。然後我們可以使用統計檢驗來說明樣本組之間的α多樣性是否不同(例如,指出哪些組具有更多/更少的物種豐富度)以及組之間的β多樣性是否顯著差異(例如,確定一個組中的樣本比另一個組中的樣本更相似),通過這些結果來證明這些組中的成員正在形成一個特定的微生物組成。

QIIME 2中不同類型的多樣性分析在人體各部微生物組教程和糞菌移植教程中進行演示,這裡將演示用於生成多樣性對象的全套分析(並非全部:注意,其他插件可以在這些對象上進一步分析,本指南中也將進一步說明):

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

<code>q2-diversity/<code>插件包含許多有用的功能!瞭解他們可以幹什麼很重要。正如您在流程圖中看到的,<code>diversity core-metrics*/<code>流程(<code>core-metrics/<code>和<code>core-metrics-phylogenetic/<code>)包含許多不同的核心多樣性命令,並且在這個過程中產生可用於下游分析的重要對象。它們是:

  • 樣本數據-α多樣性<code>SampleData[AlphaDiversity]/<code>對象,其中包含特徵表中每個樣本的α多樣性估計。這是α多樣性分析的核心對象。

  • 距離矩陣<code>DistanceMatrix/<code>對象,包含特徵表中每對樣本之間的成對距離/差異。這是β多樣性分析的核心對象。

  • 主座標結果<code>PCoAResults/<code>對象,包含每個距離/不同度量的主座標排序結果。主座標分析是一種降維技術,有助於在二維或三維空間中進行樣本相似度或差異的可視化比較。

這些是與多樣性相關的主要對象。記住它們的名字和保存位置!我們將在各種下游分析中,或在流程圖中所示的<code>q2-diversity/<code>的各種操作中用到這些數據。這些功能大部分操作會在人體各部位微生物組教程中演示,所以請繼續加油學習更多姿勢吧!☔

注意,在QIIME 2中有許多不同的α和β多樣性度量方法。要了解更多,並找出你應該引用誰的論文,請點擊前面的鏈接跳轉網頁。感謝斯蒂芬妮的辛苦總結整理!😁🙏😁🙏😁🙏

玩轉特徵表

Fun with feature tables

此時,你有一個特徵表、物種分類結果、α多樣性和β多樣性結果。哦,Word天哪,這些結果我居然都分析分析出來啦!🤓

如上所述,物種和多樣性分析是大多數QIIME 2用戶需要執行的基本分析類型。然而,這僅僅是分析的開始,還有很多更高級的分析等待我們去挖掘和探索。🖐️⌨️

QIIME 2教程. 02插件工作流程概述Plugin Workflows Overview(2020.2)

我們這裡只是給出一個簡要的概述,因為每種分析都有自己詳細的教程來指導我們:

  • 分析縱向數據:<code>q2-longitudinal/<code>是一個用於執行縱向時間序列實驗的統計分析插件,也就是說,樣本是隨著時間重複地從單個患者/受試者/站點收集的。這包括對α和β多樣性的縱向研究,以及一些非常棒的交互式圖形。📈🍝

  • 預測未來(或過去)🔮:<code>q2-sample-classifier/<code>是用於特徵數據機器學習🤖 分析的插件。支持分類和迴歸模型。這允許您執行以下操作:

    • 根據特徵數據預測樣本元數據。例如,我們能否使用糞便樣本預測癌症易感性?或者根據發酵前葡萄的微生物組成預測葡萄酒質量?🍇

    • 識別和預測不同樣本的特徵。🚀

    • 量化微生物組發育階段。例如,跟蹤嬰兒腸道中正常的微生物組發育受持續營養不良、抗生素、飲食和分娩方式的影響。👶

    • 預測異常值和標籤錯誤的樣本。👹(詳者注:這在大規模研究中尤為重要,排除錯誤才可能找到真相)

  • 丰度差異分析用於確定在不同樣本組中哪些特徵顯著更多或更少。QIIME 2目前支持幾種不同的差異丰度統計檢驗方法,包括ANCOM(<code>q2-composition/<code>中的一個功能)和<code>q2-gneiss/<code>👾👾👾

  • 數據評估和質量控制:<code>q2-quality-control/<code>是數據評估和質量控制的插件。它包括以下功能:

    • 測試不同生物信息學或分子方法的準確性,或批次(run-to-run)的變異。常用於研究組成已知的樣本,如人工合成群體(mock communities,模擬群體,即人為按一定比例混合多種微生物的合成群體),可以研究觀察值和預期組成、序列等之間的相似性,來評估實驗、分析方法對結果的影響等。以及更多有創造力的實驗和應用…🐢

    • 基於對參考數據庫或包含特定DNA短片段(例如,引物序列)比對,進行序列的過濾。這對於去除特定生物組成序列、非目標DNA或其他無意義序列非常有效。🙃

本節只是一個簡單的Qiime 2概述!Qiime 2正在持續開發中,因此請繼續關注未來發布版本中的更多插件📻,並關注繼續擴展Qiime 2中可用的第三方插件。👀

現在開始享受分析的愉悅之旅吧!💃

譯者簡介

劉永鑫,博士。2008年畢業於東北農大微生物學,2014年於中科院遺傳發育所獲生物信息學博士,2016年遺傳學博士後出站留所工作,任宏基因組學實驗室工程師。目前主要研究方向為宏基因組數據分析和植物微生物組,QIIME 2項目參與人。目前在Science、Nature Biotechnology、Current Opinion in Microbiology等雜誌發表論文二十餘篇。2017年7月創辦“宏基因組”公眾號,目前分享宏基因組、擴增子原創文章500餘篇,代表博文有《擴增子圖表解讀、分析流程和統計繪圖三部曲(21篇)》、《Nature綜述:手把手教你分析菌群數據(1.8萬字)》、《QIIME2中文教程(22篇)》等,關注人數8萬+,累計閱讀1200萬+。

https://docs.qiime2.org/2020.2/tutorials/overview/#taxonomy-classification-and-taxonomic-analyses

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley,Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2.Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組 宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人


分享到:


相關文章: