用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析


前言

MicrobiomeAnalyst 網頁交互式分析微生物組數據神器》答應大家的保姆級教程來了。這一篇是關於 16S 分析模塊(Marker-gene Data Profiling ,MDP),其他模塊後續推出。

MDP 可以實現的分析有:

  • 微生物成分和結構分析
  • 生物多樣性(alpha和beta)分析
  • 比較分析
  • 預測代謝功能教程使用說明:有些圖片文字標記偏小,建議雙擊打開看。


數據準備


MicrobiomeAnalyst 暫時不支持處理原始下機數據,需要我們把丰度表準備好。Nature Protocols 文中關於16S擴增子數據預處理過程有以下的建議:

從測序平臺獲得原始序列後,需要生物信息學流程將原始讀取轉換為分類信息。傳統上,原始讀取會轉換為OTU,即滿足97%相似性閾值劃歸為一個OTU。現在通常建議將原始讀數轉換為高分辨率的ASV,可以根據其獨特的生物學序列對其進行鑑定,以促進整個研究的薈萃分析。所有生物信息學流程的主要預處理步驟是(i)測序序列的質量控制,(ii)序列的聚類和(iii)分類分配。常用的管道包括QIIME,mothur,UPARSE,以及最近的DADA2。DADA2的工作原理是生成一個參數錯誤模型,該模型將對所有原始測序數據進行訓練,並應用該模型將序列錯誤糾正和合併為ASV。MicrobiomeAnalystR軟件包集成了DADA2,可用於原始16S rRNA擴增子測序數據。

輸入數據文件格式

MicrobiomeAnalyst支持多種格式上傳其16S數據:

  • 製表符分隔的文本文件(丰度,分類和元數據(表型數據)文件):包含多個樣本中特徵(操作分類單位(OTU)/ ASV /基因)的讀長計數,這些特徵的分類文件(OTU / ASV)和描述這些樣本的組信息的元數據文件。
  • BIOM格式(至少包含丰度和分類信息):QIIME流程生成
  • Mothur輸出文件

今天演示的數據是來自網站提供的測試數據。大家可以在網站的上欄目的 Resources 裡下載。其中有些數據格式稍微修改了一下,後臺留言“57”,可獲得本次測試的數據。

用 MicrobiomeAnalyst 完勝 16S 分析

1. 製表符分隔的文本文件

可以是製表符(\t)分隔保存的(.txt)或逗號(,)分隔保存的(.csv)文件

用 MicrobiomeAnalyst 完勝 16S 分析

文件1:丰度表文件格式:

* 必選文件

第一行:“#NAME” + 樣品名字(同元數據文件的第一列),這就要求了行是OTU/ASV 等的 ID ,列是樣品。

丰度表文件可以包含微生物分類信息,即分類信息替代OTU ID 編號,同時要求確保用“;”分隔(例如, Bacteria; Firmicutes; Clostridia )。(具體格式見)如果是這種類型輸入形式,就得選擇旁邊的 “Taxonomy labels included”。

文件2:表型數據文件格式:

* 必選文件

第一列樣品ID,第二列開始是分組信息,可以多個分組信息,組名沒有要求,但表頭必須是“#NAME”。

製表符分隔txt 或者逗號分隔的csv 文件都可以。

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析

文件3:分類文件格式:

*如果丰度表不含有分類信息,則為必選文件。

第一列是特徵ID即OTU、ASV ID。第二列之後依次是“ Phylum”,“ Class”,“ Order”,“ Family”,“ Genus”和“ Species”。

表開頭必須是‘#TAXONOMY ’。

沒有註釋信息的分類層級用NA 表示;

OTU_47k__Bacteriap__Firmicutesc__Clostridiao__ClostridialesNANANA

unclassified字段直接空白表示。

OTU_25k__Bacteriap__Firmicutesc__Clostridiao__Clostridialesf__Lachnospiraceaeg__s__

* k__、p__、c__、o__、f__、g__、s__ 不含有也行。

文件4:樹文件:

*可選文件。

執行系統發育樹分析或基於UniFrac距離的分析,則需要使用任何常用算法生成的樹文件。

用 MicrobiomeAnalyst 完勝 16S 分析

2. BIOM格式

BIOM是生物數據處理的標準格式,BIOM格式詳細說明看http://biom-format.org/。

•QIIME和mothur可以輸出BIOM,文件中必須包含丰度和分類信息,或一併含有表型數據選擇“Metadata included”,反之,得單獨上傳。

用 MicrobiomeAnalyst 完勝 16S 分析

3. Mothur輸出文件

基本同 “製表符分隔的文本文件 ”,分類文件對應軟件taxonomy 輸出文件,丰度文件則是 *.shared 文件。表型數據文件可以單獨上傳。更具體信息可訪問 mothur主頁(https://mothur.org/wiki/Main_Page)。

用 MicrobiomeAnalyst 完勝 16S 分析


研究結果


01.項目統計

數據沒有報錯上傳之後,便出現項目統計界面。如果數據量比較大的話,需要一點上傳和統計時間(和網速也有很大關係)。

界面介紹如下:

用 MicrobiomeAnalyst 完勝 16S 分析

Text Summary : 樣品數、OTU 數等指標統計。

Library Size Overview: 每個樣品含有OTU 的統計(有圖,出圖需要時間,不要以為卡住了,即刷新頁面,會讓你一鍵回到解放前的)。這個結果可幫助識別由於採樣不足或測序錯誤。

該下載的下載,該保存的保存之後,點“Proceed” 進軍下一步。

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析


02.數據處理

1. 數據過濾

通常建議進行過濾以刪除低質量的特徵,從而改善下游統計分析。

2個過濾維度:“低計數過濾器Low count filter” 和“低差異過濾器Low variance filter”。如果都選擇 “0” 則表示不過濾。

  • “低計數過濾器Low count filter”

由於測序錯誤或低水平的汙染,read 數很少的OTU 很少有功能,可依據項目需求設置最低最小計數(默認為4)。接著可按照出現率或均值或中位數過濾。系統默認過濾條件是至少存在20%的樣品同時OTU包含至少4個reads。

用 MicrobiomeAnalyst 完勝 16S 分析

  • “低差異過濾器Low variance filter”

可用inter-quantile range(IQR),標準偏差或變異係數(CV)來測量其方差。默認是按照基於 IDQ 的10% 差異過濾。

用 MicrobiomeAnalyst 完勝 16S 分析

默認情況下,所有下游數據分析將基於過濾後的數據。也可以選擇使用原始的未經過濾的數據進行某些分析(如alpha多樣性)。

  • 編輯刪除樣品

如果通過統計圖表和稀疏曲線分析,發現有異常的樣品,可以在“Sample Editor” 中刪除樣品。

刪除的樣本將不再包括在下游分析(例如,α-,β-多樣性分析)中。

用 MicrobiomeAnalyst 完勝 16S 分析

處理好了之後,單擊頁面右下方的“Proceed”,導航至下一頁。

2. 數據標準化

數據標準化旨在解決數據採樣不均一,測序深度差異和出現稀疏性的問題,以實現更具生物學意義的比較。

在“數據標準化Data Normalization”頁面上,可以執行數據稀疏rarefying,縮放scaling和轉換transformation,三種數據處理。

當文庫大小差異很大時(> 10倍),建議將這個樣品剔除在進行後續分析。

數據稀疏主要用於16S數據,而宏基因組學數據則不推薦。

標準化數據16S 數據,你可以先稀疏後選擇縮放或轉換,縮放和轉換不能同時選擇,不然數據會失去有效性。

更具體的數據過濾和標準化見原文描述:

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析

選擇好了之後,單擊頁面右下方的“Proceed”,導航至“分析概述”頁面。

用 MicrobiomeAnalyst 完勝 16S 分析

分析點呈現的界面功能分區如下:

用 MicrobiomeAnalyst 完勝 16S 分析


03.視覺探索(Visual Exploration)

1. 稀釋曲線(Rarefaction curve)

稀釋曲線可觀察OTU數量(α多樣性),確定每個樣品的數據量是否足夠,深度是否夠。當測序深度未達到平臺期,可以考慮加測。當數據量和深度都不夠時可以考慮稀疏處理數據或者排除樣品。

用 MicrobiomeAnalyst 完勝 16S 分析

每一分析點處理完了,點擊導航欄的 “Analysis Overview” 回到“分析概述”頁面,點擊選擇下一個分析點。

2. 堆積條形圖/面積圖( Stacked bar/area plot)

目前常見的物種組成展示方式這裡都可以畫,包括:

各個水平(門到OTU);不僅堆積圖,還有面積圖,除了相對丰度還有絕對丰度;樣品,物種排序;是否合併樣品,合併物種,只畫top;修改色系;單獨畫指定樣品,通通都能實現。具體選項如下:

用 MicrobiomeAnalyst 完勝 16S 分析

3. 交互式餅圖(Interactive pie chart)

依舊是可以選擇不同分類水平,合併物種,展示top 物種,選擇子集。更好用的是,既然如此簡單地把感興趣的某個水平的物種更低分類水平的物種同樣展示出來,respect。

用 MicrobiomeAnalyst 完勝 16S 分析

4. 樹狀熱圖(Heat tree)

熱樹是分類級別的層次樹,樹枝顏色由丰度顏色表示。可以顯示了每個分類學層次上兩組的丰度比,可以比較每個因素的每對因素。

用 MicrobiomeAnalyst 完勝 16S 分析

5. 系統進化樹(Phylogenetic tree)

展示不同分類水平不同分組的物種系統進化樹

用 MicrobiomeAnalyst 完勝 16S 分析


04.群落概況(Community profiling

1. Alpha多樣性分析

Alpha 多樣性可以選擇原始數據集或者過濾的數據集分析,依舊可以選擇不同分析方案,不同物種水平,不同多樣性指數,不同色系,參數檢驗還是非參數檢驗。

左側是點圖,顯示了樣本之間的alpha多樣性度量,而右側是框圖,總結了各個組的alpha多樣性度量。

用 MicrobiomeAnalyst 完勝 16S 分析

原文對 Alpha 多樣性不同指數的選擇說明:

用 MicrobiomeAnalyst 完勝 16S 分析

2. Beta多樣性(Beta-diversity analysis)

點擊頁面頂部導航欄中的“分析概述Analysis Overview”鏈接。接下來,點擊“Beta Diversity analysis”。

beta 多樣性可以修改排序方法,距離計算方法,分類水平,差異檢驗方法,散點著色方法等。

至於排序方法,距離計算方法,差異檢驗方法可閱讀原文解釋,按項目需求,數據特徵選擇。

頁面底部的兩個選項卡分別顯示2D和3D PCoA圖。

用 MicrobiomeAnalyst 完勝 16S 分析

至於排序方法(PCoA、PCA、NMDS),距離計算方法(Bray-Curtis Index、Jensen-Shannon Divergence、Jaccard Index、Unweighted UniFrac Distance、Weighted UniFrac Distance),差異檢驗方法(Permutational MANOVA (PERMANOVA)、Analysis of Group Similarities (ANOSIM)、Homogeneity of Group Dispersions (PERMDISP))可閱讀原文解釋,按項目需求,數據特徵選擇。原文對 Beta 多樣性展示選擇說明:

用 MicrobiomeAnalyst 完勝 16S 分析

beta多樣性分析的交互式3D PCoA圖, 可以旋轉圖形或雙擊任何樣本,以在選定的分類學級別通過餅圖查看其微生物丰度信息。

用 MicrobiomeAnalyst 完勝 16S 分析

3. 核心物種分析(Core microbiome analysis)

根據樣品的流行度和相對丰度,幫助確定核心分類單元或在不同樣品組中組成保持不變的特徵。

用 MicrobiomeAnalyst 完勝 16S 分析


05.聚類關聯(Clustering & correlation)

1. 熱圖聚類(Heatmap clustering)

熱圖聚類可以直觀地觀察到哪些樣品物種丰度分佈比較相近。

熱圖聚類可以修改聚類算法,距離計算方法,分類水平,色系,XY軸修改等。

用 MicrobiomeAnalyst 完勝 16S 分析

2. 系統樹圖(Dendrogram analysis)

使用各種系統發生距離或非系統發生距離度量對樣本執行系統發生分析。距離算法同beta 多樣性。Unweighted 和 weighted unifrac distances需要上傳系統進化樹文件。

用 MicrobiomeAnalyst 完勝 16S 分析

3. 關聯網絡分析Correlation network (SparCC)

這個功能是分析物種之間網絡互作的,關聯網絡分析使用四種方法來計算分類特徵之間的成對相關:SparCC,Pearson相關,Spearman秩相關和Kendall tau相關。尤其是,SparCC旨在解決由於微生物組數據的組成特性引起的虛假相關性問題(算法選擇看原文對此的說明)。

這一步依舊可以選擇關聯算法,分組方案,分類水平,選擇計算數據子集,色系,過濾閾值等,網絡互作圖是交互的,可以任意拖拉點的位置,雙擊還能該物種在各組丰度的箱線圖。

用 MicrobiomeAnalyst 完勝 16S 分析

原文對關聯算法的說明:

用 MicrobiomeAnalyst 完勝 16S 分析

4. Pattern search

這個功能主要查看與感興趣物種關聯的物種的詳情。

延續上一部的關聯方法,這裡可以查看與感興趣物種關聯的物種之間相關係數,P值,FDR 等,結果表格裡還能直接點看物種組間丰度箱線圖,對於深入研究某些物種之間網絡互作可謂十分方便。

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析


06.比較與分類(Comparison & classification)

1. 經典單變量分析(Classical univariate analysis)

經典單變量分析功能提供t檢驗/ ANOVA及其非參數對等檢驗。依舊可按照分類水平,分組方案,差異檢驗方法和閾值。差異的以橙色突出顯示。結果表格中可以按Name、FDR等排序。點擊結果表“查看View”列下的“詳細信息Details”鏈接彈出選定特徵在不同組中的丰度的箱形圖。

用 MicrobiomeAnalyst 完勝 16S 分析

2. metagenomeSeq

這個差異檢驗功能是專門針對稀疏高通量測序的數據,檢驗兩組或多組之間多樣本物種丰度差異比較,解決數據標準化或採樣不足對分組關聯差異特徵的檢驗的影響。統計模型有:zero-inflated Gaussian fit、fitFeatureModel(只適用2組)。頁面功能同“Classical univariate analysis”。

用 MicrobiomeAnalyst 完勝 16S 分析

3. RNA-seq methods

這個功能是將運用於RNA-seq差異檢驗的edgeR、DESeq2算法運用於經過適當的數據過濾和歸一化的宏基因組數據。這2種方法比現有的針對宏基因設計的算法表現相同甚至更優的性能。與edgeR相比,DESeq2是一種更為保守的算法。頁面功能同“Classical univariate analysis”。

用 MicrobiomeAnalyst 完勝 16S 分析

4. LEfSe

具有線性判別分析效果大小(LEfSe)發現各組特異的生物標誌物。頁面功能同“Classical univariate analysis”。差異過濾可以用原始P 值,或者校正的FDR(q 值)。展示圖可以是點圖或條形圖。

用 MicrobiomeAnalyst 完勝 16S 分析

用 MicrobiomeAnalyst 完勝 16S 分析

5. Random Forest

隨機森林(RF)算法是一種功能強大的機器學習方法,可以應用於微生物組數據以對重要特徵進行分類和選擇,即建立一個疾病區分的分類器。這一步可得指定分類水平,分組方案下的模型預測錯誤率和重要特徵分佈。當然OOB 錯誤率越低越好。

點擊“重要功能Important Features”標籤以查看圖形結果。該圖的佈局與LEfSe圖的佈局相同(步驟26和27),不同之處在於按特徵的平均下降精度(Mean Decrease Accuracy)對特徵進行排名。

用 MicrobiomeAnalyst 完勝 16S 分析


07.功能預測(Functional prediction)

1. PICRUSt (Greengenes)

PICRUSt 功能預測,PICRUSt是第一個普及從16S rRNA數據推斷微生物組功能的方法的工具。它利用了系統發育相關生物更有可能具有相似基因含量的思路。從16S rRNA數據中,PICRUSt算法搜索具有註釋基因組的最密切相關的生物,並假設其功能信息也存在於該數據中PICRUSt是針對Greengenes(2012年5月18日版本)註釋的數據,所以要求上傳的OTU 必須是Greengenes 數據庫註釋的,不然這一步無法做。測試用的是biom 格式,至於txt 格式尚且未測試。

用 MicrobiomeAnalyst 完勝 16S 分析

2. Tax4Fun (SILVA)

Tax4Fun是一個R程序包,它結合了來自KEGG原核生物的預計算的功能配置文件和標準化的分類學丰度。

用 MicrobiomeAnalyst 完勝 16S 分析

要使用Tax4Fun,輸入文件必須是SILVAngs網頁註釋結果或QIIME 參考 SILVA 數據庫獲得的結果。可行的文件格式如下:

用 MicrobiomeAnalyst 完勝 16S 分析

這裡只能功能預測,獲得KO 丰度,其實PICRUSt也能獲得COG的丰度,但是未提供。下載KO 丰度表將進入Shotgun Data Profiling (SDP) 模塊做差異基因和代謝通路的分析。這一part 下回見。


使用報告


除了下機數據到 OTU 這一步數據處理之外,目前常見的 16S 分析內容這個網站都囊括,邏輯清晰,好的數據結果基本可以出一篇SCI了,文中作者立的 flag 沒有倒。就個人使用體驗,瞎BB 了一個評分。

分析點解釋說明:★★★★★

要點突出,引用文獻沒少,方便理解和後續寫作引用。

分析點參數設置:★★★★☆

日常分析常要修改的分析變量基本都有,少的一顆星星是不能太完美。

圖形參數修改:★★★☆☆

圖形修改主要是色系修改上,在更多細節修改上,例如XY軸,標籤,分辨率,導出文件格式上都沒有更具體地選擇。

圖形顏值:★★★☆☆

由於上一條提到的細節沒有參數,導致沒法出更多個性化的圖片,但是這個網站出的圖,顏值還行吧,但是要發表高分SCI 還需要人工美顏美顏。

網頁友好度:★★★☆☆

整體來說,這個網頁設計已經不錯了,但是缺乏用戶個人中心,所以每次上傳分析的結果都是一次性的,沒法保存。

重點:網頁打開太久會掉線,再次進入就無法正常運行了,小編只好把整個瀏覽器重啟才恢復(我已經重啟不下10遍才把整個流程走一遍,尤其點得越多,掉越頻繁)。

友情提醒:

每一步出結果之後

先保存,再研究!

先保存,再研究!

先保存,再研究!


撰稿 | 三明治 責編 | NSC

本文系菌探Momics(ID:Momics)原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源菌探Momics

用 MicrobiomeAnalyst 完勝 16S 分析


分享到:


相關文章: