在VIF分析過程中,需要基於RDA/CCA進行相關分析,RDA/CCA模型的選擇原則與RDA/CCA分析相同。
RDA分析,即冗余分析,是壹種受環境因素約束的PCA分析,可以將樣本和環境因素反映在同壹個二維排序圖上,從中可以直觀地看出樣本分布和環境因素之間的關系。CCA分析是壹種基於對應分析的排序方法,將對應分析與多元回歸分析相結合,每壹步計算都用環境因素進行回歸,也稱為多元直接梯度分析。這種分析主要用於反映植物區系與環境因素的關系。RDA基於線性模型,CCA基於單峰模型。分析可以檢測環境因素、樣品和菌群之間的關系或它們之間的關系。
RDA分析是壹種綁定對應分析方法,常用歐氏距離進行分析。但是,歐氏距離不適用於某些數據類型。db-RDA分析可以解決數據類型的限制,用於分析物種與環境因子的關系。
Db-RDA(基於距離的冗余分析)是壹個五步分析過程:
Mantel檢驗是檢驗兩個矩陣之間相關性的非參數統計方法。Mantel檢驗主要用於檢查相關性(Spearman等級相關系數等。)生態學中的群落距離矩陣(如UniFrac距離矩陣)和環境變量距離矩陣(如pH、溫度或地理位置差異矩陣)之間。在控制矩陣C的作用下,部分Mantel檢驗用於檢驗矩陣A的殘差變異是否與矩陣B相關..分析輸入兩個數值矩陣,第三個控制矩陣可以通過選擇因子來確定。
軟件:Qiime
相關熱圖分析通過計算相關系數(Spearman等級相關系數,Pearson相關系數等。)在環境因子和所選物種之間,得到的數值矩陣通過熱圖直觀顯示。顏色的變化反映了二維矩陣或表格中的數據信息,色深表示數據值的大小,用定義的色深可以直觀地表示數據值的大小。
軟件:R(pheatmap包)。
線性回歸是運用數理統計中的回歸分析來確定壹個或多個自變量與因變量之間關系的統計分析方法。環境因素的有序回歸分析,通常以α多樣性或β多樣性分析結果為基礎,以每個樣本對應的α多樣性指數或β多樣性分析結果在PC1軸上的得分為Y軸,以環境因素(如pH、溫度等。)對應樣本為X軸做散點圖,並做線性回歸和標記R2,可以用來評價它們之間的關系。其中R2是決定系數,代表由回歸線解釋的變異比例。
VPA的方差分解分析(Variance Partitioning Analysis)可用於定量評價兩組或多組(2~4組)環境因子變量對響應變量(如微生物群落差異)的個體解釋程度和共同解釋程度,常與RDA/CCA結合使用。
分析軟件:R語言的vegan包中的vpa分析。
Maaslin(多元線性模型關聯)分析是壹種通過線性模型探索環境因素(如臨床數據標記)與微生物群落相對豐度(數據)之間相關性的分析方法。結果表明,壹個環境因子對應於壹個物種或功能的相對多度,而與其他環境因子無關。環境因素可以是連續數據(如年齡和體重),布爾數據(性別),或離散/因素數據(隊列分組和表型)。數據所代表的物種相對多度或功能相對多度百分比壹般不符合正態分布,所以在分析過程中,數據要用反正弦的平方根進行標準化,環境因子可以通過boosting算法得到與數據相關的潛在環境因子。在構建多元線性模型之前,需要對環境因素和數據進行質量檢驗,剔除壹些異常值和壹些低豐度或無差異的值。最後,以環境因素為預測值,數據為響應量,構建多元線性模型,計算相應的相關系數,並對相關性進行顯著性檢驗。當相關系數大於0時,表示正相關;如果小於0,表示負相關。當對應的顯著性檢驗值P和Q達到閾值時,不連續數據會繪制壹個箱線圖,連續數據會繪制壹個線性擬合度最高的散點圖。
Procrustes分析是壹種用於分析形狀分布的方法。數學上講就是通過叠代求正則形狀,用最小二乘法求每個樣本形狀對這個正則形狀的仿射變化模式。普氏分析可以基於不同多元數據集(≥2組)的排序配置,通過平移、旋轉、縮放等轉換方式實現最大疊加,可用於不同數據集的對比分析。排序方法可以是PCA、PCoA等。