※ 引述《gsuper (Logit(odds))》之銘言:
:
: 每片樣本 , 是一個棲地微生物的菌相組成 , 內部含有約 200~1000 種細菌
: proportional data 總和為 1 (可想像每片樣本是一圓餅圖)
:
: distance matrix 方面 ,
: 因為歐氏距離等方法不太合理 , 採用演化距離 (UniFrac distance)
:
: 首先先以各個細菌的 16s rRNA 序列資料庫作為依據 (約 10000 種序列)
: node 為細菌 , edge 為 16s rRNA sequence pairwise alignment 的 score
: 依照上述資料建了一棵演化樹
:
: 依賴這棵演化樹 , 一次 input 兩片樣本
: 計算 weighted UniFrac distance (tree-based & abundance-based)
:
: 概念上是
: sum of occuped edge length and adjusted by abundance of bacteria
你做的工作已經超出我的能力,不過我想我還是可以提供一些想法。
不過這和 R 本身沒什麼關係了。
1. 假如你已經建好一個距離矩陣,那我想有好幾個多變量的方法可以解。
例如 dbRDA 可以有一個以上的自變數來解釋該矩陣,
或是更傳統的多變量方法來檢視不同樣點的差異性。
前題是,這個矩陣與套用的分析可以正確地解決你的問題。
2. 既然你也建了親緣樹,那可能可以考慮比較方法中的分析方法。
或許你目前的做法正是如此,但我不懂該課題所以不能說更多。
不過我不了解一件事,就是你的每個抽出樣本都有一堆序列,
那你的親緣樹是怎麼跑出來的?樹的每一枝是一種菌還是一個樣點?
所以枝與枝的距離是什麼意義?我目前還不了解。
3. 是不是可以將你目前的工作可以描述成
「棲地條件(如溫度)如何影響細菌群落相」,同意嗎?
是的話,我想分析上的概念和大多數群落生態學的分析方法大同小異。
不同之處只是材料上(物種、功能群或遺傳序列)的不同而採用適當的方法或模型。
或許你可以從這個角度來找解決辦法。
在這個角度中,最常見的例子就是「不同種類棲地的某類生物相是否不同」,
或是「棲地的某些特定條件如何影響某類生物相」。
只不過你的材料是細菌還外加親緣樹,我沒學過,不能給你更多建議了。