心理研究法的兩條路線,anova與迴歸分析,如果都熟悉計算方式,最後可以了解到
anova = 迴歸的一種特例的話,我相信你統計絕對夠強了。
先提到很多統計老師的教法順序錯誤。許多所謂的「名師」在教完描述統計之後就教相關
、簡單迴歸甚至多元迴歸。描述統計教相關是非常恰當,但教簡單迴歸則開始有點不智,
接著教多元迴歸就更不智!簡單迴歸與多元迴歸應該是要在anova系列教完之後再教,否
則的話簡單迴歸要對b做t檢定,多元回歸模式要對迴歸變異做F檢定,而當t與f檢定都不
懂的時候,何來懂得簡單與多元迴歸?
anova跟迴歸可以算是概念一致的東西,在統計的角度上anova算是迴歸的一種特例,迴歸
的xy變項適合各種變項,常見的是 x連續vs y連續。而anova則是x類別 vs y連續。他們
都可以用一般線性模式的表達 Y = bX + e。試想有三組數分別為 2 4 6 ,6 8 10,10
12 14,請你用anova計算F值,你的計算方法是會算出組內誤差與組間的變異。若請你以
迴歸的角度來計算此三平均數有無差異的話,你首先要找出y^,y-y^則屬誤差,y^-y平均
數則屬預測可解釋的變異。y-y^即同等於anova中的組內誤差,而y^-y平均數即相等於
anova中的組間變異,所以你最後算出來reg變異/誤差變異的F值與ANOVA相等。
一般線性模型,即每一個原始的y值可以由x與係數b的預測bx加上一個誤差e來代表即 Y
= bX + e,的矩陣表達方式的重點就是在x的coding的部分。coding的方法,可分為cell
means model, Regression model, effect model, dummy coding model。不同的coding
模式主要是根據x變項而調整,若x為一般的連續變項則採用regression model,若x為類
別變項則可採用effect或是dummy coding model。
而迴歸可更勝於anova的部分就是類別變項本身的間距是無法了解的,而連續變項的迴歸
模式的x的間距則是可以清楚地了解,這會影響到y的趨勢分析,愈清楚地了解x的間距,
愈可以了解y的變化是屬一次或二次、三次趨勢,而此是無法由類別變項來了解。這點又
回到一開始我在描述統計所提到的重點,你使用的變項就決定你最後統計的精確度。愈是
比率變項你會估計的更清楚,而愈是類別變項則較為模糊一點。