來源:https://www.thenewslens.com/article/178461
電話、網路民調的數字可信嗎?年輕族群比例過低時,加權數據會帶來什麼問題?
我們想讓你知道的是
每到選舉年,民調數字幾乎每週都會出現。媒體報導的焦點,往往是哪位候選人領先、哪
位候選人落後。畢竟這種賽馬式的民調數字,最容易引起民眾的關注。然而這些數字起伏
之間,其實潛藏著諸多「貓膩」...
文:俞振華(政治大學選舉研究中心研究員、政治學系教授)
Take Home Message
科學性的民調必須具備信、效度高的問卷題組、標準化的調查方式、代表性的樣本,以及
嚴謹的資料分析。
市話調查的樣本具涵蓋率的問題,但在成本考量下能改善的空間相當有限,而網路調查也
有自願性樣本造成的偏誤。
民調的結果勢必存在各項偏誤,唯有理解民調的各項限制,才能更全面地解讀數字背後呈
現的民意。
每到選舉年,民調數字幾乎每週都會出現。媒體報導的焦點,往往是哪位候選人領先、哪
位候選人落後。畢竟這種賽馬式的民調數字,最容易引起民眾的關注。不過,這些數字起
伏之間卻潛藏著諸多「貓膩」,我們應該要對不同的民調方法有初步的了解,才能正確地
解讀民調數字真正代表的意義。
民意調查能誠實呈現調查數據嗎?
透過問卷調查的方式搜集資料,是社會科學研究最常使用的研究方法之一。現代的民意調
查藉由設計好的問卷題組,依既定的調查方式詢問具代表性的樣本,進而以受訪樣本的回
答推論出母體的態度或行為。換句話說,一個科學性的民意調查研究,必須具備:
信、效度高的問卷題組(註1)
標準化的調查方式
代表性的樣本
嚴謹的資料分析
上述項要素缺一不可,也是我們用以檢視各項民調數據良窳的重要基準。
以一般選前的民調來說,我們在解讀數據前應該注意:問卷題組是否可以探知民眾真正的
投票意願及支持傾向?不論採何種調查方式,是否依照既定的標準程序?是不是每一位選
民(20歲以上的民眾)被抽到成為受訪者的機率都相等?以及在資料處理、分析的過程當
中,是否採用適當的統計方法,誠實地呈現調查數據?本文主旨是盤點各種選舉民調方式
的差異,主要聚焦在調查方式與樣本代表性這兩項要素。
電話民調的潛藏問題
目前我們最常看到的民調方式就屬電話民調了。近年來,由於「唯手機族」(即只使用手
機而不使用市話)的人口快速增加(約已超過30%),尤其是年輕、都會族群幾乎都以手
機為主要通訊工具,因此許多電話調查都已加入手機樣本,藉以增加年輕族群的涵蓋率,
所以在一波調查當中會同時包括市話及手機的樣本。
但這種結合市話與手機樣本的調查方式,在今(2022)年地方選舉的調查中卻不常見。主
要是因為手機調查沒有區域號碼,無法得知受訪者究竟位於哪個地區,必須要多增加一個
題目來過濾,例如訪問一開始就問:「請問您的戶籍是否在台北市?」由於這樣的過濾方
式大幅增加訪問成本,因此並不常見。導致目前針對地方選舉的電話調查,仍以傳統的市
話調查為主,無法涵蓋唯手機族。
只用市話調查最還存在一個顯著的問題 年輕受訪者的比例過低。以台北市為例,20~29
歲的民眾約占全體市民的12~13%。但一般市話調查在沒有加權的情況下,樣本當中20~
29歲受訪者的比例如果有6~7%就不錯了。在此情況下我們能透過加權讓樣本的分布比例
和母體相當,等於是將每個年輕受訪者意見當成兩個來用(即權重約為2)。
雖然事後加權已是調查實務界普遍的作法,但這是奠基於一個很強的假設:受訪者的態度
與未接受訪問的態度並沒有顯著的不同。如果接受市話調查的年輕族群與其他年輕族群(
例如唯手機族)在態度上有很大的不同時,加權兩倍等於讓樣本的偏差更大(註1)。
此外,由於市話調查中的年輕樣本數太少,我們在解讀年輕選民的態度時須更注意,畢竟
若存在少數幾個極端的樣本,加總起來後就有可能讓整群年輕選民的態度產生相當大的偏
誤,加權後甚至影響全體民眾的估計,不可不察。
另外,市話調查的抽樣單位是「戶」,並不是「個人」。在成本考量下,目前坊間已很少
有調查會進行戶中抽樣,多半採任意成人法,即接聽電話者就是年輕族群比例過低時,加
權數據會帶來什麼問題? 受訪者,而不再從家戶中再抽出特定個人來回答問題。
這等於假定每戶中所有人接電話的機率是一樣的,但顯然這樣的假定在人人有手機的情況
下更不切實際。畢竟許多人(特別是年輕族群)就算家中有市話,也是以手機為主要對外
聯繫工具,幾乎不會接起家中市話。因此,市話調查的涵蓋率不足,已是目前調查界共同
的隱憂,但在成本的考量下,能夠改善的空間相當有限。就算加入手機調查來解決市話調
查涵蓋率的問題,也有很多限制與作法上的差異。
目前還有一種常見的「雙底冊調查」,往往是市話、 手機各打一半的樣本數,加總起來
後再加權。然而,這樣的作法其實並沒有理論依據。試想,有大約六成的民眾同時有手機
及市話,他們被抽到的機率和只有市話或只有手機的民眾是不一樣的。再加上手機使用者
和市話使用者接聽電話的機率,又與諸多人口變數(包括性別、年齡、教育程度)相關。
所以,兩種樣本間存在的諸多差異,都使得雙底冊調查的事後加權方式更加複雜。
目前不論是學界或是實務界,仍未找到「最佳」或是「標準」的樣本合併模式來解決上述
問題,只是在不同的理論假定及成本考量下,因地制宜找出相對「較佳」的樣本配置模式
。
Photo Credit: 科學月刊
年輕族群比例過低時,加權數據會帶來什麼問題?
舉例來說,假設某調查單位經過隨機抽樣程序,透過電話調查訪問了1000位受訪者後再依
年齡加權, 結果如表一。
加權前,有57%的民眾對於某個政策表示贊成,43%的民眾表示反對。但其中問題顯而易
見:60歲以上受訪者的比例多達40%,
年長者又多持贊成態度,20~39歲年輕族群的態度則被低估,因為樣本比例僅為母體的一
半。透過加權重新調整分布比例後,
20~29歲及30~39歲不贊成者分別從5%、6%增為10%、12%,加總後有51%的民眾表示
不贊成這項政策。加權前後雙方從快六成的民眾贊成轉變為正反各半的兩極分布。此外,
假設這次接受電話訪問的是少數年輕受訪者,對於該政策多抱持不贊成態度(表二),則
加權後造成的偏差顯然會更大:即20~39歲年輕族群在表一中不贊成的比例有22%,表二
加權後增至30%