[討論] YT民調資料查詢工具-加入電訪資料

作者: Tpintrts (Tt.梅梗)   2023-09-26 00:19:43
https://www.aweb.tpin.idv.tw/president2024/
這個是先前提過可以查詢YT街訪民調的工具,
你可以透過篩選條件來查詢影片和統計資料。
原本做這個工具主要是想研究YT影片為何做出來的結果與電訪民調的差異那麼大,
第一個想到的當然就是抽樣問題,但隨著研究他們的樣本分佈,我漸漸覺得,
會不會其實街訪和電訪根本是調查著兩個特徵完全不同的族群呢?
而這個特徵(我不知道是何種特徵)正好與是否為柯文哲的支持者正相關,
因為另外兩位候選人在街訪與電訪的結果並沒有像柯文哲那樣大的差異,
正因為如此,過去電訪可以一定程度的「代表」全台,但這次可能不行了。
基於這個假設,不得不設法加入電訪民調的內容,
正好TVBS的民調提供的公開資料中,有足夠的資訊可以反推年齡層的樣本數。
同時TVBS的民調資料,也會成為街訪民調的「對照組」,
讓我們看看街訪民調的取樣分佈比起電訪民調的取樣分佈,
是不是真的糟到不堪使用的地步。
以下TVBS的報告用以下這個為例:
https://reurl.cc/Oj4oYA
我們就以版上對關注度最高似乎也比較「有系統和計劃的」在做民調的木炭為例吧。
這是木炭目前影片的年齡分佈,
請把60~69歲及70歲以上合計為30.2%,我國合計為30.5%,
其他年齡層的樣本分佈也大致與國家分佈相同。
https://i.imgur.com/03QyJjc.png
這是TVBS的年齡層分佈,基本上與國家分佈也沒有差很多,
60~69歲那組請視為60歲以上,因為報告中是採用這個刻度。
https://i.imgur.com/vkMFpjm.png
這裡我們可以知道,木炭的年齡隨機性並沒有比TVBS的電訪民調差,
分佈上大致符合國人情況。
至於地區取樣,木炭是各縣市做100票,
這部份雖然地區分佈平均(人口分佈問題後面談),
但會被質疑「抽樣太少」的問題,
這部份就要談到「信賴水準」和「抽樣誤差」
我們常常會看到傳統民調中的這段話
「95%信心水準下,抽樣誤差為±XX 個百分點以內」,
這東西是怎麼算出來的呢?
可以參考這個網頁工具,裡面也有公式介紹:
https://zh.surveymonkey.com/mp/margin-of-error-calculator/
單縣市只抽100人的話,以雲林縣為例,出來的結果會是:
https://i.imgur.com/fZEiLf5.png
560853為雲林縣人口,所以單抽一百人的話會是
「95%信心水準下,抽樣誤差為±5 個百分點以內」
通常民調公司都會壓在±2.5,所以就單縣市來說,這個樣本太少沒有錯。
但TVBS總共只抽千餘位,平均一個縣市差不多50人,單縣市就不會樣本太少嗎?
所以他們分層不是單縣市。
https://i.imgur.com/WDCNmvo.png
我原本是這樣以為的,但當我計算樣本時發現也不對,
這個例子裡有效樣本數為1273位,15%為191位,雲嘉南總投票人口為2769467,
放進公式算:
https://i.imgur.com/yucGzws.png
TVBS誤差範圍是±3.5%,
反而木炭做300人,誤差範圍是±3%,
所以到頭來那個「95%信心水準下,抽樣誤差為±2.7 個百分點以內」
是以總樣本數對應總投票人口算出來的,所以如果木炭真的22縣市做完,共計2200人,
他們算出來會是:
https://i.imgur.com/Qt8m9mE.png
「95%信心水準下,抽樣誤差為±1 個百分點以內」
這裡要說的並不是木炭的抽樣誤差有多小,而是這東西反正你就套公式進去算,
就像分層用雲嘉南,如果他雲林訪了150個,嘉南訪41個,合計也是191人,15%,
TVBS報告裡面你也看不出來。
所以就這部份來說,木炭的街訪的樣本也沒有比較差。
再來是加權問題,
同樣抽100人,連江縣的100人和台北市的100人,
如果要推估全台灣的投票人口母群體,就不能把它們各視為「100票」,
因為台北市的投票人口是連江的173倍左右,推估全台支持度的話,
都算成一票是有問題的,
因此如果木炭他們把不同縣市的票數未經加權就合計,然後做比較,
這樣是不行的,但他們也沒有那麼做。
講到這裡,我們至少可以知道木炭街訪的樣本品質沒有差到不堪使用,
至少在地區和年齡的處理上,並沒有比民調公司的差太多。
所以,我們應該可以運用這些樣本來做處理。
那麼接下來的問題就是,假設市話手機民調與街訪其實是三個族群,
那他們的比例應該是多少,
根據這份關於市話使用情況的報告
https://reurl.cc/V41oq5
這份報告詳盡的介紹了研究方法,也提供了原始樣本,
可信度應該很高,
從中我們可以知道有51%左右的人已經完全不使用市話,
剩下的市話用戶裡還有約27%左右為企業用戶,也就是說,
還在使用市話的個人用戶可能只剩全部人口的33%,
我們可以認為這33%就是市話民調的「母群體」,
那剩下的67%人口,是市話民調調查不到的人,
調查不到就是調查不到,再怎麼加權也沒有意義,
那我們假設手機調查的群體也和市話一樣33%,剩下的就是街訪了。
這是我的比重推測,當然這部份也是大家爭議最多的地方,
雖然我預設電訪佔65%,但網頁中這部份大家可以自由設定,你也可以設定100%。
接下來要談的圖表,都是以木炭有年齡資料的影片和TVBS的民調的調查,
電訪比重:65%、電訪平均投票率:75%
https://i.imgur.com/D52Kzei.png
我們可以看到在原始樣本無加權的情況下
賴37.2%、侯27.2%、柯35.78%
https://i.imgur.com/xteUnYq.png
我們對縣市口加權,但假設投票率為100%時
只有街訪的話是
賴35.32%、侯19.02%、柯45.65%
街訪併電訪
賴35.32%、侯19.02%、柯45.65%
https://i.imgur.com/phE9sBy.png
這裡對縣市人口加權的方法,舉例來說:
候選人共獲得該次100票中的50票,調查的縣市為連江縣,其總人口數為12118,則此候選
人在此次調查中會被加權為6059票。
併電訪時,則是依照上面的方式得到票數後,再乘上權重。
接下來我們把年齡層的投票率考慮進去:
網頁中提供了以2020年齡投票率為基礎的高投票率
還有以2016年齡投票率為基礎的低投票率,這裡就只講2020的為例
只有街訪的話是
賴35.95%、侯19.58%、柯44.47%
街訪併電訪
賴37.05%、侯25.69%、柯37.26%
https://i.imgur.com/etg8tdZ.png
計算方式為舉例來說:
候選人在20-29歲年齡層共獲得該次100票中的20票,而2020年總統大選20-29歲的投票率
約71%,連江縣總人口為12118,則投票率100%時該候選人可以獲得20-29歲約2424票,但
投票率此時假設為71%,因此加權後計為1720票。
電訪的情況下,因為沒有辦法得知單一縣市的年齡層分佈情況,所以要人口併年齡加權有
困難,所以其投票率設定為75%,此為2020年總統大選的平均投票率。
這裡可能有人認為,報告中特別強調只調查「有投票意願」者,這裡怎麼還要有投票率,
這是因為人只加權的情況,即使只記載「有投票意願」者,人口總數中仍然會有「無投票
意願」者,他們沒有在報告中被記載,但人口加權時還是要先排除掉這些人。
每種加權方式的重要假設都寫在表中,其統計結果會有多少參考性就自行評估了
https://i.imgur.com/Kp264nF.png
到這裡說明完樣本加權的方法與結果,有興趣的人也可以試試別種篩選條件。
我認為,街訪就是比較容易做出柯文哲領先是不爭的事實,
而市話使用人口剩下約33%也是有根據的,
與其一直說其中一邊不準是假的,
或許應該考慮怎麼做才能獲得一點真實性。
美麗島民調執著在市話民調是一件很奇怪的事,
確實市話有著能準確知道對方地點的好處,
問題用的人就是變少了,我不免覺得是因為花大錢系統建在那邊了,
如今要改也是累,就繼續用吧的感覺。
街訪民調也有其限制和缺陷,但直接說成沒有用,也是不太合理,
畢竟實地訪問是很常見統計調查方式,難道那些研究收集的樣本都沒用嗎?
另外,用選舉結果衡量民調準不準是不公平的,
你現在調查我,我說我要投A,因為我很討厭C,
結果後來看一看B好像比較會上,為了幹掉C我就投了B
我能說你的調查「不準」嗎?在那個當下還是準的吧?
既然有「棄保」這種東西,民調註定會和選舉結果有落差,
只能求當下是貼近現實的,
讓民眾能有效決定投票策略,候選人能準確知道努力方向,
所以追求「真實」的民調還是很重要,
那我們就需要知道民調的細節,才能考慮他可能哪些地方會與現實有落差。
最後提一個人口加權重要性的例子,
剛好「五星司機艾倫」目前做出來的結果是個好例子
他所有影片只做了新北市和台北市,沒有年齡資料,
在沒有縣市人口加權的情況下是:
賴40.35%、侯16.99%、柯42.66%
https://i.imgur.com/3y7SSIi.png
不過人口加權後就驚人的逆轉了:
賴45.15%、侯23.86%、柯30.99%
https://i.imgur.com/undefined.png
這是為什麼呢?加權方式有問題?作弊?
其實不是,我們觀察他台北市和新北市的訪查的樣本數
https://i.imgur.com/uRUGevO.png
https://i.imgur.com/EP9W0C1.png
會發現賴清德在新北壓勝,柯文哲則在台北大勝,
但台北投票人口為209萬,新北則為340萬,
較多的樣本數並不會影響人口總數和得票比例,
人口加權之後,反而賴在新北的樣本就變大很多,於是結果就不同了。
至於他兩個縣市的調查分佈可能有點問題,這裡就略過不談了。
其實不管街訪多麼不嚴謹,他們都至少讓另一種聲音能被注意到,
也讓民調公司有一些壓力,讓人們開始會想探討樣本與統計方法,
而不是只是一直談立場,講「機構效應」之類的東西。
另外,有些人喜歡用YT出片時,影片結果是誰領先來講對方風向變了或是別有用心,
這裡統計了各YT頻道各候選人領先時的影片數,相信對測風向有點幫助,
https://i.imgur.com/iu3q6da.png
我們可以發現桃園孫先生每個候選人領先的影片數都差不多,
賴領先的影片還相對較多,
但我想並不會有太多人(包括他自己)覺得他支持民進黨吧?

Links booklink

Contact Us: admin [ a t ] ucptt.com