Re: 20240202 嗯

作者: htx9 (螞蟻)   2024-02-02 21:01:00
※ 引述《htx9 (螞蟻)》之銘言:
: 再回到大數據的議題上,網路行為提供許多大數據,例如Google搜尋、廣告效益、FB或
: Youtube的訂閱人數、觀看數、按讚數、分享次數,各大論壇的熱門趨勢和熱門搜索,還有
: 傳統調查或紙本資料的數據化、不同國家或團體的資料共享、聊天機器人的數據蒐集等等
: ,每天這世界上有如此龐大的數據產生,多虧資訊科技的發達、人手一台手機或電腦,以
: 及網際網路的全球化,讓資訊得以快速地傳遞與分享。(謎: 不是人手一台手機或電腦。)
: 這些龐大的數據集,裡面可能有許多值得參考和分析的資訊,但是也有很多垃圾訊息。因
: 此在探討大數據的研究上,我們希望能夠從龐大的數據中找到有用的資訊,進而幫助我們
: 解決問題,或者改善我們的生活。這是我們研究大數據的主要目的。
那我們要怎麼從龐大的數據中找到有用的資訊,我不知道,因為我不是這領域的專家。我
可能也只會像一般人那樣,直接運用其他人研究的成果,或者詢問專家的意見(或者詢問
ChatGPT?)。研究大數據是一項龐大的過程,一般人可能沒那種時間去研究那些,所以想
知道什麼就直接找答案就好了,就算找不到答案也可以找到一個自己能夠接受的解釋(或
者找到一半懶就不找了,尤其是那些沒有答案或者不重要的問題。) 我們只要學會如何用
查詢的知識解決問題就好,在這個講求效率的時代,直接去尋找怎麼做,比起去詢問為什
麼要那麼做還要來得有價值。我們不用去瞭解大數據間錯縱複雜的關係,只要告訴我們什
麼跟什麼之間有關係就好了,就算暫時無法證明是不是有因果關係也沒關係。不過有時候
有關係是因為各種複雜的因素巧合導致,所以也不必去迷信任何研究或搜尋結果。比較合
適的方式就是去參考多方的意見,然後自己再進行判斷的動作。尤其是那些重大議題,像
是要不要做手術或做化療。因為有時候專家會誤判,或者其他人有更好的處理方式,所以
只徵求第一意見可能會面臨更大的風險。不過如果是一些比較不重要的問題,或者很明顯
只能如此做的問題,那可能不一定要參考多方的意見,有時候意見太多會讓人感到困惑,
進而錯失處理的黃金時間。
作者說明大數據提供的四種力量:
(1) 提新類型的數據,而不是傳統調查數據集。
(2) 提供誠實的數據。
(3) 允許我們把焦點放在人口中的小子集。
(4) 允許我們進行許多因果關係的實驗。
大數據提供許多我們傳統調查可能難以發現的數據,我們可以透過交互分析來找出某項因
素之間的相關性,不過我們也要注意有相關性不見得就有因果關係,而且有時候這些相關
性是因為巧合所導致的。也許我們可以透過大數據找到更多社會現象的相關性或因素,進
而做更準確的預測和應對措施。
有關誠實的數據,雖然比起人與人面對面,網路行為可能提供較誠實的數據,不過像FB、
推特或其它社群網路,可能大家比較想提供自己較好的一面出來,所以不見得就是誠實的
數據。誠實的數據應當是在自以為沒人知道的地方所從事的各種行為,像是一個人在私底
下會暴露出什麼本性一樣。不過有時候就算以為沒人知道,其實可能還是會有人知道,像
是搜尋引擎企業員工可能無聊會去搜尋使用者在搜尋什麼,一些隱匿看板的社群管理員可
能吃飽沒事幹會看一下這些人在私底下發表什麼言論。
第三點就是可以從不同角度來看待大數據,可能會依照地區、職業、種族、年齡層來分類
,也可能透過將時間切分成不同維度(如每分、每小時、每天、每月等)。不管從宏觀的角
度或者微觀的角度來看待數據,重要的是我們能夠從大數據中找到什麼有用的資訊?
因果關係的實驗就是隨機對照實驗,或稱A/B實驗。在網際網路時代,我們可以用較低成
本、較快速度、較廣範圍參與者的方式來進行許多實驗。這是以往傳統實驗難以做到的,
尤其是像網路行銷或服務的公司,可以透過A/B實驗來找到效益更高的方案,有時候這些
方案違反直覺,反正結果好就好,不一定要去知道它背後的原因為何。網路的A/B實驗,
就是類似推出某些新功能或更改外觀時,某些使用者會看到其中一種功能或外觀,某些使
用者會看到另一種。然後根據實驗的統計結果,來看看哪種方案可以收到更大的利益,或
者讓使用者更常使用這些服務。當然這些實驗看起來無傷大雅,但有時某些方案卻能夠造
成更大的迴響,為什麼可能沒人知道,反正結果好就好。
當然,不是什麼東西都能進行這樣的實驗,尤其是那些牽涉重大或者會引起道德爭議的議
題。如果政府推行什麼政策採用這樣的實驗,可能會引起許多反彈。不過這樣的實驗好像
在外國有很多? 不曉得國內情況如何? 不是指在哪些縣市試辦然後看看效果如何,好的話
再推行到其它的縣市。而是在某些地方採用這樣做,某些地方採用那樣做,然後看看哪一
種做法比較好。數據會說話,接下來就將比較好的方案推廣到其它地方。不過就算能夠測
出哪個方案比較好,也不見得在其它地方採用這樣的方案也會比較好。每個地方的情況都
不太一樣,國外某些成功的方案不見得能夠適用在臺灣身上,反之亦然。當然如果很多地
方採用相同或類似的方案,都能夠得到不錯的成果,那也許跟進得到類似的結果機率也相
對地比較高(但並非必然)。
雖然大數據充滿神祕的謎團且令人嚮往,不過也不是數據愈多愈好,變數愈多愈好,否則
可能會陷入許多思維的陷阱。像如果我們根據一個人的搜尋紀錄、瀏覽紀錄、貼文紀錄、
按讚紀錄、留言紀錄來判斷一個人的本性,可能會產生某些特定的偏見。例如看到某些男
人很喜歡談論性、女人和A片,就認為他們可能是潛在的強暴犯。看到某些人查詢或詢問如
何殺人,就認為他們可能會做出傷人的行為而報案。公司如果想要錄用人才,除了履歷表
和面試,他們可能也會去查詢應徵者在網路上所發表的言論(如果找得到的話)並做錄用與
否的參考。我們可能會過度相信網路查詢到的資訊,然後來評價一個人,認為這個人的本
性就是這個樣子。喔,這一段可能打的不是很好,前面講的跟後面講的可能比較沒什麼關
係。
數據不是愈多愈好,這部分其實我本來想表示的是過多的資訊可能會讓我們迷失原本的目
標。可能你本來想要查詢什麼東西,結果查一查後來就把焦點放在其它的事物上,導致我
們原本想要查詢的問題沒有獲得解答。有時候某些資訊可以提供有效的論點時,我們就不
一定要獲取更多的資訊,當然多方查詢並非一件壞事啦,尤其是要做什麼重大決策時。只
是不要忘記我們查詢的目的是什麼? 主要是為了解決問題,或者滿足求知慾,或者只是純
粹無聊,或者只是想要告解、紓解壓力,或者只是要寫作業報告…等等。
變數不是愈多愈好,這部分其實是要找某些因素之間的相關性或因果關係。如果你的變數
有很多,可能會湊巧找到一個變數剛好具有相關性,如果你以為已經找到解答的話,可能
就會陷入思維的陷阱。作者也提供一個例子,也就是基因學家在尋找DNA序列什麼會跟什
麼有關係時,有時候會發現什麼會跟什麼有關係,然後他們就很開心發表這個重大發現,
如果事後能夠證實的話,也許可以撈到一個諾貝爾獎,不過常常發生的情況是事後進行其
它數據集的研究時,反而推翻他們原先的發現。科學研究就是這個樣子,如果你不能夠在
其它地方重複驗證這樣的相關性或因果關係,那麼你就不能夠聲稱自己找到什麼重大發現
。也許之前南韓聲稱找到常溫超導體,也是陷入了這樣的一個陷阱。你看像物理學、生物
學或化學這樣嚴謹的科學領域都有可能會犯這種思考陷阱了,更不用說在經濟學、政治學
、社會學這些難以論證的領域,有多少人會犯這樣的錯誤了。
有空再打。
作者: htx9 (螞蟻)   2024-02-02 21:01:00
連兩篇1000P
作者: DiorL (孤獨的總和)   2024-02-02 21:17:00
恭喜
作者: htx9 (螞蟻)   2024-02-02 21:23:00
謝謝
作者: DiorL (孤獨的總和)   2024-02-02 21:28:00
不客氣

Links booklink

Contact Us: admin [ a t ] ucptt.com