※ 引述《wike (wike)》之銘言:
(原文冗長恕刪)
: 那麼斷章取義的文章,
: 有沒有什特點,以供分辨
: 可以像平常辨別詐騙電話一樣?
: 不用特別求證就知道事情的全貌?
這可以用吃角子老虎機的數學問題 (bandit problem) 來解釋。
先認識一下這個數學問題。
就是我們面前有很多台吃角子老虎機,每一台都有各自給出獲勝的機率。
我們無法在事前知道哪台機器比較會讓玩家贏錢。
那麼要怎樣才能早點知道要往哪一台機器下注呢?
這牽涉到探索與開採 (Exploration vs Exploitation) 的成本效益。
如果永遠保持每一台都平均地玩,那就是最大化地 "探索",
也就是花許多成本在認識吃角子老虎機獲勝機率的全貌。
如果挑一台,就永遠只玩那一台,那就是最大化地 "開採",
也就是不花成本在認識機台,乖乖地接受玩的那一台給予的勝率。
全然地探索,花費太多成本在獲得資訊,而沒有好好地利用資訊。
我們可能還來不及知道各機台的獲勝率,錢就花光了。
全然地開採,如同盲目下注,雖然選到最好的一台,就有最大獲利,
萬一選到的是最差的,就是最大損失。
所以,以上兩種極端的賭博方式,都不是最佳的下注法。
如果一開始先平均各下注 N 次,獲得勝率資訊再挑勝率最佳的一台,
這個方法比全然探索或全然開採好一些,有稍微利用了過去下注的經驗。
然而,過去表現好的,未必不會背叛,過去表現不優的,未必不是黑馬。
比如只看過去 5 次來挑:(逗號後面是未來的表現)
機台(1)的表現是:贏贏贏贏贏,輸輸輸輸輸輸輸輸輸輸輸輸輸輸輸輸輸
機台(2)的表現是:輸輸輸輸輸,贏贏贏贏贏贏贏贏贏贏贏贏贏贏贏贏贏
先探索 N 次,再從中挑選最佳的。
這個策略比極端的選擇策略好,但仍不能保證選到的那台,後續表現良好。
數學家證實,較佳的賭博方式,是邊玩邊記錄輸贏。
過去獲勝機率大的,就多下注幾次。過去常常輸的,就少下注。
開採的同時,保持探索的可能。探索的同時,減少失敗開採的可能。
這樣就平衡了探索成本與開採效益。