[新聞]更懂你想看什麼的Netflix 如何用數據解構

作者: octobird (遺憾)   2014-01-13 13:28:49
新聞網址:
http://www.pingwest.com/how-netflix-reverse-engineered-hollywood/
更懂你想看什麼的 Netflix,如何用數據解構好萊塢影片?
書上 1 周前 發佈在 前沿
http://cdn.pingwest.com/wp-content/uploads/2014/01/NF.jpg
為了弄懂訂戶的觀劇喜好,在線影片提供商 Netflix 創造至少 7 萬種影片「微類型」(
micro-genres),來細分已有的影片內容。然後,再通過元素的重組,為下一步新的影視
內容攝製提供參考。
Netflix 面對龐大的好萊塢影視業,它又要以怎麼樣個性化分類,來滿足旗下的 4000 萬
訂閱用戶的需求?
Netflix 切入點很細,這些「微類型」對應特定的觀眾區間。有時分類甚至讓人覺得很特
殊、很荒謬。比如情感鬥爭類的紀錄片、基於現實生活的古裝劇、20 世紀 80 年代的外
國魔鬼故事……
根據大西洋月刊的記者粗略統計,Netflix 至少把影片分成 76897 種「微類型」。這打
破了原本對於影片類型粗放式的分類方法。Netflix 能由此分析出最受歡迎的影片類型、
以及最受歡迎的演員與導演等。
除了 Netflix 的員工以外,沒有人瞭解 Netflix 是如何細緻分類的。他們要面對好萊塢
那般空前的數據儲存,而記者所統計的數量的類型只是冰山一角。
Netflix 內部把這種分類過程稱之為「altgenres 」,它由 Netflix 副總裁 Todd
Yellin 構想發明,這是一項特殊的解構電影的過程,整個系統複雜精確。Netflix 首先
要僱傭一群人,讓他們閱讀一份長達 36 頁的培訓文檔,訓練他們如何對影片的性暗示內
容、暴力程度、浪漫橋段、甚至情節等等元素,作出精確地評級細分。
他們捕捉了數萬種不同的電影屬性,甚至是人物的道德派別。這些標記內容,與千萬級用
戶的觀影習慣相配對,便成了 Netflix 的競爭優勢。Netflix 的主要目標,是為了獲得
並留住訂閱用戶。通過這種微類型,對應不同的觀影受眾,正好是他們戰略的一部分。
在 2012 年的時候,Netflix 就在其官方博客中提到,「瞭解用戶喜歡的「微類型」的內
容,就能用高收視的類型取代低收視的部分,以贏得競爭力。」只要,Netflix 更瞭解用
戶,用戶就越容易黏在它的平台上。
過去的幾年中,Netflix 建立了屬於自己的用戶偏好資料庫。這個資料庫,雖然不能告訴
導演編劇影視劇要怎麼拍,但他能告訴這些人,影視劇中需要什麼樣的元素。比如他們拍
攝紙牌屋的時候,就該知道哪些元素需要有的放矢。
Netflix 通常是這樣對影視內容進行分類的,比如:
獨立情感的體育電影
20 世紀 30 年代、間諜和冒險類點電影
中國浪漫主義黑幫片
黑色懸疑科幻恐怖電影
廣受好評、主角情感受挫的電影……
這種細分方法可以概括成:首先是國家,其次是類型片大類,比如是西部片還是恐怖片。
其次是影片的創作來源,基於現實生活、古典文學還是虛構內容。然後影片設定的時代,
比如 20 世紀 80 年代。觀影級別,比如 16 週歲以上觀看等。還有一些比較特殊的通用
分類,比如女英雄主義,激進的浪漫主義等,當然還有導演與演員的個人風格。
這些繁複又有規則的分類方法,又組成了這樣一種公式:
影片類型 = 地區 + 主題 + 形容詞元素 + 類型片類型 + 演員特性 + 創作來源 + 時間
+ 故事情節 + 內容 + 得獎情況 + 適宜觀看人群等等。
但這並不意味著所有的微類型,都能在線找到對應的影片。而這些細緻分類代表所有的排
列組合的可能性,而不止是代表觀眾在特定時間場合看到的影片。
Netflix 自有的片庫不能涵蓋到所有微類型的影片,但它的價值在於,如果市場需要的話
,Netflix 可以根據這些標籤,去拍攝這種類型的片子。
假如把以上過程,可以看做是 Netflix 把影視內容轉碼成數據過程。而對數據最簡單的
處理,就是做個統計排行榜。
基於 Netflix 分析,訂戶最喜歡的主題是結婚。
http://cdn.pingwest.com/wp-content/uploads/2014/01/N1.png
訂戶最喜歡的形容詞元素是浪漫的。
http://cdn.pingwest.com/wp-content/uploads/2014/01/N2.png
訂戶最受歡迎的電影所處時代是 20 世紀 80 年代。
http://cdn.pingwest.com/wp-content/uploads/2014/01/N3.png
訂戶喜歡的電影場景設定在歐洲。
http://cdn.pingwest.com/wp-content/uploads/2014/01/N4.png
Netflix 副總裁 Todd Yellin,與另外兩位工程師通過數月的努力,制定了以上被稱為「
Netflix 量子理論」的東西。Yellin 本人像一位混跡於科技公司、不安分的製片人,它
需要為影片生產所有流程精心算計,就像紙牌屋中 Frank Underwood 的智囊 Doug
Stamper 那樣。
Yellin 告訴大西洋月刊的記者,他們分析出的內容,只是他們終端的產品形態。而在
Netflix 資料庫內部,數據分類捕捉會更加繁複。他說道:「我們要把影片內容給撕裂」

通過這些分類標籤,Netflix 不僅能給他的訂戶推薦影片,甚至告訴他們你喜歡的類型究
竟是什麼。基於 Netflix 算法,它甚至提前幫用戶預估,他們看完影片,會給影片打幾
分。
這家公司還拿出 100 萬美元懸賞,獎勵給能提高這種預估評分算法準確度的技術團隊。
經過幾年時間的改進,準確度僅僅提升了 10%。儘管該獎金在 2009 年開始設立,但
Netflix 並沒有把它納入新模式,而只是一種工作需要。他們認為,比起感性的得分,更
個性化風格的微類型細分,才是觀眾真正要的。
標記的微類型判斷用戶喜歡什麼還不是全部,這些數據還能用來分析,什麼類型影片哪些
演員來出演,會更受歡迎。Netflix 還希望算法基於數據,能在合適的時間,給特定的觀
影對象,推送合適的內容。
作者: paulluopaull (ppoo)   2014-01-13 17:53:00
這就是專業科學化分析 台灣各行各業都缺乏這樣的思維
作者: stevey (韓狗人死一死)   2014-01-13 21:53:00
噓一樓 Data mining早就應用在許多地方了 做的好不好是一回
作者: stevey (韓狗人死一死)   2014-01-13 21:54:00
事 但是不要自己沒有就把全臺灣人都拖下水

Links booklink

Contact Us: admin [ a t ] ucptt.com