Netflix,爲何能成爲個性化推薦的王者?

從《紙牌屋》開始,Netflix越來越多地進入國人的視線中。關於它的用戶推薦系統、“大數據分析”等等神話和傳說也有不少,本文是我在查找了一些資料後,整理出來的Netflix的推薦思路和一些方法。太過技術的算法內容實在是hold不住,因此僅從邏輯上進行說明。一來整理自己的思路,二來儘可能學習些東西,分享出來歡迎各位討論。

Netflix,为何能成为个性化推荐的王者?

一、坐等風來

回顧歷史,Netflix是一家典型的提前佈局等風來的公司。

1997年8月,在DVD機僅推出幾個月後,Reed Hasting和Marc Randolph創立了Netflix,並在1998年3月上線了全球第一家線上DVD租賃商店。以僅30名僱員拿下了925部電影,這幾乎是當時所有的DVD電影存量。

1999年他們推出了全新的按月訂閱的模式,用戶第一次有機會享受到沒有過期罰款、沒有運費、手續費等等一系列煩人的東西的服務。相比Netflix之前使用的單部電影租賃的方式,新模式對用戶更加友好,於是Netflix憑藉著這個模式迅速在行業裡建立起了口碑,老舊的單部影片租賃模式也於2000年壽終正寢。

隨後的2001年,由於DVD機售價越來越低,成為當年聖誕節成為最受歡迎的禮物之一,Netflix也在2002年坐上了這趟快車,用戶量得到了巨幅增長。這是Netflix創立四年迎來的第一個風口,現在看來不得不感嘆其眼光之獨到。

2005年,他們發現儘管沒有高清內容,但Youtube的流媒體服務(可簡單理解為在線播放)仍然十分受歡迎,於是放棄了自己的硬件產品Netflix Box轉入其中,於2007年上線了流媒體服務。而隨著日後網絡帶寬的提升和費用的降低,佔據了先發優勢的Netflix又一次收穫了巨大增長。

2006年,一項名為Netflix Prize的算法大賽橫空出世,Netflix拿出100萬美元獎金讓開發者們為他們的優化電影推薦算法。截至2012年第四季度,Netflix已在全球擁有2940萬訂閱用戶。

2012年,Netflix開始嘗試自制內容,並於2013年推出《紙牌屋》,高超的內容質量和一次放出整季內容的發行方式,讓它瞬間風靡全球。

今年4月,Netflix的全球訂閱用戶達到1.25億,服務超過190個國家和地區。截至今日,它的市值超越迪士尼成為全球互聯網企業排名第六的公司。

回顧Netflix這21年的歷史,似乎每一次轉型的時機和方向都是如此準確,以至於有些“自然而然”地達成今天的高度。然而如果我們透過現象看本質,從萬變中找不變的話,有一件事一定會被提到——個性化推薦。甚至可以說,“個性化推薦”就像Netflix自制的鼓風機,第三個風口是他們自己造出來的。

沒有明確的資料說明Netflix在做郵寄租賃DVD的時候有沒有推薦機制。但他們確實從最開始的時候,就十分重視數據,並開始收集用戶數據了:他們會在郵寄的信封裡附上問卷讓用戶給電影打分。這些打分數據是之後Netflix推薦系統的重要基石之一。

“個性化推薦”一直都是Netflix的殺手鐧,數據積累和算法研發的提前讓它在這方面幾乎是不可被超越的,時至今日用戶在Netflix上觀看的80%內容都是由推薦而來的。

二、解構好萊塢

Netflix的推薦系統之所以能夠如此高效地達成目標,我認為最大的理由是他們教會了“讓機器懂電影”。在一篇名叫的文章中(由Alexis C. Madrigal於2014年發表)。作者從Netflix的推薦分類出發,解說了他們是如何解構好萊塢進而去給用戶做推薦系統的。

Netflix,为何能成为个性化推荐的王者?

在Netflix的首頁中你會看到一行一行的電影,每一行是一個分類,官方叫它altgenre,或者說“微分類”,每個分類中是一系列的電影。這些分類和電影都是為你量身推薦的。

在這些分類中有一些非常精準、十分有意思的標題:情感充沛的反體制紀錄片(Emotional Fight-the-System Documentaries)、基於事實的皇室掠影(Period Pieces About Royalty Based on Real Life)、80年代的外國邪惡電影(Foreign Satanic Stories from the 1980s)。

那麼這些類型是怎麼來的呢,作者Alexis做了一件很絕的事情:

他把Netflix的所有分類全爬了下來,共有76897個分類之多。並且將這些分類的用詞和語法做了深入分析,還自己開發了一個“類型生成器”,生成出了和Netflix類似的結果。他甚至給出了公式:地區+形容詞+類型+故事基礎+拍攝地+時代+關於(什麼的內容)+適合年齡段(Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y)。

但看到這裡,我們只是看到了Netflix解構好萊塢的結果,那麼這一切是從哪裡開始的呢?

2006年,Netflix產品副總裁Todd Yellin帶領一票工程師用數月時間寫了一份長達24頁的名為《Netflix量子論》(Netflix Quantum Theory)的文檔。專門講述如何用“微標籤”(microtag)拆解電影。

這份文檔的目的是作為訓練手冊,讓不同的人對微標籤有同樣的理解,以保證能夠系統性地、標準統一地解構上千部電影。如今這份手冊已經擴展到了36頁。

這份36頁的訓練手冊講述瞭如何給一部影片的性暗示內容、血腥程度、浪漫等級、甚至情節總結等元素評級。文檔還解釋瞭如何給影片結局打標籤、給主要演員的“社會接受度”打標籤、給每部影片的浪漫程度打標籤,更重要的是,每個標籤都有從1到5的評級。

以《超膽俠》電影為例,標籤會包括“四個主要角色”,至於其中Matt Murdock這個角色,會有演員名、角色名、他很“英雄”(heroic)、是個律師等等。

Netflix就是用這樣的方式,解構了幾乎所有的電影,用精細、準確的微標籤和評級教會推薦系統去認識電影、解讀電影。

更令人稱道的是,給Netflix打標籤真的是一份工作。Netflix組建了一隻團隊,付錢讓他們看電影同時給這些電影打上標籤。有好事的媒體採訪到了一位“標籤員”(tagger),讓他講述給Netflix打標籤是一種什麼樣的體驗,十分有意思。

三、解構用戶

2012年前後,Netflix的推薦系統經歷了一次重大的策略變化,官方技術博客以名為的文章(分為1、2兩部分)闡述了這種變化的前因後果:

在郵寄租賃DVD的時代,Netflix能夠獲得用戶的評分,但是用戶觀看電影的過程對平臺是隱形的。但是隨著流媒體業務的開展,Netflix終於有機會看到用戶的更多方面。於是他們認識到:

Everything is a Recommendation.”——一切都是推薦。

由這一想法催生出的,是更加細緻、深入的用戶推薦。

Netflix的官方文檔中把自己稱為“幸運”,因為他們有大量的相關數據和能夠把這些數據應用到產品中的人才。

以下是Netflix用來優化推薦系統的數據源:

  • 數以百萬計的用戶評分數據(tagins),而且每天還在以百萬量級增長;
  • 作為算法基準線的項目熱度(item popularity);
  • 包含時長、時間、設備類型的數百萬播放數據(stream plays);
  • 用戶每天會想自己的列表(queue)中添加數百萬項目;
  • 每個項目下豐富的元數據(metadata);
  • 每個項目的展示位置(presentation)和效果;
  • 用戶的社交數據(social);
  • 百萬級的用戶搜索數據(search terms);
  • 來自外部(external data)的票房或影評數據;
  • 當然,實際上用到的數據還遠不止這些。

除了和影片相關的數據外,用戶數據是Netflix推薦系統的另一重要基石。

轉型流媒體後,用戶的所有行為全部在平臺內完成,這給了Netflix觀察用戶的絕佳環境,他們不僅僅知道用戶看過什麼,甚至知道他們是怎麼看的:什麼時候看的,看了多長時間,在哪裡暫停,在哪裡反覆,在哪裡關閉等等,這些行為數據無一不是用戶喜好的體現。

通過分析這些行為數據,和解構好萊塢得來的影片數據進行匹配,讓Netflix的推薦精度越發準確。

四、推薦新姿勢:個性化海報推薦

Netflix,为何能成为个性化推荐的王者?

去年Netflix推出了一項新的推薦功能:個性化海報推薦,具體來說就是“不同的用戶看到的同一個電影的推薦海報是不一樣的”。如果你喜歡動作戲,則可能你看到的海報是片中的打鬥場面,如果你喜歡片中某個主演,那麼你看到的是以他為主角的海報。

這一功能的源頭同樣是對電影內容和用戶喜好的解讀。認為地去創造更多的“一見鍾情”,進一步提高了推薦系統的效率。

五、Netflix的自省

1.從官方文檔透露中的信息來看,長久以來Netflix雖然對算法十分依賴,但也意識到它的不足,這種不足可能是所有的算法都躲不開的——“越推薦越相似”。因此Netflix的算法中十分關注“不同”(adversity)。新奇、多樣性、新鮮度,都是推薦中考慮的因素。

盡力幫用戶去“發現”興趣,這也是Netflix的推薦目標之一。

2.關於前邊提到的個性化海報推薦,官方特別地說明了對它的擔憂:不希望它變成“騙”用戶看電影的功能,也就是說要盡力把這個功能控制在一個度裡,說白了就是不“標題黨”,為了讓用戶去看某個電影而強行用海報勾引他。

六、後記

就在我寫這篇文章的前幾天,Netflix又做出了兩個重要改變:1. 把五星評價系統改為“喜歡/不喜歡”的評價系統;2. 取消了影片下的評論功能。

關於這兩個改變網上有些解讀,但我還沒想清楚,就不追這個熱點了。

關於Netflix可說的還有很多,最近他們還推出了另一個官方博客:Netflix Research,加上原有的the Netflix Tech Blog,有興趣的各位可以關注一下。

  • :https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429
  • :https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5
  • < How Netflix Reverse Engineered Hollywood>:https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
  • :https://www.washingtonpost.com/news/arts-and-entertainment/wp/2015/06/11/netflix-tagging-yes-its-a-real-job/?noredirect=on&utm_term=.51f470d15c18

題圖來自 Unsplash ,基於 CC0 協議


分享到:


相關文章: