網際網路機構如何利用數據優化內容？——數據爲內容帶來了什麼？传媒頭條網

2018-04-25 10:09:38 媒介雜誌

編者按：本月主題旨在探討數據與媒體中的內容關係，本文系《媒介雜誌》4月號封面文章，全文深入淺出地剖析了數據與內容之間的關係，分為“數據與內容生產”、“數據與內容優化”以及“數據與內容市場”三部分。因原文較長，考慮到微信閱讀體驗，故分篇推送，本篇系

“數據與內容優化”。

當前媒體面臨怎樣的時代？技術升級、場景變遷、產品迭代、社交遷徙......在這樣的環境下，昨天還只是寓居於想象的未來蜃景，今天能夠迅速具象為可感現實。但無論媒體產業如何發展、技術如何迭代，我們發現，“內容”始終是這條產業鏈中重要的一環。

內容產業似乎從傳統時代走來，卻也被這個新的時代賦予了新的能量。所以，當前的內容運營者面對的似乎是一個既光怪陸離又一脈相承的時代，它似乎輕車熟路又遍地希望，卻也時常讓人充滿無力感與困惑。

那內容行業該如何解決這份痛點？目前，內容的概念包括得更加寬泛，除了常規意義上的新聞、劇集、圖片等，社交內容、廣告、搜索頁面、交互信息都是我們界定的整體內容行業所能涵蓋的範疇。而內容運營的智能化、數據化、程序化等發展的基礎也在於對數據的長期積累、挖掘和運用。那麼，數據技術是否會成為未來內容行業中的執牛耳者？數據究竟能為內容帶來什麼？我們需要從行業的實踐中找到方向。

從有到優

標籤與算法優化內容分發與管理監察

如果說，數據工具在內容生產環節是提供素材渠道與模版，那麼在生產的基礎上，在分發、管理等優化環節，數據就更加能大施拳腳。在從有到優的環節，生產專業性上的壁壘被打破，互聯網平臺涉入其中，通過其數據算法等的積累，為內容產業延伸出越來越豐富的優化管理平臺。

分發精準化：數據標籤算法實現內容與人的匹配

新聞推薦、社交推薦、廣告投放、文娛內容推薦、智能互動等方面，生產出來的內容如何更快速、精準地抵達讀者，又如何爭取讀者更多的注意力資源，是各大機構正在努力用技術革新回答的問題。

其中以全球最大的社交平臺之一Facebook為例，Facebook藉助算法收集用戶、企業等信息，調整用戶首頁展示內容，影響了用戶的在線行為習慣，甚至改變歐美新聞分發和社交媒體盈利的模式。

Facebook也有自己的排序規則——Facebook EdgeRank。Facebook收集每位用戶發佈的內容（包括分享的內容），關注好友的狀態更新，加入的群組，點贊、評論、分享等行為信息。根據權重（早期標準有：互動/親密度/時間等）對監測數據進行評級，展示信息流排名評級高的內容推送用戶，也即用戶最感興趣的內容。

後來，Facebook在原來 EdgeRank 的基礎上，更加細緻地定義了不同層級的親密度。用深度神經網絡理解圖片內容和文字內容，從而可以知道相片中的物體是不是用戶感興趣的。隨著產品迭代，也加入了更多產品特徵，諸如閱讀時間長短、視頻內容、鏈接內容；取關、隱藏等。

Facebook EdgeRank

2017年上半年，《紐約時報》對其網站和App進行個性化改造，被用戶稱為“模仿Facebook”。在後續的幾個月裡，它陸續進行了一些個性化實驗，比如根據用戶的閱讀習慣、訪問時間、地理定位來決定推送內容，最終希望達到的是，在傳統報紙編輯選薦與網絡個性化模式之間達到平衡。

在國內，今日頭條的推薦算法是其產品的靈魂。頭條用機器給文章打標籤，追蹤用戶的閱讀行為和習慣，再用算法完成兩者之間的匹配，根據用戶關注的內容分類進行推薦。數據積累到一定程度，最終想達到的效果就是系統越來越瞭解用戶的品味，推薦的內容用戶都喜歡看。

頭條的標籤基本有兩種方式，一種是機器判定，一種是人工添加，目前機器判定的比例更高。以電影為例，一部電影可以細分出影片類型、年代、演員、導演等等多種元素。用戶標註了某一部電影，算法就會為他推薦同一導演的作品。這樣的推薦模式大多被適用於識別結構化數據——算法並不知道文章、影片中到底說了什麼，只能根據結構化數據標註判斷。這個結構化數據，也就是關鍵詞。社會和娛樂這兩大標籤是受眾最為廣泛的標籤。

頭條會對關鍵詞進行收集和整合，如果發現這些關鍵詞熱度比較高，就會生成一定的頻道。比如體育底下其實還是包含很多的子頻道。這也算對用戶定製的一種反饋，更便於網民能夠直接查看相關的文章。

不過關鍵詞的不精準也帶來了一些問題。隨著資訊類平臺中的內容越來越豐富，短消息、圖文、問答都有。關鍵詞標註只能對內容進行浮於表面的理解，而內容中暗含的情緒往往會冒犯到用戶。在流量的誘惑下，很多創作者會更傾向於生產具有刺激性情緒的內容，這就增加了用戶被冒犯的幾率。

基於算法推薦機制的個性化分發嘗試一如既往，算法所代表的精準滿足信息需求、擴展細分市場的概念起初非常理想，所以很多媒體紛紛做出相應嘗試。但熱趨勢中，算法正在面臨讀者“過濾氣泡”、“信息繭房”等質疑，難以達到預期效果。近期，哈佛尼曼實驗室的一篇報告詳細地探討了這一技術機制，承認個性化算法的力量，但也不能只將個性化留給算法，“你仍然需要一個人類編輯”。

互聯網機構如何利用數據優化內容？——數據為內容帶來了什麼？

管理與監察數據化：促進機構走向規模與成熟

當內容發展到一定規模之後，內容本身就成長為有一定規模的數據庫。如何實現內容的數據化管理？以及如何識別因數據的中立性而帶來的虛假和錯誤？也是媒體機構承擔社會責任，完善用戶體驗的重要環節。

被Google併購後，YouTube對內容版權問題越來越被重視。為了提供一套可行的版權及內容管理方式，Google於2011年上線了ContentID。Content ID為版權所有者提供免費的內容數據管理方式，並提供封鎖、追蹤和獲利三種方式，讓版權所有者自行決定所擁有的版權內容以何種形式出現在YouTube上。YouTube Content ID功能包含了影片ID（VideoID）和音頻ID（AudioID）兩種數據標籤化管理功能，分別具有比對視頻、音頻是否侵權的功能。

YouTubeContend ID以熱圖（Heat map）的數據處理方式比對影片，因此即使不是完全符合的影片，如內容包含加框、影音歪斜、左右鏡象、水印、質量不佳的影片，一樣可進行比對是否侵權。Heat map用顏色變化來反映二維矩陣或表格中的數據信息，它可以直觀地將數據值的大小以定義的顏色深淺表示出來。常根據需要將數據進行樣品間丰度相似性的聚類，將聚類後數據表示在Heat map 圖上，可將高丰度和低丰度的樣品分塊聚集，通過顏色梯度及相似程度來反映多個樣品的相似性和差異性。

互聯網機構如何利用數據優化內容？——數據為內容帶來了什麼？