網際網路機構如何利用數據優化內容?——數據爲內容帶來了什麼?

編者按:本月主題旨在探討數據與媒體中的內容關係,本文系《媒介雜誌》4月號封面文章,全文深入淺出地剖析了數據與內容之間的關係,分為“數據與內容生產”、“數據與內容優化”以及“數據與內容市場”三部分。因原文較長,考慮到微信閱讀體驗,故分篇推送,本篇系

“數據與內容優化”

當前媒體面臨怎樣的時代?技術升級、場景變遷、產品迭代、社交遷徙......在這樣的環境下,昨天還只是寓居於想象的未來蜃景,今天能夠迅速具象為可感現實。但無論媒體產業如何發展、技術如何迭代,我們發現,“內容”始終是這條產業鏈中重要的一環。

內容產業似乎從傳統時代走來,卻也被這個新的時代賦予了新的能量。所以,當前的內容運營者面對的似乎是一個既光怪陸離又一脈相承的時代,它似乎輕車熟路又遍地希望,卻也時常讓人充滿無力感與困惑。

那內容行業該如何解決這份痛點?目前,內容的概念包括得更加寬泛,除了常規意義上的新聞、劇集、圖片等,社交內容、廣告、搜索頁面、交互信息都是我們界定的整體內容行業所能涵蓋的範疇。而內容運營的智能化、數據化、程序化等發展的基礎也在於對數據的長期積累、挖掘和運用。那麼,數據技術是否會成為未來內容行業中的執牛耳者?數據究竟能為內容帶來什麼?我們需要從行業的實踐中找到方向。

從有到優

標籤與算法優化內容分發與管理監察

如果說,數據工具在內容生產環節是提供素材渠道與模版,那麼在生產的基礎上,在分發、管理等優化環節,數據就更加能大施拳腳。在從有到優的環節,生產專業性上的壁壘被打破,互聯網平臺涉入其中,通過其數據算法等的積累,為內容產業延伸出越來越豐富的優化管理平臺。

1

分發精準化:數據標籤算法實現內容與人的匹配

新聞推薦、社交推薦、廣告投放、文娛內容推薦、智能互動等方面,生產出來的內容如何更快速、精準地抵達讀者,又如何爭取讀者更多的注意力資源,是各大機構正在努力用技術革新回答的問題。

其中以全球最大的社交平臺之一Facebook為例,Facebook藉助算法收集用戶、企業等信息,調整用戶首頁展示內容,影響了用戶的在線行為習慣,甚至改變歐美新聞分發和社交媒體盈利的模式。

Facebook也有自己的排序規則——Facebook EdgeRank。Facebook收集每位用戶發佈的內容(包括分享的內容),關注好友的狀態更新,加入的群組,點贊、評論、分享等行為信息。根據權重(早期標準有:互動/親密度/時間等)對監測數據進行評級,展示信息流排名評級高的內容推送用戶,也即用戶最感興趣的內容。

後來,Facebook在原來 EdgeRank 的基礎上,更加細緻地定義了不同層級的親密度。用深度神經網絡理解圖片內容和文字內容,從而可以知道相片中的物體是不是用戶感興趣的。隨著產品迭代,也加入了更多產品特徵,諸如閱讀時間長短、視頻內容、鏈接內容;取關、隱藏等。

互聯網機構如何利用數據優化內容?——數據為內容帶來了什麼?

Facebook EdgeRank

2017年上半年,《紐約時報》對其網站和App進行個性化改造,被用戶稱為“模仿Facebook”。在後續的幾個月裡,它陸續進行了一些個性化實驗,比如根據用戶的閱讀習慣、訪問時間、地理定位來決定推送內容,最終希望達到的是,在傳統報紙編輯選薦與網絡個性化模式之間達到平衡。

在國內,今日頭條的推薦算法是其產品的靈魂。頭條用機器給文章打標籤,追蹤用戶的閱讀行為和習慣,再用算法完成兩者之間的匹配,根據用戶關注的內容分類進行推薦。數據積累到一定程度,最終想達到的效果就是系統越來越瞭解用戶的品味,推薦的內容用戶都喜歡看。

互聯網機構如何利用數據優化內容?——數據為內容帶來了什麼?

頭條的標籤基本有兩種方式,一種是機器判定,一種是人工添加,目前機器判定的比例更高。以電影為例,一部電影可以細分出影片類型、年代、演員、導演等等多種元素。用戶標註了某一部電影,算法就會為他推薦同一導演的作品。這樣的推薦模式大多被適用於識別結構化數據——算法並不知道文章、影片中到底說了什麼,只能根據結構化數據標註判斷。這個結構化數據,也就是關鍵詞。社會和娛樂這兩大標籤是受眾最為廣泛的標籤。

頭條會對關鍵詞進行收集和整合,如果發現這些關鍵詞熱度比較高,就會生成一定的頻道。比如體育底下其實還是包含很多的子頻道。這也算對用戶定製的一種反饋,更便於網民能夠直接查看相關的文章。

不過關鍵詞的不精準也帶來了一些問題。隨著資訊類平臺中的內容越來越豐富,短消息、圖文、問答都有。關鍵詞標註只能對內容進行浮於表面的理解,而內容中暗含的情緒往往會冒犯到用戶。在流量的誘惑下,很多創作者會更傾向於生產具有刺激性情緒的內容,這就增加了用戶被冒犯的幾率。

基於算法推薦機制的個性化分發嘗試一如既往,算法所代表的精準滿足信息需求、擴展細分市場的概念起初非常理想,所以很多媒體紛紛做出相應嘗試。但熱趨勢中,算法正在面臨讀者“過濾氣泡”、“信息繭房”等質疑,難以達到預期效果。近期,哈佛尼曼實驗室的一篇報告詳細地探討了這一技術機制,承認個性化算法的力量,但也不能只將個性化留給算法,“你仍然需要一個人類編輯”。

互聯網機構如何利用數據優化內容?——數據為內容帶來了什麼?

2

管理與監察數據化:促進機構走向規模與成熟

當內容發展到一定規模之後,內容本身就成長為有一定規模的數據庫。如何實現內容的數據化管理?以及如何識別因數據的中立性而帶來的虛假和錯誤?也是媒體機構承擔社會責任,完善用戶體驗的重要環節。

被Google併購後,YouTube對內容版權問題越來越被重視。為了提供一套可行的版權及內容管理方式,Google於2011年上線了ContentID。Content ID為版權所有者提供免費的內容數據管理方式,並提供封鎖、追蹤和獲利三種方式,讓版權所有者自行決定所擁有的版權內容以何種形式出現在YouTube上。YouTube Content ID功能包含了影片ID(VideoID)和音頻ID(AudioID)兩種數據標籤化管理功能,分別具有比對視頻、音頻是否侵權的功能。

YouTubeContend ID以熱圖(Heat map)的數據處理方式比對影片,因此即使不是完全符合的影片,如內容包含加框、影音歪斜、左右鏡象、水印、質量不佳的影片,一樣可進行比對是否侵權。Heat map用顏色變化來反映二維矩陣或表格中的數據信息,它可以直觀地將數據值的大小以定義的顏色深淺表示出來。常根據需要將數據進行樣品間丰度相似性的聚類,將聚類後數據表示在Heat map 圖上,可將高丰度和低丰度的樣品分塊聚集,通過顏色梯度及相似程度來反映多個樣品的相似性和差異性。

互聯網機構如何利用數據優化內容?——數據為內容帶來了什麼?

YouTube 熱圖(Heat map)

另外,YouTube也會篩選監察自身的內容,如果使用者有重複侵權的情況,帳號還可能被終止。藉由 Content ID 的禁播功能設定,可以讓包含侵權內容的影片可在特定的區域中觀看,如此可以符合版權擁有者的區域利益,也不致讓所有的使用者都看不到影片的內容。

將內容也視為一種數據,並利用工具為內容制定考量的標籤和標準,讓內容實現數據化管理,幾乎成為所有形成規模的媒體機構的必修課。

其中還包括Facebook的反垃圾系統Sigma和Immune、今日頭條的內容攔截算法等都是媒體內容管理與監察開始趨於完善的重要標誌。


分享到:


相關文章: