【升民觀點】數據爲綱,綱舉目張

【升民觀點】數據為綱,綱舉目張

本期封面主題討論了一個學界業界都在關注的話題:內容與數據之間的關係。

很早之前我們就在關注內容產業的進程,之後又在追尋大數據技術的點滴變化,媒體內容產業雖然有別於其他行業,然而與數據之間的關係卻是異常緊密的——老牌新聞媒體巨頭紛紛試水基於數據挖掘的機器人寫作,互聯網大佬則在搭建內容的數據化工具矩陣,即便自己不生產內容的聚合平臺本質上就是在利用數據進行內容分發和推薦,原生廣告已經開始利用計算機進行相應的內容創作和投放,第三方專業機構開始利用數據化工具構建自身的盈利模式。

所謂舉目張,數據,正在成為內容之

然而為何本期封面用了“數算力”這樣一個表述?因為筆者認為,當下的數據現實早已過了只談數據的階段,而是必須加上與之相匹配的運算能力。兩者相加,方能走向真正的智能化進階。

先看媒體的內容究竟是什麼

一般而言,大家都會將內容產品視為精神文化產品的一種,從傳遞價值、精神、文化這樣的角度來看,內容是一種“無形”的產品;可是,從其表現形態來看,文字、圖片、聲音、視頻等又確實是一種可見可感的形態。對於這樣一種特殊的存在,數據究竟能否進行測量?

筆者認為,是可以的。

一方面是與內容產品相關的客觀數據,比如產品的數量,時長,被觀看(使用)的時間、地點、次數等,觀看(使用)的用戶特徵,利用的終端介質情況等,這些數據是可以被清晰記錄的,在大數據技術成熟之前就可以進行,現在,基於互聯網的特性和大數據的技術發展,這種記錄變得更加精準和全面。

一個重要的表現就是,但凡參與內容運營的機構,都在積累龐大的數據資源,無論是數據的體量、類型,還是數據處理的速度和方式,都成為其立身之本,也是編輯部此次探討的內容數據化工具的誕生基石。在本期封面主題所選擇的案例中,機構運用數算力處理的第一步就是搭建一個量級足夠的數據庫體系。

比如,Facebook的EdgeRank首先收集的是每位用戶發佈的內容(包括分享的內容)、關注好友的狀態更新、加入的群組以及點贊、評論、分享等用戶行為數據,進而才從這些數據中產生該用戶的“權重評級標準”。隨著產品迭代,Facebook不斷將諸如視頻、鏈接等內容形態因素,點贊、取關、隱藏、閱讀時間等用戶行為因素轉變為算法考慮因素,讓這個數據庫不斷豐富。

【升民觀點】數據為綱,綱舉目張

另一方面則是與內容產品相關的主觀數據,一個重要的應用是在海量行為數據庫的基礎之上,去了解用戶接觸內容產品時,究竟產生了怎樣的觀感和態度。涉及情感與偏好,我們通常歸入定性研究的範疇。

過去很長一段時間,研究者們一邊使用科學抽樣、深度訪談等研究方法來對這些主觀數據進行儘可能真實地還原,一邊也在積極引入類似眼動儀、腦電波測試等技術手段來監測和分析受試者情緒的波動和喜好變化。

在大數據技術逐漸普及的過程中,這種研究外化為“打標籤”這個行為動作,並且通過爬蟲技術、文本分析等技術更好更快地幫助研究者簡單、明瞭地瞭解用戶特徵及喜好需求。

例如,騰訊推薦平臺的實現方式就是基於騰訊眾多產品中的行為數據為用戶採集豐富的興趣標籤,然後系統自動對這些原始標籤進行聚類和分類,從而對用戶興趣進行抽象。不僅如此,改系統會自動建立標籤—>主題(topic)—>類目的映射關係,從而為用戶畫像進行多粒度、多尺度興趣刻畫,同時系統會根據實時上報的行為,不斷更新當前用戶的畫像興趣。

【升民觀點】數據為綱,綱舉目張

騰訊推薦平臺運作機制

以上兩方面告訴我們,內容產品的屬性雖然複雜,運營流程也極為精細,但是數據完全可以參與到這個運營流程和體系當中來,給運營者充分的支持和輔助。可以說,主客觀兩種數據的監測和記錄,一直都在進行中,只不過在時效性、準確性方面有所欠缺,同時也較難獲得理想的成本控制與數據量級的平衡,所以此前很難大規模的複製和普及。

而萬物互聯的現實條件,數算力的不斷髮展,較為完美地幫我們解決了這個問題。現在,只要數算力足夠,就能夠有效地幫助我們在海量的內容產品中判別優劣,分析原因,進而希冀能夠以此指導下一次的內容生產。

【升民觀點】數據為綱,綱舉目張

再看媒體內容作為產品的特殊性

雖然內容產品具備可以感知的形態,但是與實體產品相比,其特殊性還是顯而易見的。幾乎所有社會產品在流通的過程中都有一個共性:可以大批量複製。尤其受歡迎的產品,可以及時根據市場的反饋擴大生產,從而提升收益。

然而內容產品顯然並不是這樣的商業邏輯——每一個內容產品都需要具有獨創性才能夠產生價值,複製在這個產業領域中則是極大的死穴。

那麼,擺在內容產品運營者面前的一個嚴峻問題就是:如何根據過去的數據、現在的數據,來預判用戶未來的喜好,從而生產出與之匹配的內容產品?為人們的精神產品市場尋找下一個“熱點”,這一直以來都是內容產業的難點與痛點。

長久以來,內容運營者都在試圖通過數據來解決這個問題,而數算力的成熟似乎給了我們更大的可能性。

最典型的例子怕是前幾年名聲大噪的Netflix成名作《紙牌屋》。這是一部號稱利用大數據指導生產的電視劇——根據用戶過往數據來判斷用戶的需求和喜好,進而利用這些數據指導自身的內容生產,從而誕生出一部大賣的新作品。那麼Netflix究竟做了多少數據準備?

【升民觀點】數據為綱,綱舉目張

根據外媒報道,僅在評估這一環節,Netflix就建立了一套極致精細數據指標體系。這個數據庫構建的基礎一方面是平臺實時的觀看數據沉澱,另一方面是對內容的細分、解構、標籤的過程——例如,Netflix至少把影片分成76897種“微類型”,完全顛覆了過往人們對於影片分類的標準,進而更好的預測人們的真實喜好需求,並指導自身的內容生產方向。

在本期封面所涉及的案例中,個性化推薦已經是較為成熟的一種基於“預測”的內容運營手段。

【升民觀點】數據為綱,綱舉目張

在國內大火的今日頭條依憑的正是標籤基礎上的個性化推薦分發。基於算法推薦機制的個性化分發所代表的精準滿足信息需求、擴展細分市場的內容運營理念。然而在及這個過程中,這種模式也面臨著讀者“過濾氣泡”、“信息繭房”等質疑的聲音。那麼更進一層的利用數據挖掘基礎之上的智能化工具介入生產,則是目前困難重重的一個領域。

雖然從美聯社華盛頓郵報,到谷歌Facebook,以及此次首次進入編輯部研究視線的專業數據機構NewsWhip都在嘗試內容數據化工具,然而直到現在,數算力能夠扮演的還是“輔助”生產這一角色,完全的“替代”和“自主生產”是較為困難的。

解決這個問題的難點在於,我們只有過去的數據、現在的數據,究竟應該如何準確推斷下一個內容熱點?筆者所在的內容銀行團隊也在過去十年間試圖解答這個困惑。而我們發現,除了行為數據、情感數據之外,經驗數據的引入也許是一個有效的解決方向。

美國俄亥俄大學的一項研究表明,人類所有的行為都是由15種基本的慾望和價值觀所控制,而人類行為總是反覆地產生相同的經驗,反過來就是說,人類的行為是基於過往的經驗和記憶產生的,是在一定程度上可以被預測的。

【升民觀點】數據為綱,綱舉目張

那麼,除去極端情況的發生,通過足夠的經驗數據的引入作為校正參數,應當能夠幫助我們去進行內容熱點的判斷——在足量行為和情感數據的分析基礎之上,經驗數據可以幫助我們去預判人們的喜好和需求是什麼。而筆者認為,這其實是數算力實現真正“智能”的關鍵步驟。

由於洩露用戶信息和隱私,扎克伯格被要求赴美國國會作證;因為一句“國內用戶對隱私信息不敏感”的發言,李彥宏引發了新一輪的輿論風波。彷彿關於數據處理的話題進入社會大眾視線時,往往是負面消息更加引人注目。“數算力”的發展是否能夠在曲折中前進,迎來真正智能化的那一天?筆者無比期待。

媒介雜誌《數算力》

現已上線!

歡迎購買訂閱~


分享到:


相關文章: