乾貨|潘多拉之盒:個性化推薦算法

“當用戶綁定微博登錄後的5秒鐘之內,系統會為用戶建立起一個DNA興趣圖譜。這個圖譜類似於一個數學模型,主要根據用戶SNS賬號上的標籤、關注人群、好友、評論/轉發、收藏等數據,以及用戶的手機、位置、使用時間等數據提取而來。”張一鳴(今日頭條創始人)曾在文章《機器替代編輯?》中這樣介紹今日頭條的推薦算法。

實際上,以Buzzfeed、今日頭條、一點資訊為代表的新聞聚合類媒體,已經深刻改變了媒體生產常規和生態。這些技術類公司不像傳統媒體,實質上沒有“總編輯”一說,而是主要通過技術手段追蹤、分析用戶行為,從而生產用戶感興趣的內容吸引讀者,贏得了廣泛的用戶群體。由此,傳統媒體的編輯分發模式自然受到一定衝擊:在全民媒體時代,傳統媒體如果在內容上不能出彩,便極容易被願意寫讀者喜聞樂見的消息、觀點的自媒體慢慢淘汰。

乾貨|潘多拉之盒:個性化推薦算法

商業模式


當然,這種衝擊或許也不過是一種良性的市場競爭。但與此同時,與編輯分發內容相對的“算法分發”這一途徑卻無疑充滿了爭議。張一鳴一再重申的“算法沒有價值觀”這一觀點,讓《人民日報》也寫出文章呼籲《算法盛行更需“總編輯”》。而兩年後,在一次人工編輯和機器學習的主題對談上,駱軼航(PingWest 品玩創始人)更是就此向張一鳴提出了一個尖銳的問題:媒體通過蒐集和分析用戶數據再來決定生產什麼內容,人是不是在被機器異化?

當時,張一鳴的回答繞了個圈子,轉而談到人們面對機器的態度在逐漸轉變。他只肯定了與問題相關的一件事——即使是主編行業,在統計哪些組合是用戶感興趣的這一點上,機器無疑做得更好。他認為,機器的本質是“集體的智慧”,是客觀的觀察用戶的行為,不帶編輯的主觀干預。

可值得注意的是,“集體的智慧”這一用詞很妙。的確,剝離機器本身的特質,媒體開始通過個性化推薦系統觀察用戶,寫讓用戶感興趣的文章,有什麼不對?

乾貨|潘多拉之盒:個性化推薦算法

HAY!16年度大會中駱軼航與張一鳴的主題對談



儘管如此,事情反轉在今年5月。

今日頭條在7號正式成立了專家團,邀請學者、媒體人、公職人員,參與監督其內容和服務。與之前的上線反低俗小程序靈犬不同的是,今日頭條在優化其生態的舉措中,引入了算法以外的人的監督。這一事件表明,即使技術在不斷優化,算法的侷限性始終在凸顯。

無獨有偶,今年11月30日在網信辦網絡評論工作局發佈的《網絡評論藍皮書:中國網絡評論發展報告(2018)》中也提到,面對算法分發的一些缺陷,技術“矯正器”開始出現,比如《華爾街日報》推出的“藍推送、紅推送”(Blue Feed,Red Feed),《衛報》的“吹破你的泡泡”(Burst Your Bubble),健形矯姿器(Lumo Lift)的新應用,都在嘗試讓信息傳播擺脫算法推薦的信息失衡狀態。

那麼事情就有趣了:個性化推薦算法分明是作為解決信息過載的途徑之一出現的,究竟是什麼因素,使它反而導致了信息失衡?

要想知道問題的答案,首先還得刨根問底,從算法本身入手考慮。

乾貨|潘多拉之盒:個性化推薦算法

推薦系統通用模型


“個性化推薦算法”只是最終被我們看到的一個技術模塊,而如果真正以系統的角度看待,任何的個性化推薦系統通常都是由3個模塊所組成的:用戶建模模塊、推薦對象建模模塊、推薦算法模塊。其中最重要、最基礎的模塊是建立個性化的用戶模型。建模必須要輸入用戶信息,這一過程也許不少人都有所經歷,一般是以下幾種:

1、用戶主動輸入信息。比如bilibili中用戶標註感興趣程度,知乎、豆瓣初始登陸時的感興趣的主題、頻道,以及在各大搜索引擎中輸入的關鍵詞;

2、用戶的瀏覽行為和瀏覽內容。比如服務器端可較好記錄的瀏覽次數、頻率、停留時長,瀏覽頁面時的操作(收藏、保存、複製等),甚至瀏覽時用戶表情的變化等;

3、推薦對象的屬性特徵。通常考慮對象的內容和用戶之間的相似性,比如以產品為對象的淘寶,主要考慮用戶對商品的評價,以及商品的品牌、價格、出售時間等。

本質上,這必須是一個動態的建模過程,在計算機中通過擬合來不斷分析並且得出動態模型,具體的建模方法主要有遺傳算法、基於機器學習的方法,例如TF-IDF、自動聚類、貝葉斯分類器、決策樹歸納和神經網絡方法等。

乾貨|潘多拉之盒:個性化推薦算法

用戶建模的過程


而我們很容易發現,無論這些方法如何複雜,缺陷是根本不能避免的。

比如,利用日誌跟蹤用戶興趣偏好存在興趣偏好走樣的問題,尤其過度跟蹤用戶的歷史記錄時,會引起用戶反感甚至放棄使用——常有人抱怨自己無意中點進一則無關信息,卻從此被反覆推薦、煩不勝煩的經歷:不小心點開了一則低俗信息,就讓原本的App徹底變成色魔個性化定製版;在動物新聞裡看了看,第二天頁面就刷屏動物世界。但是另一方面,如果跟蹤不靈敏,用戶很快會覺得不感興趣,打開別的軟件。這些是計算機擬合的動態模型本身難以徹底規避的問題。

張一鳴自己也承認這一點:“有次我們工程師開會,說推薦不好,分發量不夠,不如我們期望的,我們去估算我們的用戶中有多少讀者,但總是到不了那個量,機器總是不能抵達它該到的用戶。所以我們的工程師去讀那個內容,他自己看,我發現他們也看不懂。機器畢竟是統計非常大的數據,如果是非常小眾的人群、文字非常隱晦,甚至是反面的意思,機器確實難以突破。”

除了機器自身侷限性之外,這種推薦算法的效果還會帶來更讓人擔憂的影響——“過濾泡”與“迴音室”。

為說明搜索引擎的推薦偏差,互聯網活動家埃利·帕裡策發明了“過濾泡”一詞。他認為,這種搜索引擎推薦算法會阻礙人們認識真實世界的某些層面,因此稱之為“過濾氣泡”。 “迴音室”也是類似的概念,它們都意味著系統性地忽略部分信息來源的社會結構,但迴音室傾向於主動選擇忽略外界信息,過濾泡的忽略則也有可能是環境帶來的影響。

乾貨|潘多拉之盒:個性化推薦算法

“過濾泡”


微信朋友圈等社交媒體,可以尤其方便地利用受眾表露的偏好、綜合與其相似的好友的偏好,為用戶推薦內容。這種推薦導致用戶獲得信息的高度同質化——用戶容易沉浸在自己和朋友組成的“迴音室”,比原本更不容易看到與自己不一樣的意見,並且還在一個小圈子中反覆被固化已有的觀念。但事實上,不斷被強調鞏固的很可能只是每個人的偏見,就像氣泡一樣不符合真實。這非常容易加劇社會價值觀的對立和衝突。

比如在國外,偏見往往誕生於政治傾向。在Buzzfeed平臺上,擁有相似政治傾向的人(如民主黨支持者)會組成相對緊密的關係,並通過在線互動,分享與自身傾向一致的信息。

針對這一現象,英國著名的左傾報紙《衛報》推出了全新的版塊“戳破你的泡泡”(Burst Your Bubble)。即使報紙讀者大多數偏右,但出於拓寬讀者視野的目的,這一版塊會每週精選5篇右派文章。欄目負責人詹森·威爾森說,專欄是特地“給那些想要了解保守派想法,但沒時間整合的讀者”提供的。

乾貨|潘多拉之盒:個性化推薦算法

Read Across the Aisle界面


此外,一款名為“Read Across the Aisle”的APP還開發了一個“意識形態波譜”功能——在讀者閱讀界面的下面,有一個類似光譜一樣的色條,受眾可以看到自己閱讀的內容處在光譜的哪個位置。通過色條的參照,可以瞭解自己是“左”還是“右”。其開發者說:“如果我們能幫助用戶接觸到更多新觀點,讓他們成為各自社交媒體氣泡圈子裡的燈塔,那我們就算是做到了打破觀念隔離牆的第一步,讓人們更能理解與他們相反的觀點和政策,哪怕他們並不認同。”

而“過濾泡”和“迴音室”的第二個危害是,一些短期偏好會擾亂算法。比如用戶要旅遊前搜索景點、或者只是為了社交需求幫朋友轉發一些內容,那麼這一偏好就會輸入為新的用戶模型中的一部分。可用戶真正感興趣的其他信息,可能就會被“過濾泡”排擠在外,需要經過很長一段時間後,耗費用戶的精力進行重新搜索,模型才會更新恢復。

最後一個副作用則很有趣——算法分配過程中也會形成新的壟斷:原本它給予了一些新人機會——只要寫的內容讓人感興趣,都有機會被推薦;但一個平臺穩定後,必然有一些大V及其團隊已經坐擁大量的粉絲、還能保持高頻的發佈量,實際導致新的內容生產者想要獲得流量的成本依然較大。比如微博的頭條等,就一度被大量營銷號所佔據;水軍、買粉等行為也無形中侵蝕了這一套以流量為而核心考慮的算法分配體系。

乾貨|潘多拉之盒:個性化推薦算法

水軍的力量


《網絡評論藍皮書:中國網絡評論發展報告(2018)》也指出,算法推薦可源源不斷地給用戶提供所喜歡的信息,但同時也使用戶降低了對信息的生產流通以及其中隱藏的利益結構的關注程度。此外,個性化內容推薦與傳播在一定程度上削弱了媒體作為培養公民參與公共生活能力和實現公共領域輿論引導的重要價值,忽略了用戶信息判斷和使用能力方面的多元信息需求;而憑藉專業把關人經驗和洞察力的編輯分發仍然在篩選、推薦等領域具有質量優勢,發揮著對於算法分發的“平衡器”作用,避免用戶沉浸在自己和朋友組成的“迴音室”中。

因此,在目前二者無法相互取代的前提下,“專業把關+個性化推薦”或可稱為最優解。而除了今日頭條的蛻變,臉譜網的Fact-Checking(事實審核)機制,將用戶舉報過多的新聞信息交付機構記者來判、新聞客戶端一直強調的在突發新聞時,編輯一定 24小時值守等,都是這一最優解給予的相關實踐與啟示。

1、《傳媒評論》2014年第3期《機器替代編輯?》;

2、王國霞、劉賀平《個性化推薦系統綜述》;

3、《網絡評論藍皮書:中國網絡評論發展報告(2018)》。



傳媒人學習圈




分享到:


相關文章: