內容理解在新浪微博廣告中的應用

內容理解在新浪微博廣告中的應用


嘉賓:陳兆基 微博 資深算法專家

整理:付一韜

來源:DataFunTalk

注:歡迎轉載,轉載請留言。


導讀:做算法的人常說"數據為王", 而對於做廣告的人來說,內容理解則是廣告投放的基礎。本次分享將介紹在微博廣告中,內容理解起到了哪些作用。

主要內容包括:

  • 廣告系統及微博內容商業化簡介
  • 內容理解能力不足引發的問題
  • 構建內容理解能力以及具體商業應用

01

廣告系統及微博內容商業化簡介

1. 廣告系統各方利益訴求

內容理解在新浪微博廣告中的應用

廣告投放實際上是廣告主、廣告平臺以及用戶三方利益分配的問題,因為需要平衡三方的利益訴求,所以廣告平臺的核心任務是如何在儘量不打擾用戶正常的內容消費流程下達成儘可能多的廣告主投放 ROI。

2. 廣告投放核心任務

內容理解在新浪微博廣告中的應用

簡單來講,廣告投放核心任務是讓用戶在合適的時間看到適合的廣告。我們可以拆解成三個部分,分別是:

  • 誰在看:對用戶的追蹤,對用戶的歷史數據收集及各種用戶畫像的挖掘;
  • 看的是什麼:理解當下用戶在平臺上消費/交互過的內容;
  • 適合看什麼:根據上面兩部分加上其他信息,會針對該用戶當下適合看什麼廣告進行投放。

3. 非內容場景

內容理解在新浪微博廣告中的應用

在微博中,非內容場景主要是關注流/熱門流。它主要的特點是內容多樣,上下關聯性弱。在這樣的場景下,用戶對於流內內容沒有太多的預判,廣告也不一定需要和緊挨著的自然內容有聯繫,所以這種情況下廣告投放更偏向於選人。

4. 內容場景

內容理解在新浪微博廣告中的應用

與非內容場景對應的是內容場景,主要包括正文頁、評論和搜索等場景,用戶通過對特定內容消費進去該場景。在這樣的場景下,投放廣告對內容的相關性有要求,所以內容理解對這類場景下廣告投放的影響更為顯著。

02

內容理解能力不足引發的問題

1. 問題及難點:針對單一內容

內容理解在新浪微博廣告中的應用

首先,針對單一內容/單一廣告由於內容理解能力的不足會引發以下幾個問題:

  • 營銷內容監管:用戶有時會抱怨平臺的廣告太多。經過日誌分析,我們發現除了通過廣告系統投放出去的廣告外,曝光記錄中還包括用戶關注賬號自行發佈的營銷目的較明顯的"自然博文",所以這個時候用戶刷微博的時候會認為這些都是廣告,比如下圖左側中某明星在雙十一發布了一篇自然博文就帶有明顯營銷屬性。我們的解決方案是將非廣告營銷內容通過模型自動識別出來,而這方面的難點就是每天發博量太大,而且缺乏標註。
  • 內容展示時機把握:這個主要體現在相鄰自然內容傳遞的情感不一定適合做營銷內容展示,比如下圖中間上下兩條自然內容都是關於某品牌的概念機,但上面一條說它"沒有實用價值",是一條負面的博文,而下面是一條正面的博文。如果下面是一條商業推廣的廣告,則當下並不是一個好的展示時機。我們的解決方案是對自然內容進行情感分析和實體標註,在廣告投放是進行規避。難點是微博會"創造"新的表達方式,比如2018年的"錦鯉"事件。
  • 效果評估中的噪聲:
    如果不對特定內容進行識別,那麼創意模式引起的特定指標表現"虛高"或"虛低"。比如下圖右側上方是一條"騙點擊"的廣告素材 ( CTR 虛高 ),而下方是一條通過內容內嵌導流信息 ( CTR 虛低 )。我們的解決方案是識別/標註特定內容模式,其中難點主要是廣告主會對創意進行不斷迭代,我們也需要對模型進行不斷的迭代。
內容理解在新浪微博廣告中的應用

2. 問題及難點:非單一內容

內容理解在新浪微博廣告中的應用

其次,針對非單一內容由於內容理解能力的不足會引發以下幾個問題:

  • 營銷內容同質化:主要的問題是違規內容暴力闖審,頻控/負反饋失效,比如下圖左側中的兩個營銷內容,乍看一眼兩個廣告是一樣的 ( 發佈視頻相同,文字相似 ),但是發佈營銷內容是不同賬號的,這樣用戶對一個廣告點了不感興趣,還是會刷到相似的廣告。我們的解決方案是識別標註相同/相似營銷內容,而難點是在不同場景下面相同/相似的定義是不同的。
  • 自然/營銷內容不完全匹配:微博中娛樂明星/幽默搞笑/時事新聞是每日自然內容曝光大頭,這樣商業屬性並不明顯,比如下圖中間是微博的熱搜榜,這些自然內容所對應的標籤是很難進行廣告投放。我們的解決方案是構建統一的商業內容標籤體系,對自然內容進行商業屬性挖掘,並且基於這個進行廣告投放。這裡的難點是缺乏標註,覆蓋率低。
  • 優質內容生產門檻制約中長尾廣告:中長尾的廣告主缺乏相應能力/資金創建高質量營銷內容,對於任何平臺來說廣告收入主要來源於一小部分頭部廣告主這是不安全的,所以通常情況是要拉進來中長尾的廣告主。我們的方案基於過往效果好的廣告,智能生成/推薦創意內容,而難點就是現有模型能力與實際應用是有差距的。
內容理解在新浪微博廣告中的應用

03

構建內容理解能力以及具體商業應用

1. 內容理解任務

內容理解在新浪微博廣告中的應用

內容理解任務的定義:對於給定內容 ( 文本/圖片/視頻 ),通過算法完成幾類的事情:

  • 分詞/實體識別:基本的分詞和實體識別 ( 人名、地名、品牌等 );
  • 情感分析:識別內容中的正負面情感,針對負面內容還需要進一步的判定,例如對於全局負面 ( 空難、車禍… ) 是否出廣告,針對特定品牌負面內容不適合出特定品牌的廣告,但不影響出其它品牌的廣告;
  • 相似判定:給定兩篇內容,判定是否相似,或者給定一篇內容和查找範圍,返回這個候選範圍與之相似的內容;
  • 內容分類:構建一套商業的標籤體系,基於不同的內容類型訓練分類模型,其中文本的分類和圖片的分類最終結果融合是一個難點。例如賣手機殼和賣手機的廣告在圖片上面是很難區分的,所以需要搭配著文案進行區分;
  • 特定內容識別與生成:包括關鍵詞識別、創意模式識別、智能創意生成和基於微博內容構建明星品牌知識圖譜。

2. 基於內容的廣告投放

內容理解在新浪微博廣告中的應用

基於內容的廣告投放是針對內容場景,除了在已有人群定向之外,增加利用內容理解的方式進行廣告投放和優化的能力,主要分為:

  • 標籤構建:在標籤構建中需要有區分度將內容分開,並且需要合適的顆粒度來保證標籤不會太細導致投放無法產生足夠的曝光;
  • 對內容進行標註:有了上面的標籤體系之後,需要對內容進行標註,我們目前有兩個模型:1. 快速響應模型:基於公開語料來作詞向量和倒排索引來應對搜索或新發熱門博文等;2. 深度模型:基於Bert通過微博語料進行分類任務的 fine-tune,但是由於性能的問題無法滿足直接用於線上 inference 的延時需求,但可以通過高速 KV 存儲構建緩存,將深度模型的結果倒入線上投放;
  • 基於內容廣告投放:將內容的標籤打好之後,可以根據內容進行廣告的投放:1. 隱式優化:在滿足廣告主人群定向的條件下,根據當前的內容進行廣告的優化,比如一個用戶身上有兩個標籤 ( 汽車和數碼 3C ),當用戶刷到了汽車相關的內容,在這個場景下面投放汽車相關的廣告效果會更好;2. 顯式優化:開放內容標籤給廣告主,將廣告投放在選定內容標籤對應的內容相關廣告位,這時並不關心當前請求對應用戶畫像標籤屬性。
內容理解在新浪微博廣告中的應用

上圖是我們內容定向的簡單流程圖。

3. 明星品牌知識圖譜構建及應用

內容理解在新浪微博廣告中的應用

對於為什麼要做明星品牌知識圖譜,主要原因是娛樂明星是微博內容的護城河,而品牌廣告是微博收入的核心,所以希望利用微博數據挖掘明星和品牌之間的商業聯繫,更好的將這兩者結合在一起。

構建明星品牌知識圖譜的幾個方面:

  • 實體:包括明星 ( 性別/年齡/別名 )、作品 ( 年代/分類/粉絲 )、品牌 ( 別名/行業/粉絲 ) 等實體;
  • 關係:包括明星"代言"品牌、明星"參演"活動、品牌"贊助"活動等等;
  • 應用:有了上面的實體和關係,我們會基於 Neo4j/CQL 搭建在線查詢服務,對明星/影視作品相關內容進行商業拓展,並針對相似賬號進行投放推薦。
內容理解在新浪微博廣告中的應用

上圖是我們明星/品牌知識圖譜的一部分,我們看下上面可以怎麼進行應用。

針對輸入的 query "朱一龍",我們可以通過上圖左側的圖譜定位到朱一龍"代言"味全酸奶,如果味全酸奶在微博投放廣告就會出相關的廣告,否則可以根據味全酸奶對應行業信息出相似的廣告。

另一方面實體還可以有競爭關係,例如上圖右側的圖譜,寶馬跟其他汽車的實體存在"競爭"關係,寶馬如果希望對投放內容進行"競品"排除,可以根據圖譜,避免寶馬廣告出現在提及其他"競品"的內容對應廣告位。

04

總結與展望

內容理解在新浪微博廣告中的應用

在微博商業化中,我們對內容理解有以下幾方面應用:

  • 構建統一內容分析/表達能力:針對文本/圖片/視頻這些內容使用算法進行分析/表示,例如分詞、關鍵詞識別、文本向量化等等;
  • 統一向量表示:基於特定任務進行向量 fine-tune 來獲得文本/圖片/視頻的向量化表示,並將這些向量化進行融合;
  • 提供基礎內容理解服務:基於獲取的統一向量表示可以完成對基礎內容的理解,比如相似性判定、內容分類等等;
  • 靈活支撐各種商業場景:基於上面的基礎內容理解服務,我們可以靈活支撐上層各種的商業場景,例如隱式內容優化、顯式內容售賣。

視頻播放地址:
https://appukVkRYx45804.h5.xeknow.com/st/9nuZmRa2A


分享到:


相關文章: