從技術角度聊聊,短視頻爲何讓人停不下來?

從技術角度聊聊,短視頻為何讓人停不下來?

阿里妹導讀:基於時間碎片化、視頻交互強、內容豐富、體驗好等因素,短視頻近幾年處在流量風暴的中心,各大平臺紛紛涉足短視頻領域。因此,平臺對短視頻內容的推薦尤為重要,千人千面是短視頻推薦核心競爭力。短視頻一般從“點擊率”與“觀看時長”兩方面優化來提升用戶消費時長。

接下來,UC事業部國際研發團隊的童鞋,將從這兩方面重點論述短視頻模型點擊時長多目標優化。

背景

目前,信息流短視頻排序是基於CTR預估Wide&Deep深層模型。在Wide&Deep模型基礎上做一系列相關優化,包括相關性與體感信號引入、多場景樣本融合、多模態學習、樹模型等,均取得不錯收益。

總體上,短視頻模型優化可分為兩部分優化:

  1. 感知相關性優化——點擊模型以優化(CTR/Click為目標)
  2. 真實相關性優化——時長多目標優化(停留時長RDTM/播放完成率PCR)

上述收益均基於點擊模型的優化,模型能夠很好地捕抓USER-ITEM之間感知相關性,感知權重佔比較高,弱化真實相關性,這樣可能導致用戶興趣收窄,長尾問題加劇。此外,觀看時長,無論是信息流、競品均作為重要優化目標。在此背景下,短視頻排序模型迫切需要引入時長多目標優化,提升推薦的真實相關性,尋求在時長上取得突破。

從技術角度聊聊,短視頻為何讓人停不下來?

時長多目標的引入,排序模型不僅僅優化點擊目標,同時也要兼顧時長目標,使得排序模型的感知相關性與真實相關性之間取得收益最大化的平衡;目前業界點擊+時長目標優化有多種方式,包括多模態學習(點擊+時長)、聯合建模、樣本reweight等。

本次我們使用樣本reweight方法,在點擊label不變的前提下,時長作為較強的bias去影響時長目標,保證感知相關性前提,去優化真實相關性。此外,我們正調研更加自適應的時長建模方式(point-wise、list-wise),後續繼續介紹。上述是模型時長多目標優化簡介,樣本reweight取得不錯的收益,下面展開介紹下。

RDTM REWEIGHTING

觀看時長加權優化,我們使用weightlogistic regression方法,參照RecSys2016上Youtubb時長建模,提出點擊模型上樣本reweight。模型訓練時,通過觀看時長對正樣本加權,負樣本權重不變,去影響正負樣本的權重分佈,使得觀看時長越長的樣本,在時長目標下得到充分訓練。

加權邏輯迴歸方法在稀疏點擊場景下可以很好使得時長逼近與期望值。假設

從技術角度聊聊,短視頻為何讓人停不下來?

就是weighted logistic regression學到的期望,其中N是樣本數量,K是正樣本,Ti是停留時長,真實期望就近似逼近E(T)*(1+P),P是點擊概率,E(T)是停留時長期望值,在P<<1情況下,真實期望值就逼近E(T)。因此,加權邏輯迴歸方式做樣本加權,切合我們點擊稀疏的場景,通過樣本加權方式使得模型學到item在觀看時長上偏序關係。

從技術角度聊聊,短視頻為何讓人停不下來?

樣本加權優化我們參照了Youtube的時長建模,但做法上又存在一些差異:

  1. Label:Youtube以時長為label做優化,而我們還是基於點擊label,這樣是為了保證模型感知相關性(CTR/Click)。
  2. 分類/迴歸:Youtube以迴歸問題作時長加權,serving以指數函數擬合時長預測值,我們則是分類問題,優化損失函數logloss,以時長bias優化時長目標。
  3. 加權形式:時長加權方式上我們考慮觀看時長與視頻長短關係,採用多分段函數平滑觀看時長和視頻長短關係,而youtube則是觀看時長加權。

上述差異主要從兩個方面考慮:

  1. 保證CTR穩定的前提下(模型label依然是點擊),通過樣本reweight去優化時長目標。
  2. 分段函數平滑避免長短視頻的下發量嚴重傾斜,儘可能去減少因為視頻長短因素,而使模型打分差距較大問題。
從技術角度聊聊,短視頻為何讓人停不下來?

在模型網絡結構上,底層類目或內容特徵做embedding共享,連續特徵離散歸一化。訓練時通過引入weighted logistic去優化時長目標,在線預測依然是0/1概率,而在0/1概率跟之前不同是的經過時長bias修正,使得模型排序考慮真實相關性。

離線評估指標

1、AUC:

AUC作為排序模型常用離線評估特別適用是0/1分類問題,短視頻排序模型依然是0/1問題,所以,AUC是一個基礎離線指標。此外,AUC很難準確地評估模型對於時長優化好壞,AUC只是作為模型准入的條件,保證AUC持平/正向前提下,我們需要時長指標衡量準確地模型收益。

2、AVG_RDTM:(預測平均停留時長):每一batch中選取模型打分top k正樣本,取該批樣本觀看時長均值作為AVG_RDTM,AVG_RDTM的大小來離線評估模型在時長推薦的好壞。物理意義: 取打分top k正樣本,保證模型推薦感知相關性(CTR)前提下,AVG_RDTM指標衡量點擊正樣本的觀看時長收益,AVG_RDTM越大,時長收益越好。在線時長指標趨勢與AVG_RDTM一致,漲幅上有diff。

PCR_NORM REWEIGHTING

一期在觀看時長樣本加權上取得不錯的收益,二期是集中播放完成率上的優化。

二期我們策略review結果發現,目前一大部分高播放完成率的視頻,CTR較低,模型打分靠後,這批item中較短視頻內佔比較大。一期通過時長分段函數樣本加權,雖然一定程度上平滑了視頻長短對打分影響,但是播放完成率體現用戶對item的關注度程度更能反映推薦的真實相關性。短視頻觀看時長,

視頻播放完成率上取得突破對於短視頻規模化和口碑打造具有強推進劑作用

針對以上較短,較長的優質視頻打分靠後,下發量不足的問題,我們引入分位數播放完成率來做平滑加權。進一步升級觀看時長的優化。主要是以下兩種方式:

  1. 時長目標優化從停留時長加權演變至播放完成率加權,更好的平滑長短視頻之間的打分差異,使得模型打分更加註重於真實相關性。
  2. 視頻時長分段,停留時長完成率分位數歸一化+威爾遜置信區間平滑,使得各視頻時長段播放完成率相對可比,避免出現打分因視頻長度嚴重傾斜情況。

此外,較短或較長的視頻在播放完成率上存在天然的差距,我們按視頻本身長度離散,觀看時長做分位數處理,在此基礎添加威爾遜置信區間。歸一化長短視頻播放完成率上的差異,使得各長度段的視頻播放完成率處在可比區間內。

從技術角度聊聊,短視頻為何讓人停不下來?

從技術角度聊聊,短視頻為何讓人停不下來?

時長多目標優化從觀看時長(RDTM)升級至播放完成率(PCR_Norm), 使得短視頻觀看時長處在相對可比的狀態,儘可能減少視頻長短對打分影響,使得模型打分更加專注於User-Item真實相關性與視頻質量,提升長尾優質的視頻消費,拉昇整體視頻觀看時長。

二期Pcr_norm優化在一期觀看時長優化基礎上,離線評估AUC與AVG_RDTM,歸一化播放完成率更能反映用戶對視頻的專注度,通過優化視頻單次閱讀時長,閱讀完成率來提升整體的觀看時長的消費。

優化收益:

一期+二期離線AUC累積提升6%以上,在線人均時長累積提升10%以上。

結語

信息流短視頻多目標優化目前處於探索階段,初步探索出短視頻多目標優化漸進路線,從樣本reweight -> point-wise/list-wise時長建模 -> 多模態聯合學習的方向。此外,沉澱了套策略review和數據分析方法論,為後續時長優化提供數據基礎。

雖然現階段短視頻時長多目標優化取得不錯收益,但是規則性較多,後續我們將逐步轉向自適應的時長建模,從point-wise到全局list-wise時長優化,由感知相關性優化轉向真實相關性優化,力爭在消費時長取得重大突破。自適應點擊目標與時長目標的權衡收益最大化,將是我們面臨一大挑戰。

從技術角度聊聊,短視頻為何讓人停不下來?

寫在最後

國際信息流短視頻算法團隊是阿里巴巴UC事業部國際研發部下的信息流算法團隊,依託阿里龐大的國際產品矩陣與海量的數據,致力於打造業內一流的信息流推薦算法,服務於數億用戶的國際市場。最後,我們也歡迎各位牛人加入我們團隊,

歡迎訪問:https://job.alibaba.com/zhaopin/position_detail.htm?spm=a2obv.11410903.0.0.5b5944f6eF7PDG&positionId=43632,看看是否有你心儀的崗位!


分享到:


相關文章: