視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

雷剛 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

千圖易讀,一video難讀。

或許你多少有些瞭解,在以深度學習為核心的AI算法大殺四方,機器在理解圖像、語音等方面都取得了很大的進步時,理解視頻內容仍還是一件很困難的事情。

挑戰無非三方面

首先,信息量大,不是簡單的詞語就能概括視頻的內容。

一圖勝千言,僅一張圖片就包含大量信息,難以用幾個詞來描述,更何況是短視頻這種富媒體形態。

其次,維度多,視頻是視覺聽覺多模態信息融合載體。

多模態深度語義理解能讓機器更深地理解短視頻背後的含義,然而也面臨著很多挑戰,例如圖像像素如何與語音波形或聲譜圖產生相關性。

最後,業內始終缺乏大規模的數據集

更大、更具挑戰性的數據集,必然會對學術界和工業界研究和實踐方向的推動起著重大作用,如圖像分類裡的ImageNet,目標檢測裡的COCO,而對於短視頻,一直沒有大規模的數據集。

而且要解決這些問題,並非一朝一夕之努力能完成,但若從今打造一個有信服力的數據集,未來可期。

所以,快手自知:舍TA其誰。作為擁有數億用戶的短視頻平臺,快手不僅擁有大量的視頻數據,而且擁有海量用戶的視頻行為數據。通過對海量用戶行為的預測,來判斷視頻內容理解算法的優劣,不僅數據量夠大,而且也足夠客觀。

這也是快手聯合中國多媒體大會,共同發起舉辦用戶興趣建模大賽的原因。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

用戶興趣建模

顧名思義,該比賽圍繞用戶興趣進行建模,核心是充分挖掘AI理解的視頻內容來挖掘用戶興趣數據,使得推薦給用戶的視頻更加精準,最終以AUC得分高者勝。

作為主辦方,快手提供了一批脫敏之後的用戶點擊、點贊和關注等交互行為數據,同時提供這批作品封面的視覺特徵、人臉特徵和文字描述特徵,這些數據特徵共計3w+用戶、920w+視頻,以及6000w+行為數據

而且為了激發更多參賽者,快手還特地設置了30w+獎金池。3人結隊,為期3個月,分為初賽和複賽,最後取前10名嘉獎,一等獎20萬元,二等獎5萬,三等獎3萬,另外還有2個極客獎1萬元和5個優勝獎各3千元,總獎金池高達31.5萬元。

此外,複試排名的前30,還能在畢業前隨時直通快手面試。

聽起來就一顆賽艇。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

本次大賽提供的訓練數據

具體任務中,選手要通過一個視頻及用戶交互行為數據集對用戶興趣進行建模,然後預測用戶在另一視頻數據集上的點擊行為。

值得注意的是,這兩個數據集的視頻ID交集為空。

這使得本次大賽和以往大多數用戶興趣建模大賽有很大的區別,選手必須充分利用AI算法提供的視頻理解結果,對視頻內容進行提煉,從而建立兩個數據集的關聯點。

無論在學術界,還是工業界,這都是一個難且新的問題。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

內容理解在快手

不過,這樣的問題在快手其實每天都在得到訓練和解決。

現在整個快手平臺,已經累計擁有超過50億條視頻,日活躍用戶超過1.2億,其核心產品邏輯是視頻內容的個性化推薦。

一方面,這需要機器對內容的理解足夠極致,從多種維度、綜合利用多種技術對短視頻進行分析理解,再把理解應用到推薦模型中去。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

另一方面,內容安全是懸在每家互聯網公司頭上的達摩克里斯之劍,在非法違規內容監測上,機器對內容的理解將大大減少審核所需的人力,原創視頻的保護亦然。視頻搜索、商業化也需要機器對視頻的深度理解。

而上述原因,也是為什麼快手願意花費人力、拿出數據、重金激賞參賽項目的核心原因。

快手之腦

在快手內部,用AI來理解視頻的團隊叫做多媒體內容理解部門(Multimedia Understanding),簡稱MMU ,這個團隊正在試圖打造“快手之腦”。

該部門負責人李巖,也在此次比賽中,分享了部門技術建設的核心思路。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

理解視頻之所以難,是因為目前AI展示的諸多能力,還停留在圖像、語音等感知層面, 然而視頻則是二者的疊加,所謂多模態,在此體現得最為充分,而AI在這個領域才剛剛開始起步。

此外,對高層語義的識別理解也是AI亟待解決的問題。

而解決思路方面,李巖認為,視頻內容理解從大方面分為感知和推理兩個階段。

感知階段,快手目前主要從四個維度分析理解視頻內容,分別是人臉、圖像、語音,和音樂。

其中,人臉信息在社交視頻中佔據重要地位,需要對視頻中的人臉進行檢測、跟蹤、識別,並分析出視頻中人物的年齡、性別等屬性,挖掘其中的3D形狀、表情等信息。

圖像維度,通過分類、物體檢測等算法分析場景、物體,通過圖像質量分析算法對圖像的主觀質量進行評估,通過 OCR 分析圖像中包含的文字信息等。

語音方面,不僅要識別語音,還要識別說話人,對說話人的情緒、年齡等語音屬性進行信息分析。

音樂方面,則要進行音樂識別、歌聲、伴奏分離、歌聲美化打分等分析任務,對音樂信息進行結構化。

基於以上四個維度,來完成對視頻低級語義信息的感知。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

在完成上述任務後,機器才進入到推理階段。機器需要基於感知階段的輸出,將視頻看做一個整體,進行分類、描述、檢索。

此外,像人將學到的知識存到大腦一樣,令機器把視頻內容整理並存儲到知識圖譜中,也是目前快手的主要做法,這樣融合感知內容和知識圖譜,使得理解視頻高層語義及情感成為可能。

值得一提的是,為了實現對視頻內容的理解,還有一大攔路虎要克服。

挑戰和未來

非常直接而現實的是,當前AI技術還處於嚴重依賴人工標註的階段。

這需要人類坐在電腦前,一個個畫框打標籤,以幫助機器更好地理解。該做法不僅成本高,效率低,而且對標註員而言非常枯燥。未來減少人類標註,或者讓機器能夠更智能地去理解新內容,是AI算法進化的核心方向之一 。

這也是快手發起此次用戶興趣建模大賽的核心原因之一,希望培養、吸引更多年輕力量,加入到這場AI未來變革的先鋒部隊之中。

在過去幾年中,快手的多媒體內容理解團隊擁有近百名資深算法研究員和研發工程師,大部分研發人員具有多年 BAT 工作經歷,核心算法研究員擁有超過十年的研發經驗。

也有清華、中科院、港科大、南京大學、上交、京都大學等國內外高校學生加入快手,實現產學研一體,打造了人才梯隊培養的機制。

但李巖強調,一切還遠遠不夠。

快手還希望找到更多有志於計算機視覺、語音識別、視頻內容理解、人臉識別&3D重建等相關領域的人才。

李巖相信,快手目前擁有的數據資源,以及正在嘗試的攻堅,都會是吸引人才的重要砝碼。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

One more thing

最後,也附上本次興趣建模大賽的答辯乾貨

這次比賽Top10的答辯選手解決方案,一句話總結:一個框架、兩類思路。

一個框架

這裡說的框架並不是算法框架,而是在處理這類問題時的通⽤代碼。這個框架能夠使算法在處理不同數據時能夠簡單快速地完成驗證。

框架設計的整體思路就是特徵群分離,並且不同數據類型進⾏分離。特徵群分離主要指的是不同的數據來源。

提取的特徵進行分類,例如用戶行為特徵群、視覺特徵群等。每個特徵群又可以分為連續特徵或者離散特徵,例如視覺特徵群可以包括連續的降維特徵以及離散的視頻聚類特徵等。

這樣做有三點好處:

  1. 對於新發現的特徵可以快速知道適用於哪一側的模型,方便特徵擴容。
  2. 特徵群分開,可以快速定位哪些特徵對線上效果增益最大。代碼與特徵分離,框架一次開發,後期添加特徵的成本大大降低。

下圖為一個典型的框架設計圖:

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

總體來看,比賽的特徵分為:原始特徵、Embedding特徵,⼿⼯特徵。這些特徵又可以分成連續特徵和離散特徵。所以一個好的框架,在設計之初就可以充分考慮到這些數據,從而在後期對這些特徵進行很好的擴容。

大部分選手針對大賽提供的數據把特徵分成了了若干個特徵群,每個特徵群對應一大類數據的輸入,然後分別針對每個特徵群進行特徵提取。

在框架設計的時候,會把特徵按照不同的類別進行劃分。這樣做可以儘可能復⽤代碼框架。

兩大類思路

選手的思路大致可以分為兩大類,⼀個是以特徵工程加模型調參為代表的傳統機器學習算法。

另⼀類是以模型構造加註意力機制的深度學習算法。

特徵工程主要是以第一名為代表的伏地魔團隊,模型主要是第二、三名團隊。

當然這兩種算法在具體的實現過程中存在一定的交叉,但是不同的實現都有所側重。

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

第一名“ 伏地魔團隊”的特徵工程

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

視頻版ImageNet?快手搞了一場用戶興趣建模大賽|附前三名乾貨

第二、三名的網絡結構

總體來說,特徵工程需要對數據極其敏感,而且需要對快手App本身有更深入的瞭解,知道用戶的使用習慣,並且對數據具有極強嗅覺。

設計模型最多的工作則是調整網絡參數,需要對模型不同層、不同網絡之間有極高的能力。深度模型可以隱式地提取數據的特徵,具有很好的數據抽象能力 。

當然,如果還希望瞭解更多相關比賽和多媒體內容理解信息,歡迎移步快手招聘公眾號。

也希望能有更多類似的數據集開放、類似的比賽舉辦,不管是為解決行業難題,還是實現人才培養,最終都能促進整個產學研向前進步。

嗯,一舉多得,值得鼓勵~

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: