09.21 快手 AI 技術副總裁鄭文:快手在內容生產&內容理解上用到的 AI 技術

雷鋒網 AI 科技評論消息,中國多媒體大會日前於西安召開,會上,快手科技 AI 技術副總裁鄭文分享了多媒體技術,尤其是 AI 技術在快手的應用。他表示,快手的使命是「用科技提升每一個人獨特的幸福感」,這其中涉及到視頻和用戶的雙向感知,用到多項 AI 技術。他重點描述了內容生產和內容理解兩大模塊涉及到的相關技術,以下為他的演講內容,有刪減。這一事件在雷鋒網旗下學術頻道 AI 科技評論數據庫產品「AI 影響因子」有相應加分。

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

快手 AI 技術副總裁鄭文:快手在 AI 技術上的一些應用

鄭文,清華大學軟件學院 2001 級校友,斯坦福大學計算機系博士,曾在硅谷多家知名大公司、創業企業從事計算機圖形學、計算機視覺、深度學習等方向的研究,現任快手 AI 技術副總裁,帶領快手在 AI、AR、CV、CG 等方向的前沿研究。

快手的使命是「用科技提升每一個人獨特的幸福感」。這裡有兩個關鍵詞,一是「每一個人」,這說明快手的價值觀是非常普適的,但我們同時也強調每個人的幸福感是「獨特的」。這兩個關鍵詞加在一起,就對我們的工作提出非常大的挑戰,快手希望通過科技的手段達成這一目的。

目前快手是通過記錄來提升幸福感的,這可以從兩個方面來體現。首先,用戶希望能看到更廣闊的世界。第二,用戶也有分享自己,被更廣闊的世界看到的需求。

但是這裡面臨一個挑戰,現在快手累計擁有超過 50 億條視頻,已數億用戶,在這兩個海量的數字面前,如何有效分配注意力?過去,注意力一般會集中在所謂的「爆款視頻」裡,但在爆款視頻之下,還有大量可能包含了非常豐富的信息、類別多樣化的內容,這種「長尾視頻」往往很難被別人注意到。如此,一些需求小眾,或者興趣比較細分的群體往往很難找到他們想要的內容。

單單依靠人工手段很難解決這一問題,因為我們需要在視頻和用戶中實現雙向感知,進行精確匹配,這背後要處理的是萬億級的大數據。快手從很早就開始引用 AI 技術去解決這個問題。今天,從視頻生產到視頻分發,在快手整個流程中使用了大量的 AI 技術。

內容生產

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

快手今年推出了一些流行的爆款特效。比如「時光機」魔法表情可以展示人的面部從年輕到變老的過程展現出來,挑起用戶內心深層次的情感。「尬舞機」魔法表情,將拍攝和遊戲結合在一起,使記錄變得更加有趣。

我們也希望將內容質量變得更高,研發並應用了很多圖像增強技術。例如,用戶在光線很暗的環境下拍攝,產出的視頻往往會丟失信息和細節,通過暗光增強技術,可以將這些細節恢復。

我們也希望通過 AI 技術使得記錄更加豐富有趣,同時又具有更高的質量。基於這個目標,我們開發了大量多媒體和 AI 技術,比如背景分割、天空分割、頭髮分割,人體關鍵點、人臉關鍵點、手勢關鍵點檢測等等。

但快手有很大一部分用戶使用的是中低端機型,而現在先進的 AI 技術對設備的計算量的要求極高,如何讓先進的技術被最多的用戶體驗到,我們希望對底層平臺進行定製化開發,基於快手自研的 YCNN 深度學習推理引擎,上述技術在大多數機型上都能高效運行,並針對不同機型、不同硬件進行了適配和優化。

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

接下來是我們近期在內容生產方面的研發的一些技術:三維人臉,針對單張人臉圖像恢復出人臉的三維信息,一方面可以實現對人臉的一些修改,比如打光、做一些表情、實現三維變臉特效;另一方面,通過三維人臉信息,我們可以提取出人的表情變化,然後把表情遷移到虛擬的玩偶上,這類似於 iPhoneX 推出的 Animoji 功能,但 iPhoneX 有結構光,且運行 Animoji 需要很強大的算力,我們通過技術研發,在配置較低的手機上也能實現類似功能。

剛才也提到了語義分割,比如把人像和背景分開,分別對人像和背景做特效,或者替換背景,另外還可以做人像虛化;頭髮分割,可以把頭髮區域分割出來,做染髮效果。另外還有如天空分割等其他分割技術。

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

人體姿態估計則是預測人的關節點位置,利用這一技術,我們可以在肢體上加特效,或者修改人的體型,做美體瘦身功能。此外,我們還利用人體姿態去給跳舞動作打分。

手勢檢測是把各種特定的不同手形檢測出來,實現「控雨」等玩法。另外還有 AR 相機姿態估計,背後是快手自研的 3D 引擎,並在其基礎上添加編輯器模塊、渲染模塊、肢體模塊、聲音模塊等,來實現模型精緻而自然的光感、材質。

在音視頻方面,我們運用了很多智能算法,比如需要視頻儘可能清晰,但同時也要求傳輸流暢,這就需要針對視頻複雜度做一些自適應優化。另外,我們也會對圖像的 ROI 進行分析,比如視頻裡面人臉的區域往往對大家的觀感影響最大,我們會把人臉的區域檢測出來,然後將碼率做得更高,使得整體觀感獲得很大的提升。

我們也會檢測圖像質量,比如視頻生產過程中存在一些導致圖像質量較低的因素,如拍攝沒有對好焦,鏡頭長期沒有擦試,或者視頻經過多次上傳和壓縮而產生塊狀瑕疵。我們會把這些問題通過 AI 算法檢測出來,一方面提醒用戶拍攝的時候注意這些問題,另一方面在做視頻推薦時也會對高質量視頻進行一些傾斜。

內容理解

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

內容生產環節完成後,視頻會被上傳到後端服務器,這裡我們需要對視頻內容進行更深層次的理解。視頻的內容理解會用在很多方面,比如內容安全、原創保護、推薦、搜索、廣告等等。這裡大概分為兩個階段。

首先是感知階段,從人臉、圖像、音樂、語音四個維度對視頻信息進行理解。

人臉是一個很重要的維度,因為人臉往往包含了人所關心的最主要的部分,我們會對人臉區域進行檢測,識別身份,跟蹤位置,提取關鍵點,得到年齡、性別、表情等信息。

另外一個維度是圖像層面,我們會對圖像進行分類,如圖像是在什麼場景下,此外也會檢測圖像中有哪些物體,還會進行圖像質量評估,以及利用 OCR 技術從圖像中提取文字。

音樂也是一個非常重要的因素,它是影響視頻感染力很重要的一部分,我們可以從視頻裡識別出音樂類型,甚至可以對音樂進行結構化分析,把伴奏和歌唱的部分分開。最近我們也加入了 K 歌功能,現在在研發如何美化歌聲,給歌聲打分等等。

語音也是視頻非常重要的維度,往往從圖像中可能並不能很好地得到視頻所傳達的信息,這時候語音就非常重要,我們會把語音識別出來轉化成文字,也會通過語音去識別這個人的身份、年齡、性別等等。

第二是推理階段,通過把這些不同維度的信息進行多模態融合,推理出更高層次的語音信息,或者對視頻進行情感識別。

我們也用到知識圖譜技術,把視頻裡的知識存儲在知識圖譜裡表達出來。通過知識圖譜的推理,我們能夠得到一些更高層、更深入的信息。

以下是我們在內容理解方面一些比較具體的技術,如快手開發了一套視頻標籤系統,可以對視頻裡出現的大多數內容和場景進行分類。在快手語音識別功能模塊,我們採用深度學習算法,結合上下文語境模塊,使得識別精度得到很大提升。

快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术

一方面,我們需要理解視頻內容,另一方面,我們也需要對用戶進行理解。這裡包含用戶的基本信息,比如年齡、性別、IP 地址、地點、手機型號等等。用戶在實時使用快手時,也會產生一些行為數據,這些數據都會傳送到後端的深度學習模型裡,訓練出對用戶理解的向量。通過這些向量,我們可以預測用戶的興趣以及他與其他用戶之間的關係。

最後我們得到對用戶的描述以及對視頻的理解,用戶和視頻之間的匹配就會產生萬億級別特徵的大數據,這個大數據就會被用在實時在線的推薦系統裡。

另外我們也會對社區裡的內容進行排序,比如前面提到如何分配注意力,我們希望注意力分配的差距不要太大,所以會根據基尼係數調整視頻內容的分配情況。此外,還會考慮到內容的安全性、多樣性以及原創保護等因素。

(完)

雷鋒網雷鋒網


分享到:


相關文章: