日播放量200億,快手背後的AI異構計算技術解密


日播放量200億,快手背後的AI異構計算技術解密

日播放量200億,快手背後的AI異構計算技術解密

智東西(公眾號:zhidxcom)
文| 李水青

近年來,短視頻成為移動互聯網全速發展的地方,而快手也成為最大的流量收割者之一。

據統計,2018年,快手短視頻App日活達到2億人次,日播放量達200億;大約每7箇中國人中就有一個快手的內容生產者,日均新增作品超過1500萬個;同時,有1600多萬人通過快手App獲得收益,總體收超過200億。

自2011年成立以來,快手從一個Gif生成工具一躍成為日活最高、最賺錢的短視頻內容社區之一,並且相繼得到百度、騰訊等互聯網巨頭、頭部內容平臺的投資,其發展速度令人咋舌。

而作為新一代視頻平臺,快手的AI“黑科技”也貫穿於其內容、分發、互動的各個環節,令人想要一探究竟。

近日,智東西來到快手總部,有幸探訪到了快手異構計算架構師鍾輝,並向他了解到了這家“國民級視頻社區”背後的AI技術應用及英特爾為其提供的硬核“裝備”。鍾輝的電腦屏幕上顯示著“距離春節2020年春節38天”的倒計時,這對他來說就像“高考倒計時”。據瞭解,快手上個月剛剛中標了2020年央視春晚獨家互動合作伙伴。

日播放量200億,快手背後的AI異構計算技術解密

一、快手,越來越像家AI公司

很多“快手”用戶都能體驗到,快手APP中有許多酷炫的視頻特效和包裝功能,這也是快手AI“炫技”的一大窗口。

在記錄和生產體驗方面,“梵高”特效中的場景語義分割、“雷神”中的手勢識別、國內首創的“智能剪影”、不挑手機配置的“變童顏”特效中的移動終端實時GAN等都是自主研發。

日播放量200億,快手背後的AI異構計算技術解密

在消費互動體驗方面,其視頻的增強、轉碼、播放、渲染以及直播和遊戲服務都涉及多個環節不同的智能技術,比如將720P視頻提升到1080P的超分算法等。

從內容方面來說,快手在內容安全、原創保護和視頻配音等側重方面有一套自己的“多模態內容理解”邏輯。

具體來說,快手使機器提取用戶上傳的文本、圖像、音頻中的特徵,通過知識圖譜、語義理解、分類檢索的技術來為視頻配上跌宕起伏的音樂、審核內容是否涉及黃賭毒、判別內容是否山寨其它的網紅視頻等。

日播放量200億,快手背後的AI異構計算技術解密

快手相關負責人告訴智東西,快手更加致力於通過機器學習、強化學習、圖表達學習等技術手段踐行“普惠”價值觀。

具體來說,通過全新一代推薦系統,快手一方面採用“基礎曝光+爬坡”的機制,使得所有用戶的內容既能得到關注,又能沉澱出精品;另一方面,利用“基尼係數”來平衡流量分配,適當將大主播的流量分配給長尾用戶,從而減弱流量維度的“貧富差距”。

日播放量200億,快手背後的AI異構計算技術解密

二、面臨存儲、網絡和計算挑戰,搭建異構計算平臺

AI和大數據驅動,體現在快手從“內容生產”到理解、分發、消費、互動的各個環節。作為一家主打短視頻/直播的全民性社區,快手的AI應用的數據中心在存儲、網絡、計算三個方面面臨巨大挑戰。

快手異構計算架構師鍾輝說:“一方面,日均新增超1500萬作品,內容數據、行為數據、以及由數據特徵提取帶來巨大存儲挑戰;另一方面,在訓練和推理當中因為特徵參數越來越多,導致模型變得越來越大,由此帶來這些數據在網絡當中傳輸的挑戰。再加上每天千億級的展示,這當中也帶來了計算和內存挑戰。”

日播放量200億,快手背後的AI異構計算技術解密

快手的一大關鍵解法是構建“異構計算平臺”。

簡單地說,“異構計算”就是在CPU加上各種加速器,如FPGA(Field Programmable Gate Array,現場可編程門陣列)、ASIC(Application Specific Integrated Circuit,專用集成電路)、GPU等等。

近年來,CPU性能提升已經遇到了明顯瓶頸,每年僅提升約3%,但是數據的增長率卻達到30%,所以供需之間有一個巨大的缺口,異構計算應運而生。

在加速器上,快手選擇英特爾的FPGA產品加持其數據中心。FPGA是可編程的器件,具有靈活、低延遲的特點,正好契合快手快速發展的AI模型、算子。

鍾輝說:“相比於GPU,FPGA更適用於線上強調實時推理的應用場景,並且在數據中心,FPGA是有網口的,而GPU是沒有的,所以有一些任務GPU是不擅長做的。”

日播放量200億,快手背後的AI異構計算技術解密

三、三大類異構平臺,基於英特爾FPGA

鍾輝介紹,快手異構平臺分為三大類,分別是基於英特爾A10、E3S10和PAC S10的器件。

以A10為例,它的峰值算力可以達到1.366TFLOPS,它也有一列列的片上的SRAM,這就構成了片上的分佈式存儲,可以提供6MB的SRAM;區別於CPU和GPU,它的片上的SRAM是分佈式的,所以它可以提供高達8TB/s的並行帶寬,非常滿足深度學習模型的需求。

日播放量200億,快手背後的AI異構計算技術解密

另外,A10也有片外的DDR,從接口來說,它提供了PCIe的接口,可以以加速卡的形式插在服務器上,構成一個異構計算系統。

同時,A10的網絡接口也是GPU所沒有的。從開發工具來說,傳統的FPGA開發有一個非常大的問題,那就是開發週期非常長,現在英特爾推出了OpenCL的開發語言降低了開發難度,雖然還不能像軟件一樣去做硬件,但是對於有一定硬件背景設計人員來說,開發難度和週期可以明顯降低。

鍾輝說:“另外一個很有意思的是英特爾E3S10,這個大加速卡上面是E3的CPU,視頻編解碼能力非常強,因為它裡面還有專門的GPU。然後,再加上S10的FPGA,就構成了一個比較齊全的異構加速卡。”

四、比CPU方案功耗效率提升8倍

鍾輝接著介紹了快手基於OpenCL的開發案例:“我們在數據中心部署FPGA,面臨‘上天’和‘入地’兩個方面的挑戰。”

“上天”是說FPGA是部署在雲上的,因此快手團隊首先要提高業務服務容量,充分利用FPGA來降低線上服務延時,同時像開發軟件一樣去交付硬件,從而實現高速的業務迭代;“入地”則談的是部署,則要求成本可擔負、具有穩定性且能耗更低,另外,還需要規模化、容器化部署,以解決資源的彈性部署。

日播放量200億,快手背後的AI異構計算技術解密

以DRN(Deep Ranking Network)加速為例,當時商業化部門的排序網絡在業務高峰期出現了抖動,需要採用異構方案來做加速。考慮到其中以計算為主的工作負載佔到了CPU負載的50%,所以團隊把計算這一塊Off-loading到FPGA上去。

在硬件設計上,團隊通過矩陣乘法將算法映射到FPGA的陣列結構上。但是,由於用了上千個乘法單元,運行達到幾百兆,DDR根本無法滿足。所以團隊就採用了Systolic Array(脈動陣列)結構,把輸入數據放到分佈式的SRAM上,從而提供了這個應用要求的算力和帶寬,同時降低了功耗。

日播放量200億,快手背後的AI異構計算技術解密

鍾輝說:“我們可以看到,相比於CPU方案,延遲降低了約1.5倍,最大吞吐大概提升了1.7倍左右,功耗有接近5倍的降低,從功耗效率來說提升了近8倍。這個我們已經在數據中心當中規模化的部署了,這是我們商業化的一個業務場景。從FPGA在數據中心落地的角度來講是比較領先的。”

日播放量200億,快手背後的AI異構計算技術解密

結語:社交媒體平臺全面AI化,海量數據還靠算力

長期以來,社交媒體平臺一直不算走在AI技術舞臺的中心,但通過此次的實地探訪,我們發現這家“國民級”短視頻公司的AI技術似乎比我們從App表面上看到的要深入得多。

在快手AI應用背後,日均新增超1500萬作品、千億級的展示、越來越大的算法模型都為存儲、傳輸和計算帶來了巨大的挑戰,對此,快手選擇英特爾CPU、FPGA支持的“異構計算”器件來加以應對,從而實現了延遲、功耗效率的極大優化。

隨著AI技術滲透到各行各業,社交媒體行業的AI化也深入到內容生成、內容分發、用戶互動、引導消費等各個環節。計算力是AI發展的三大要素之一,很多企業已有成熟的算法和更充分的數據,這時利用異構計算等技術來提升算力也成為一大關鍵舉措。



分享到:


相關文章: