百度發佈黑科技 AI短視頻全自動合成平臺可一鍵合成視頻

近日,依託強大人工智能技術和海量數據資源優勢,百度研究院孵化出業界首個支撐通用型、大規模生產的智能視頻合成平臺VidPress,用戶僅需一鍵輸入新聞圖文內容鏈接,其餘全部工作則交由平臺自動化完成,視頻素材智能化聚合、解說詞生成、語音合成、音視頻對齊和渲染導出整套製作流程在9分鐘以內能夠高效實施,生產效率和質量得到大幅提升,完美解決視頻生產過程中人力成本、技術難度、素材有限、無法大規模生產等諸多難題,助力5G時代數字內容生產創作及視頻化升級,實現信息更加普惠。

根據好看視頻使用數據, 目前生成一個時長2分鐘左右的720p視頻, 所需時長的中位數僅為2.5分鐘;平臺每天可以生產500到1000條視頻,整個過程從熱點發現到最終的視頻生成完全無人化、自動化;此外,VidPress所生成的視頻播放完成率比好看視頻的大盤高出15個百分點,一些熱門視頻已經有了85萬的播放量,足見AI新聞視頻深受觀眾喜愛。

百度發佈黑科技 AI短視頻全自動合成平臺可一鍵合成視頻

用戶輸入圖文內容後, 例如輸入某條新聞事件的鏈接,平臺將基於NLP模型進行語義理解, 並通過主體模型聚合相關新聞素材,以及從同一主題相關新聞裡抽取更多的素材及其語義表徵,充分保障素材內容的豐富度和相關性。

緊接著,解說詞語音生成和素材深度挖掘同步啟動。一方面,平臺基於多種語言模型對原文進行處理,自動生成一篇字數符合要求且適合視頻呈現的解說詞,並通過百度文字轉音頻服務(TTS)合成解說詞語音,效果媲美播音員;與此同時, 平臺會根據對原文的理解, 通過自有視頻庫和百度搜索引擎搜索,智能化聚合最新最適合呈現的內容,並基於人臉識別、物體識別、視頻內容理解等計算機視覺服務進一步解析和理解,自動剪切和精選視頻素材。

上述兩個步驟完成後,平臺將基於解說詞音軌時間軸和所聚合的媒體片段,進入音視頻對齊剪輯過程。百度升級後的第二代時間軸對齊算法,其關鍵在於選取出文本中的興趣點, 再將媒體片段與興趣點進行相關度打分,將優質媒體片段優先放入時間軸,以此保證視頻的整體觀感和用戶興趣的持續激發。當時間軸生成完畢之後,數據轉交給渲染器,從而生成一個完成的視頻,整合過程耗時可以保證在9分鐘以內,極其高效。

上游新聞·重慶晚報記者 顧立 實習生 玉浩


分享到:


相關文章: