解讀谷歌AI相機Clips設計原則和訓練過程

Google前陣子發佈AI相機Clips,最近則在AI研究博客公開用Google Clips自動捕捉重要瞬間和短片的實驗方法,找來攝影專家手動為訓練數據集的視頻片段評分,讓AI模型學習如何識別出有趣的拍攝場景。

解讀谷歌AI相機Clips設計原則和訓練過程

Google研究團隊過去一直在研究如何用深度學習方法,讓計算機視覺算法識別拍攝照片的元素,像是人、微笑、寵物、日落、知名的景點等,Google Clips的設計圍繞著3個重要的原則。

首先,所有的計算都必須在移動設備上完成,這樣一來,除了可以延長相機電池的壽命之外,還能夠減少延遲性,在移動設備上執行計算也意味著,所有的拍攝片段都只會存在設備上,並不會外流,同時可以保護用戶隱私,用戶能夠自行選擇是否要存儲和分享。

解讀谷歌AI相機Clips設計原則和訓練過程

第二個原則是團隊希望相機可以拍攝短片,而不是隻有單張的照片,因為動作更能夠保留當時的回憶,且拍攝短片比起照片,更容易捕捉到重要的時刻。

最後一個原則是要聚焦於捕捉人和寵物的鏡頭,而不是一些抽象場景的藝術照片,也就是說,Google的研究團隊不會嘗試著教導Clips如何調整構圖、色彩平衡、光線等,而是讓Clips自動聚焦於包含人和寵物有趣交互的場景。

解讀谷歌AI相機Clips設計原則和訓練過程

而Google研究團隊是如何訓練Clips捕捉重要的拍攝時刻和場景?如同許多機器學習的訓練過程,要先從訓練數據集開始,首先Google研究團隊創建了包含數千個視頻的數據集,且該數據有多種不同的場景、性別、年齡和種族,接著,研究團隊找來專業的攝影師和視頻的剪輯專家,手動挑選出短片中最好的片段,這些挑選過的片段能夠讓算法仿真。

不過,要訓練算法學習主觀的判斷是非常有挑戰性的,需要有合適的量化指標讓算法瞭解內容的品質,像是從完美到最糟的。為了解決這個問題,研究團隊收集了第二個數據集,為了要為整段視頻創造出連續的品質分數,團隊將視頻分成多個片段,隨機挑選兩個片段,讓攝影專家選出較好的片段。

解讀谷歌AI相機Clips設計原則和訓練過程

研究團隊不讓專家直接對視頻評分,而是通過成對的對比方法,因為二選一的方式,比直接給給一個品質評分,更為直觀、簡單,專家用成對對比方式的挑選結果也較為一致,能夠讓研究團隊計算視頻品質分數,Google從超過1,000支視頻中,收集了超過5千萬對的片段,來讓人類專家評分。

完成數據集後,就進入訓練模型的階段,要訓練神經網絡模型評估相機拍攝每張照片的品質,首先先假設系統瞭解場景內的主角,像是人、狗、樹等,如果假設正確,就能利用識別照片內容來預測品質分數。

為了能夠識別訓練數據集中照片的物體,研究團隊利用Google照片和圖片搜索服務背後的機器學習技術,該技術可識別超過27,000種不同的物體、概念和動作的標籤,由專家挑選出大約數百種需要的標籤,來設計識別模型。

解讀谷歌AI相機Clips設計原則和訓練過程

為了讓識別模型可以在設備上預測任何照片的品質,Google研究團隊訓練了計算機視覺模型MobileNet照片內容模型(Image Content Model),來模仿以服務器預測的模型,該壓縮的模型可以從照片中識別出最多有趣的元素,將不相關的內容排除。

最後一個步驟即是從輸入照片的內容,預測品質分數,除了用訓練數據集來確保預測的準確度之外,研究團隊還為已知的有趣場景調整品質分數的權重,像是重複出現的臉部、微笑和寵物、擁抱、親吻和跳舞等。

有了預測有趣場景的模型後,相機就能根據預測結果,即時決定要捕捉哪些畫面,大多數的機器學習模式都是用來辨認照片中的物體,但是,Google Clips要辨認的目標更為模糊且主觀,因此需要結合客觀和意義的內容,來讓專家創建主觀的AI預測模型,此外,Clips的運行模式並非全自動,而是需要與人類一同合作,為了拍攝到更好的結果,需要由人確保相機鏡頭聚焦於有趣的場景。


分享到:


相關文章: