解讀谷歌AI相機Clips設計原則和訓練過程攝影頭條網

2018-05-15 17:54:46 十輪網

Google前陣子發佈AI相機Clips，最近則在AI研究博客公開用Google Clips自動捕捉重要瞬間和短片的實驗方法，找來攝影專家手動為訓練數據集的視頻片段評分，讓AI模型學習如何識別出有趣的拍攝場景。

Google研究團隊過去一直在研究如何用深度學習方法，讓計算機視覺算法識別拍攝照片的元素，像是人、微笑、寵物、日落、知名的景點等，Google Clips的設計圍繞著3個重要的原則。

首先，所有的計算都必須在移動設備上完成，這樣一來，除了可以延長相機電池的壽命之外，還能夠減少延遲性，在移動設備上執行計算也意味著，所有的拍攝片段都只會存在設備上，並不會外流，同時可以保護用戶隱私，用戶能夠自行選擇是否要存儲和分享。

第二個原則是團隊希望相機可以拍攝短片，而不是隻有單張的照片，因為動作更能夠保留當時的回憶，且拍攝短片比起照片，更容易捕捉到重要的時刻。

最後一個原則是要聚焦於捕捉人和寵物的鏡頭，而不是一些抽象場景的藝術照片，也就是說，Google的研究團隊不會嘗試著教導Clips如何調整構圖、色彩平衡、光線等，而是讓Clips自動聚焦於包含人和寵物有趣交互的場景。

解讀谷歌AI相機Clips設計原則和訓練過程

而Google研究團隊是如何訓練Clips捕捉重要的拍攝時刻和場景？如同許多機器學習的訓練過程，要先從訓練數據集開始，首先Google研究團隊創建了包含數千個視頻的數據集，且該數據有多種不同的場景、性別、年齡和種族，接著，研究團隊找來專業的攝影師和視頻的剪輯專家，手動挑選出短片中最好的片段，這些挑選過的片段能夠讓算法仿真。

不過，要訓練算法學習主觀的判斷是非常有挑戰性的，需要有合適的量化指標讓算法瞭解內容的品質，像是從完美到最糟的。為了解決這個問題，研究團隊收集了第二個數據集，為了要為整段視頻創造出連續的品質分數，團隊將視頻分成多個片段，隨機挑選兩個片段，讓攝影專家選出較好的片段。

解讀谷歌AI相機Clips設計原則和訓練過程

研究團隊不讓專家直接對視頻評分，而是通過成對的對比方法，因為二選一的方式，比直接給給一個品質評分，更為直觀、簡單，專家用成對對比方式的挑選結果也較為一致，能夠讓研究團隊計算視頻品質分數，Google從超過1,000支視頻中，收集了超過5千萬對的片段，來讓人類專家評分。

完成數據集後，就進入訓練模型的階段，要訓練神經網絡模型評估相機拍攝每張照片的品質，首先先假設系統瞭解場景內的主角，像是人、狗、樹等，如果假設正確，就能利用識別照片內容來預測品質分數。

為了能夠識別訓練數據集中照片的物體，研究團隊利用Google照片和圖片搜索服務背後的機器學習技術，該技術可識別超過27,000種不同的物體、概念和動作的標籤，由專家挑選出大約數百種需要的標籤，來設計識別模型。

解讀谷歌AI相機Clips設計原則和訓練過程

為了讓識別模型可以在設備上預測任何照片的品質，Google研究團隊訓練了計算機視覺模型MobileNet照片內容模型（Image Content Model），來模仿以服務器預測的模型，該壓縮的模型可以從照片中識別出最多有趣的元素，將不相關的內容排除。

最後一個步驟即是從輸入照片的內容，預測品質分數，除了用訓練數據集來確保預測的準確度之外，研究團隊還為已知的有趣場景調整品質分數的權重，像是重複出現的臉部、微笑和寵物、擁抱、親吻和跳舞等。

有了預測有趣場景的模型後，相機就能根據預測結果，即時決定要捕捉哪些畫面，大多數的機器學習模式都是用來辨認照片中的物體，但是，Google Clips要辨認的目標更為模糊且主觀，因此需要結合客觀和意義的內容，來讓專家創建主觀的AI預測模型，此外，Clips的運行模式並非全自動，而是需要與人類一同合作，為了拍攝到更好的結果，需要由人確保相機鏡頭聚焦於有趣的場景。

分享到:

閱讀更多 十輪網 的文章

關鍵字: Google 人工智能片段