更善於自動抓拍「有趣」瞬間:谷歌 Clips AI 拍照新技術

雷鋒網 AI 科技評論按:對我而言,攝影是即時的識別,時間的一塊碎片,一個事件的意義所在,而攝影也就是賦予該事件適當表達的精密組織的一種形式。——法國著名攝影家 Henri Cartier-Bresson

過去幾年,雷鋒網 AI 科技評論和大家一同親眼見證了 AI 領域內寒武紀大爆炸般的發展,深度學習方法已經能夠讓計算機視覺算法識別一張好照片內的許多元素:人物、笑臉、寵物、有名地標以及更多的元素。但是,儘管深度學習已經在近期取得了一些進步,但在其在自動攝影方面依舊面臨著一項極具挑戰的難題:相機能夠自動抓拍到精彩的瞬間嗎?

谷歌去年發佈了一個自動抓拍生活中有趣瞬間的全新相機產品:Google Clips 相機,Google Clips 的設計遵循以下三項重要的原則:

  1. 谷歌想要全部計算在相機端上進行。在相機端進行計算的好處,除了可以延長相機電池壽命和減少計算延遲之外,還意味著除非用戶決定存儲或者分享相機拍攝數據,所有數據都將保留在相機端,這也是用戶隱私控制的關鍵所在。

  2. 谷歌希望 Clips 拍攝短視頻,而不是單張照片。拍攝動態瞬間更能切中用戶需求和忠實於回憶,而且相較於及時抓拍單張完美瞬間的照片,拍攝一段包含引人注目瞬間的視頻更容易一些。

  3. 谷歌想讓相機專注於「偷拍」人和寵物,而不是將心思放在更抽象和存在主觀難題的藝術照片拍攝上去。也就是,谷歌並沒有嘗試教 Clips 去思考構圖、色彩平衡、光線等拍攝方面的技巧;相反,Clips 專注於選擇「偷拍」人和動物在做有趣活動的瞬間。

學習識別記錄精彩瞬間

如何訓練一項算法來識別精彩瞬間?和解決大多數的機器學習問題一樣,谷歌也是從一個數據集開始的。首先,谷歌打造了一個含有成千上萬個不同場景的視頻數據集,並認為 Clips 可以在這些場景下派上用場。谷歌還確保該數據集大範圍的覆蓋種族、性別、以及年齡等類別範圍。另外,谷歌還僱用了專業攝影師和視頻剪輯師,來從 Clips 拍攝的影片素材中精心挑選出最優的片段部分。對視頻的早期綜合處理為谷歌提供了樣本,這些樣本可供算法進行模擬。但是,訓練算法獨立地學習人類的主觀選擇是具有挑戰性的,這就需要一個平滑梯度的標籤來教算法學會識別視頻的內容品質(從「完美」到「糟糕」)。

為了處理這個問題,谷歌採用了第二種數據收集方法,該方法旨在在整個視頻長度內創造一個連續的品質評分。谷歌將每個視頻分割成短片段(類似 Clips 拍攝的內容片段),並從中隨機選出一對片段來讓人類評估員從中挑出他們最愛的那個。

更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

「你表弟拍了一段長視頻,他想讓你幫助選出一小部分片段進行保存。他向你展示了幾對片段並讓你在每一對中挑選出你喜歡的那個。」

因為從一對片段中選出比較好的那個要比從一堆視頻片段裡選容易得多,所以谷歌採用了成對比較的方法,而不是讓人類評估員直接對整個視頻打分。谷歌發現在使用成對比較方法時,人類評估員的發揮始終如一,而直接打分時就沒那麼穩定了。對於任何給定視頻,只要給定足夠多的成對比較片段,谷歌就能夠在整個視頻長度範圍內計算出連續的片段品質評分。在這個過程中,谷歌從 Clips 上的 1000 多個視頻上,取樣了超過 5000 萬個用於成對比較的視頻片段。這一過程耗費了大量人力!

更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

訓練一個片段品質模型

在給定訓練數據的品質得分的情況下,谷歌下一步就是訓練一個神經網絡模型,並使用這個模型來評價 Clips 拍攝的照片品質。谷歌先基本假設模型知道照片裡有什麼(如人物、狗、樹等),這將幫助模型來定義何為「有趣」。如果這個假設成立,谷歌就可以得到一個人類對比照片的行為上衍生出來的新特性:通過已識別的照片內容來預測該照片的品質得分。

谷歌利用驅動 Google 圖像搜索和 Google 相冊的同款機器學習技術,來識別訓練數據中描述事物、概念以及動作的內容標籤,可以識別的不同標籤超過 27000 種。谷歌顯然不需要所有的這些標籤,也不可能在設備上把它們全都計算個遍,因此,谷歌的攝影專家們只選擇了幾百種標籤,他們認為這些標籤與預測一張照片的「有趣」最為接近。谷歌還加上了與人類評估員打出的片段品質得分最契合的那些標籤。

在獲得了這些標籤的子集後,谷歌就需要設計一個壓縮的、高效的模型,這個模型在能源和發熱的嚴格限制下,在設備端對任何給定的圖像進行預測。這就帶來了一項挑戰,因為支持計算機視覺的深度學習技術通常需要強大的桌面 GPU,目前適合在移動端設備運行的算法還遠遠落後桌面和雲端的最先進技術。為了訓練這個設備端模型,首先,谷歌使用了一組數量很多的照片集,並再次使用了谷歌強大的、基於服務器的識別模型,來為上面描述過的每一個「有趣」標籤預測標籤可信度。隨後,谷歌訓練了一個 MobileNet 圖像內容模型(ICM)來模擬 server-based 模型(server-based model)的預測。這個壓縮模型能夠識別照片中最有趣的那些元素,同時忽略掉與「有趣」無關的內容。

最後一步是,為一張輸入的照片(照片內容由由 ICM 預測)預測一個單一的品質評分,同時使用 5000 萬個成對比較樣本作為訓練數據。這項評分是使用一個分段線性迴歸模型計算得到的,模型將 ICM 的輸出合併成某一幀片段的品質得分。這一幀的品質得分,是綜合視頻分片段來產生一個瞬間得分。給定一個成對比較樣本後,模型應該可以計算出一個瞬間得分,也就是給人類偏愛的那個片段打一個更高的分數。這樣訓練模型來讓它的預測儘可能的與人類在成對片段比較中的喜好相匹配。

更善于自动抓拍「有趣」瞬间:谷歌 Clips AI 拍照新技术

圖:生成幀品質得分的模型訓練過程。分段線性迴歸是從一個 ICM 嵌套映射到一個得分,也就是對一個視頻綜合評估時,得到的一個瞬間得分。人類偏愛的那個片段的瞬間得分應該更高。

這個過程允許谷歌訓練一個結合 Google 圖片識別技術和人類評估員智慧的模型,其中人類評估員的智慧由 5000 萬個關於「何為有趣內容」的觀點代表!

雖然由數據驅使的評分模型,已經在識別視頻的有趣和無趣瞬間上表現得相當不錯,但谷歌仍在整體評分的基礎上增加了一些獎勵,來激勵模型拍攝一些谷歌想讓它拍攝的畫面,包括人臉(特別是經常出現在鏡頭前的熟悉面孔)、笑容和寵物。谷歌近期發表了一篇「Jump for joy: Google Clips captures life's little moments」,在論文中谷歌針對用戶們明確想記錄的一些特定行為(如擁抱、接吻、跳躍和舞蹈等)增加了一些對模型的獎勵,激勵模型記錄這些用戶行為。識別上面這些行為,需要對 ICM 模型進行擴展。

抓拍控制

有了可以預測一個場景的「有趣」的強大模型後,Clips 相機就能判斷哪個場景需要實時抓拍了。Clips 相機的拍攝控制算法遵循下面三個主要原則:

  1. 高效利用電池和避免設備過熱:谷歌希望 Clips 的電池可以保持大致 3 個小時的續航,且不希望設備過熱(禁止設備以高性能狀態運行全程)。Clips 大部分時間在低能耗狀態下運行,期間 Clips 每秒拍攝一幀畫面。如果某一幀的畫面品質達到了 Clips 的臨界值(依據 Clips 最近拍到的最好照片品質而設定),Clips 就會進入每秒拍攝 15 幀畫面的高性能模式。隨後,Clips 會在對包含第一張達到最好品質的照片的視頻片段進行保存。

  2. 避免冗餘的拍攝:谷歌不希望 Clips 一次記錄所有的瞬間,而忽略掉剩下的那些。因此,谷歌的拍照控制算法將 Clips 拍攝的瞬間,分群放入視覺上相似的組中,並對每個群內的片段數量加以限制。

  3. 對所拍內容實施二次評估:當拍攝的片段總體擺在你面前的時候,可以很輕鬆地判斷哪個片段拍的最好。因此,相較於直接將拍攝結果展示給用戶,Clips 傾向記錄更多的瞬間來讓用戶選擇。將拍攝的片段傳輸至手機端前,Clips 相機會再一次評估拍攝的內容,然後只將品質最好和最少冗餘的內容呈現給用戶。

機器學習的公平性

除了保證視頻數據集覆蓋人種類別的多樣性之外,谷歌還建立了幾項其他的測試來評估算法的公平性。在保證平衡的前提下,谷歌從不同性別和膚色中對取樣 subject,打造了一個可控數據集,同時保持如內容類型、時長、環境條件恆定的多樣性。隨後,谷歌使用這個數據集來測試算法應用到不同組時,是否仍保持相同的表現。為了幫助檢測算法在公平性上是否發生任何退化,一旦發現退化,谷歌就會及時地改進這個瞬間品質模型(moment quality models),谷歌也將這個公平性測試加到了自家的自動化系統上。任何軟件上的改變都要進行電池續航測試,且需要合格通過。需要注意的是,這個方法並不能完全保證算法的公平,正如谷歌無法對每一個可能的場景和結果都進行測試一樣。但是,谷歌相信在機器學習算法中實現公平的長期研究中,以上步驟是重要的一部分。

結論

大多數的機器學習算法都被設計來評估目標的品質:如判斷一張照片內有貓,或者沒有貓。在這個案例中,谷歌旨在將算法設計成拍攝一個更難懂、更主觀的品質,即判斷一張個人照片是否有趣。因而,谷歌將照片的客觀、語義內容與人類的主觀喜好結合起來,用於打造支持 Google Clips 相機的 AI 技術。另外,Clips 還被設計成可在用戶參與下工作,而不是獨自工作;為了取得更好的拍攝結果,需要用戶來考慮取景並保證把 Clips 對準有趣的內容。谷歌很高興地看到 Google Clips 運行表現良好,並將繼續改進算法來幫助 Clips 捕捉那個「完美」的瞬間!

via Google AI Blog,雷鋒網 AI 科技評論編譯。


分享到:


相關文章: