人臉識別算法的巔峯之際，爲什麼需求最痛的安防行業還是無法大規模應用？其它頭條網

2016-09-20 09:02:24 安防圈

在攝像頭無處不在的今天，為什麼治安案件和刑事案件還是頻繁發生？為什麼大量案件還是很難偵破？“天網恢恢疏而不漏”的願景什麼時候才能真正實現？

人臉識別發展到今天，已然處於這個領域的黃金時期。

2012年底，Geoff Hinton的博士生Alex Krizhevsky、Ilya Sutskever採用深度學習的算法，在圖片分類的競賽ImageNet上，識別結果拿了第一名。這個標誌性的事件直接改變了圖像識別的發展軌跡，自此，深度學習開始席捲整個CV領域。

（從左到右依次為：Ilya Sutskever、Alex Krizhevsky、Geoffrey Hinton）

首當其衝的當屬人臉識別。

深度學習的欣欣向榮直接推動了人臉識別技術的飛速發展，人臉識別一下子從刀耕火種的原始階段進階到了長風破浪的盛世王朝。很快，人眼的識別準確率就在標準測試集上敗給了計算機。

很多公司都喜歡在各個測試集上刷榜，99%的識別準確率早已不是什麼大新聞。現在沒在某某測試集上刷個第一，都不好意思說自己是做人臉識別的公司了。

至此，在深度學習的加持下，人臉識別算法已經達到了它的鼎盛時期。

人臉識別的最終訴求莫過於確認身份，識別唯一的ID屬性。除了遠程開戶、智能迎賓這種標準化的場景外，更大需求其實在安防監控。

根據最高人民檢察院和最高人民法院關於刑事案件數量的統計，2015年全國人民法院新收刑事一審案件1126748件，同比上升8.29%。（數據來源：2001-2016年《中國法律年鑑》）

這只是一個參照數字，至於每年到底有多少刑事案件發生，具體數字無人知曉，這裡面有多少案件得以偵破，我們也無從得知。但是，我們能看到，在攝像頭無處不在的今天，還是有很多人肆無忌憚地進行違法犯罪活動。這其中一個很重要的原因就是，攝像頭的數量雖多，但絕大部分情況下都拍不清人臉，犯罪分子存在僥倖心理，因而選擇鋌而走險。

為什麼滿大街1080P的高清攝像頭，依舊拍不清人臉？

為了更直觀地解釋這個問題，我們做了一個小小的實驗。

我們讓幾位同事分別站在距離一臺高清1080P相機10米、20米、30米處，拍照後截取他們的臉部圖片，發現他們臉部圖片的像素分別只有36x36 pixel、18x18 pixel、12x12 pixel。

人臉識別算法的巔峰之際，為什麼需求最痛的安防行業還是無法大規模應用？

為了瞭解人臉識別準確率與圖片分辨率的關係，接下來，我們又做了一個簡單的實驗。

我們基於牛津大學著名實驗室Visual Geometry Group發佈的人臉識別模型，在學術領域具有代表性的人臉識別庫之一LFW上進行了一個簡單的人臉驗證測試。在這組實驗中，輸入是LFW庫中測試組的6000對人臉圖片，輸出是判斷這些人臉圖片對是否為同一人的準確率。

人臉識別算法的巔峰之際，為什麼需求最痛的安防行業還是無法大規模應用？

說明：橫軸是圖像的寬和高（正方形），縱軸是測得的準確率

如上圖所示，橫軸為輸入人臉圖片分辨率（單邊的像素），縱軸為LFW人臉驗證測試組的準確率。對於不同分辨率的人臉輸入圖片，為了公平比較，我們先將原始圖片降採樣到對應分辨率，再按比例插值到統一大小的圖片輸入VGG模型提取人臉特徵，最終基於這些不同分辨率下輸入圖片提取得到的特徵，獲得對應的人臉驗證準確率。

（當然，這個實驗純粹只是為了驗證圖片分辨率與識別準確率之間的關係，所以我們採用了公開的模型、方法和數據集。如果你換一個模型、方法和數據集，也會得到類似的結果。）

從曲線的走勢可以看出來，基於同一個算法模型，圖片的分辨率越低，相應的識別準確率也越低。當圖片分辨率低於75x75 pixel時，人臉識別的準確率會急劇下降。

即使使用當前最好的人臉識別算法，當人臉分辨率過小時，同樣會有識別率巨幅下降的問題。

Google提出的FaceNet是當前最好的人臉識別方法之一，在LFW上達到的最好成績為99.63%。而在他們的論文《FaceNet: A Unified Embedding for Face Recognition and Clustering》（原文鏈接：https://arxiv.org/pdf/1503.03832v3.pdf）實驗中，同樣發現了類似的結果。如表格所示（取自FaceNet論文中的Table 4），當人臉總像素為1600（即40x40 pixel）時，LFW上的識別準確率僅為37.8%。因此，即使使用當前state-of-art的方法，在人臉像素太低時，依舊束手無策。

人臉識別算法的巔峰之際，為什麼需求最痛的安防行業還是無法大規模應用？

上文已經提到了人臉距離相機10米時，分辨率只有36x36 pixel，再結合以上兩個實驗結果，我們就能很好地理解為什麼人臉識別不能在安防監控領域大展拳腳：安防監控大多數時候都是大場景下的監控，距離一般較遠，這種情況下抓拍的人臉圖片分辨率很低，識別準確率相應也很低。因此現階段的人臉識別很難在安防領域有大規模的應用。

深瞳人眼攝像機的誕生，使得這個困擾了行業多年的問題迎刃而解。

在深瞳人眼攝像機的監控下，犯罪分子將無處躲藏。只要你在攝像頭覆蓋範圍內出現超過3秒，你的臉部及上半身被攝像頭捕捉到的概率在99%以上，50米內抓拍的照片，其清晰程度足以保證人臉識別達到一個很高的識別準確率。

為了更直觀地說明人眼攝像機的優勢，我們做了一組對比實驗。將深瞳人眼攝像機和一臺普通的高清1080P攝像機放在同一位置，一男一女兩位實驗人員分別站在距離相機10m、20m、30m、40m、50m處，對比兩臺相機拍攝的人臉和上半身的照片。

10米

人臉識別算法的巔峰之際，為什麼需求最痛的安防行業還是無法大規模應用？