FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

機器之心發佈

目前無論是學術界還是工業界對人臉的研究有兩個方向,其一民用級,通過技術泛化為用戶提供低精的產品,這些技術在工業級高精度上是無法滿足需要的,主要因為算法泛化丟失了人臉的高頻信息。其二工業級,從人臉生物力學仿真層面,持續提高精度,FACEGOOD 走在這個方向,在技術適當泛化的基礎上,其將人臉關鍵點跟蹤推向了極致,目前已將精度推到 10 萬級,該技術可用於工業級換臉、表情捕捉等場合。

簡介

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

人臉關鍵點檢測在安防、金融、娛樂等領域具有廣泛的應用,可以說已經成為非常基礎的算法,我們先來回顧一下它的發展歷史,Tim Cootes & Chris Taylor 在 1995 提出了一種新的方法(Active Shape Model)開創了人臉關鍵點對齊的先河,ASM 引入了統計模型來解決對齊問題,緊接著三年之後,他倆在此基礎上發展出了 Active Appreance Model,這個方法有很重的歷史地位,要知道當時人臉對齊問題是個很棘手的事,傳統的 CV 算法太粗暴,難以應付人臉這種高緯特徵,AAM 之後算是進入了一個正確的方向,為後來神經網絡方法奠定了基礎,基本思想是 ASM 並沒有考慮到紋理特徵,只是對 landmark 訓練了一個統計模型出來,AAM 進一步優化了 ASM,在迴歸的過程中加入了紋理特徵,這樣就解決了特徵的泛化匹配的問題,使得人臉對齊更加魯棒。20 年之後,在眾多研究者不斷推動下 2D 人臉對齊問題已經徹底解決了,算法也已經白菜化,隨便在 github 都有大量的精度不錯的開源項目。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

與此同時,在 1998 年有兩位研究人員又開闢了一條新賽道,他們提出了 3D 對齊算法,將人臉對齊推向了一個全新的維度,這套方法目前已經成為現在工業界主流的算法流程,現在工業界習慣上把它叫做 3DMM,雖然並不嚴謹,但我們姑且沿用這樣一個定義,3DMM 計算結果是在人臉上擬合併投影出一個 3D 點雲,它的應用就非常豐富了,美顏、表情捕捉、通過照片生成一張人臉等等都用了類似的技術。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

公式 1。

如上圖所示基本思想是:一張臉可以由多個不同的人臉通過線性組合得出,換句話說,給出一張人臉,要得出 3D 模型,就是一個係數的迴歸問題,瞭解 AAM 的同學一眼就看出來這個公式就是 AAM 公式,也可以說這是 AAM 的另一種應用,其中 S 是平均臉,s 是特徵向量,ai 是權重係數。Tmodel 是用來擬合人臉紋理,同樣使用線性組合得出。3DMM 是一個非常初期的 idea,他的計算結果並不理想,現在來看只能算玩具級,主要是 PCA 在精度上的丟失是很嚴重的。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

2008 年,一篇論文的發表將 3DMM 的精度進一步推廣,公式 1 只採樣了人臉在某一時刻的表情,因此在表情上沒有考慮到其他情況,導致精度丟失。這篇論文增加了一個維度,因此叫「雙線性模型」,在人臉基礎上加上了表情因素,這樣的計算結果更加可信。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

公式 2。

這個雙線性公式在公式 1 的思路上增加了一個係數 a,表示不同表情,b 表示不同的個體,w 是人臉數據庫,到此 3DMM 在算法流程上完整了,為日後 Facewarehouse 等應用奠定了基礎,後面的故事大家都知道了 Facewarehouse 推出了自己的數據庫及應用思路,講到這裡我們對前面這些研究做個總結。

3DMM 缺點是很明顯的,在技術泛化這條路上一路狂奔,忽略了人臉非常多的細節,尤其是高頻低幅度的表情細節,在個體上體現非常明顯,造成這個局面的原因有兩個,基於統計的迴歸並不精確,是一個模糊解,3D 數據庫模型的採集多數用成本低廉的設備生成,精度不高,兩者加起來,3DMM 在高精應用場景可以說完全無法滿足需求,更不可能達到工業級超高精度需要。

FACEGOOD 3DMM 模型

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

圖示 1 BFM & SFM 模型 。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

圖示 2 FACEGOOD 模型。

為了更精確的計算人臉的 3D 信息,並能適用於工業級業務場景,FACEGOOD 團隊採用相機陣列方式採集了 100 個不同個體的 3D 模型,每個人有 43 個不同的表情,以及他們對應的高精度皮膚材質數據,至於這些數據建立了 FACEGOOD 3DMM 模型。

目前開源的數據庫主要有 BFM 跟 SFM 兩個,同時還有一個 Facewarehouse 僅供學術研究使用,對比這些數據庫,FACEGOOD 3DMM 主要體現在精度上,拋棄 kinect 這類民用級掃描技術,使用相機陣列的方式,可以完全重建人臉的所有肖像特徵,如上圖所示,圖示 2 是 FACEGOOD 數據,圖示 1 是 SFM 數據,後者在細節上損失很大,基本上只保留了人臉的大概特徵。

FACEGOOD 超高精度流程

神經網絡的優勢主要在技術泛化上有很好的表現,但在高精度場合並非理想選擇,為了達到高精度跟蹤人臉的 3D 特徵,包括臉型、五官的深度、微表情的變化等,FACEGOOD 研發人員使用傳統算法實現了這一套方案,目前已經在超寫實數字人上開始應用。

FACEGOOD 推出10萬點人臉關鍵點跟蹤,重新定義工業級人臉3D重建

公式 3

FACEGOOD Pose Estimation。

如上圖公式 3 所示,基本思想是:同樣基於人臉可由基礎臉線性組合得出這樣一個假設,FACEGOOD 團隊研發了這樣一套算法,Cm 是 FACEGOOD 3DMM 模型,第一步使用高精算法(圖示 3)跟蹤人臉的 2D 特徵點,隨後在此基礎上擬合出人臉高精度 3D 模型,再通過 V(wi) 進一步優化 3D 模型,這一步的結果基本貼合到人臉。然後繼續優化,在得出帶有表情的基本 Eexp 之後,加上一個 detaV,使得 3D 模型完全對齊到人臉,到此就得到了一個完整的高精度的 3D 人臉,包括了在眼輪匝肌、口輪匝肌周圍細微的高頻的微表情信息。

最終,得出精確的 3D 人臉之後,通過肌肉仿真算法,將表情參數重定向到虛擬人物,就跑完了全流程。

參考文獻:

· 微表情在戲劇表演中對藝術真實塑造的作用,曹娜,衡陽師範學校音樂系,2016

· T.F. Cootes and C.J. Taylor and D.H. Cooper and J. Graham (1995). "Active shape models - their training and application". Computer Vision and Image Understanding

· Cootes, T. F.; Edwards, G. J.; Taylor, C. J. (1998). "Active appearance models". Computer Vision — ECCV'98. Lecture Notes in Computer Science.

· Bilinear Model for 3D Face and Facial Expression Recognition,Iordanis Mpiperis,Fellow,IEEE,2008.

· Ekman and W. Friesen. Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978.

· BRADLEY, D., HEIDRICH, W., POPA, T., AND SHEFFER, A. 2010. High resolution passive facial performance capture. ACM Trans. Graph. 29, 4 (July), 41:1–41:10.

· PIGHIN, F. H., SZELISKI, R., AND SALESIN, D. 1999. Resynthesizing Facial Animation through 3D Model-based Tracking. In Proc. 7th International Conference on Computer Vision, Kerkyra, Greece, 143–150.

· WEISE, T., BOUAZIZ, S., LI, H., AND PAULY, M. 2011. Realtime performance-based facial animation. ACM Transactions on Graphics (Proceedings SIGGRAPH 2011) 30, 4 (July).LIU, X., MAO, T., XIA, S., YU, Y., AND WANG, Z. 2008. Facial animation by optimized blendshapes from motion capture data. Computer Animation and Virtual Worlds 19, 3–4, 235–245.

· LI, H., ADAMS, B., GUIBAS, L. J., AND PAULY, M. 2009. Robust single-view geometry and motion reconstruction. ACM Transactions on Graphics (Proceedings SIGGRAPH Asia 2009) 28, 5.

· BALTRUSAITIS, T., ROBINSON, P., AND MORENCY, L.-P. 2012. 3D constrained local model for rigid and non-rigid facial tracking. In Computer Vision and Pattern Recognition (CVPR 2012).

· CHUANG, E., AND BREGLER, C. 2002. Performance driven facial animation using blendshape interpolation. Tech. rep., Stanford University.


分享到:


相關文章: