馬克斯普朗克開源項目VNect用2D攝像頭實現低成本動捕其它頭條網

2018-05-10 09:32:25 映維網VR

文章相關引用及參考：映維網

這是一個開源項目

（映維網 2018年05月10日）大部分應用都需要實時將用戶及其運動映射至3D空間。在以前，我們只能通過昂貴的所相機系統，或者令用戶穿上特殊的傳感器套裝才能實現。昨天映維網報道了RADiCAL的技術，現在據映維網瞭解（消息源：李今），馬克斯普朗克計算機科學研究所的計算機科學家開發出了一種只需要單個攝像頭的系統，而且它甚至可以預測用戶在預錄製視頻中的三維姿勢，比如說YouTube視頻。

延伸閱讀：只需一個2D攝像頭，RADiCAL利用AI實現低成本動捕

博士後學生Dushyant Mehta表示：“這允許通過手機來捕捉視頻，同時實現身體追蹤。能夠實時在3D中實現這一點，而且只是藉助移動設備上的攝像頭，這是一個巨大的進步。”

Mehta與同事研發了只需一個傳統攝像頭就可以實時捕捉用戶及其運動的軟件系統。研究人員Srinath Sridhar解釋說：“到目前為止，多攝像頭系統，或者像Kinect這樣深度攝像頭對這項任務來說都是必不可少的工具。”

新系統基於神經網絡，而研究人員將其稱之為“卷積神經網絡”（簡稱CNN），而這通常是與“深度學習”聯繫在一起。馬克斯普朗克計算機科學研究所的研究人員開發了一種新方法，其能夠藉助神經網絡從視頻流的二維信息中計算用戶的三維姿態。

他們在官網上公佈了一個演示視頻。一位研究人員在後面玩雜耍，而前方的顯示器則播放相應的視頻錄像。我們看到右邊的畫面疊加了一個簡單的火柴人。另一個三維視圖則顯示了相應的運動，其用於說明研究人員能夠實時捕捉完整的三維姿態。無論研究人員移動肢體的速度有多快，或者移動幅度有多大，火柴人都會進行相應的三維運動，而另一個顯示器中的虛擬角色同樣如此。

研究人員將他們的系統稱為“VNect”。VNect既可以預測人物的三維姿態，也可以定位圖人物的位置。這允許系統避免在不包含人類的圖像區域上浪費計算。在機器學習過程中，系統的神經網絡通過數萬個註釋圖像進行訓練。系統根據關節角度提供三維姿態信息，而這可以輕鬆用於控制虛擬角色。

Mehta補充說：“NVect令更廣泛的人群可以觸及虛擬現實的三維身體姿態追蹤，因為他們不需要Kinect或其他攝像頭，無需要穿戴特殊的傳感器套件，只需使用十分普遍的網絡攝像頭即可。這同時可以為第一人稱VR帶來全新的體驗。”除了這種交互式角色控制之外，VNect還是第一個可以用來預測視頻中人物3D姿勢的系統，比如說YouTube視頻。馬克斯普朗克計算機科學研究所的Christian Theobalt教授接著說道：“從人機交互到人類與機器人交互，再到工業4.0，這還有其他許多的應用。我們同時可以考慮自動駕駛，汽車在未來或許可以通過攝像頭來預測人們的完整表達運動，然後評估他們的行為。”

但VNect仍然存在侷限性。姿態估計的準確度比多相機系統或基於標記的姿態估計系統更低。如果人臉被遮擋，運動速度太快，或者出現沒有訓練過的姿勢，系統將出現問題。另外，多用戶場景也是一個問題。儘管如此，Sridhar相信技術將會進一步成熟，並且能夠處理越來越複雜的場景，從而可以在日常生活中使用。

VNect是一個開源項目，目前已經有多個基於該項目的實現案例託管在GitHub上開源，更多信息可以通過他們官方網站了解。

相關論文：VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

原文鏈接：https://yivian.com/news/45113.html

分享到:

閱讀更多 映維網VR 的文章

關鍵字: YouTube 動捕馬克斯·普朗克