清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

摘要:現行專業級或消費級的 3D 相機所採用的三角法(Triangulation)和飛時法(Time-of-Flight,ToF),現因蘋果公司最新版 iPad Pro 的出現--搭載了 d-ToF 技術的深度相機--已然為 3D 視覺在消費場景的應用推動了新的機會。為了讓讀者更深入地瞭解 ToF 技術,清華創業團隊光鑑科技根據行業現狀、學術界的最新成果,編寫了此版《ToF 深度相機技術白皮書》。


3D 視覺介紹


3D 視覺技術能夠獲取現實三維場景完整的幾何信息,利用帶有深度信息的圖像來實現對於場景的精準的數字化,從而實現高精度的識別、定位、重建、場景理解等機器視覺的關鍵功能。以 2010 年的 Kinect 和 2017 年的 iPhoneX 的發佈為標誌,3D 視覺技術從傳統意義上只應用於專業領域的高端技術變成了消費級產品。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 1‑1 二維空間到三維空間示意圖


現行專業級或者消費級的 3D 相機採用兩種主流技術,三角法(Triangulation)和飛時法(Time-of-Flight, ToF)[1]。採用三角法的 3D 視覺技術包括雙目技術和結構光技術,基本原理採用三角幾何視差來獲得目標到相機的距離信息。這種方法在近距離有著很高的精度,但是誤差會隨著距離增大而快速變大。ToF 技術測量相機是指主動投射出的光束經過目標表面反射後被相機接收這個過程的來回的飛行時間,基於光速即可獲得目標到相機的距離。ToF 技術在不同距離的誤差相對三角法更穩定,在遠距離有著更好的精度[2]。


在本文中,我們將介紹消費級的 3D 視覺技術的主要技術路徑。針對 ToF 技術,我們將介紹其主要實現方法的具體工作原理,各自的優劣勢以及技術挑戰。根據行業的現狀,我們將結合學術界的最新成果,介紹解決當前 ToF 相機痛點的一些方法。最後,我們也將結合現下行業需求,介紹 ToF 的一些重要的應用場景。


3D 視覺方案介紹


常見的 3D 視覺方案主要包括雙目、結構光和 ToF 三個技術方向。這三種方法各有優劣。雖然本文主要介紹的是 ToF 技術,本章節將簡要地介紹和比較其他兩種技術方案,幫助讀者全面地瞭解 3D 視覺技術方案。


雙目技術


雙目深度重建利用的是三角測距法計算被測物體到相機的距離。具體的說,就是從兩個相機觀察同一物體,被觀測物體在兩個相機中拍攝到的圖像中的位置會有一定位置差。正如將一隻手指放在鼻尖前,左右眼看到的手指位置會有一個錯位的效果。這個位置差稱為視差,被攝物離相機越近,視差就越大;距離越遠,視差就越小。在已知兩個相機間距等相對位置關係的情況下,即可通過相似三角形的原理計算出被攝物到相機的距離。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 2‑1 雙目技術示意圖


雙目深度重建的原理雖然簡單,但在實際使用中遇到了兩個挑戰:計算量大,依賴被攝物的紋理及環境光照。下面對這兩個挑戰分別展開介紹。


要計算一幅圖中每個像素的深度值,我們需要得到每個像素在兩幅圖中的一一對應關係。這個關係的建立通常是採用塊匹配(block matching)的方法。具體的說,在一幅圖中,以一個像素為中心,選取一個固定大小的窗口,在另一幅圖中尋找最相似的窗口,從而得到該像素在另一幅圖中的對應像素。塊匹配算法有很高的計算複雜度,其計算量正比於 O(NMWHD),其中 N, M 為圖像的行數和列數,W, H 為匹配窗口的寬和高,D 為匹配尋找最相似像素的範圍。為了達到更好的效果,會採用一些更復雜的改進算法(如Semi-Global Block Matching, SGBM),這就更進一步提高了計算量和複雜度。鑑於此原因,業界常見的方法是將算法固化到特製的 ASIC 芯片中,從而解決計算量的大的問題,但這一增加了額外的硬件成本和迭代變化週期。


雙目深度重建的另一大挑戰是依賴於被拍攝物體的表面紋理和環境光照。利用雙目原理重建表面沒有任何紋理的物體時,例如拍攝一面白牆,會遇到無法找到匹配的對應像素的問題。另一方面,當拍攝環境的光照很弱的情況下,例如黑燈環境下,匹配也會遇到很大的挑戰。結構光技術為解決這兩個問題提供了新的思路。


結構光技術


結構光方案是一種主動雙目視覺技術。每個結構光相機包括兩個基本組件:一個紅外激光投射端和一個紅外攝像頭。其基本思路是將已知的結構化圖案投影到被觀測物體上,這些結構化圖案將根據物體的幾何形狀和拍攝距離而發生相應的形變。紅外攝像頭從另一個角度進行觀察,通過分析觀測圖案與原始圖案之間發生的形變,可以得到圖案上各像素的視差,再根據相機的內外參恢復出深度。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 2‑2 結構光技術示意圖[1]


結構光方案可以看成雙目方案的一種特例。已知的投射端結構化圖案和紅外攝像頭拍攝到的圖案可視為左右雙目的觀測。結構光重建算法和雙目重建算法採用了相似的思想,也面臨著類似的挑戰,主要包括高計算量和深度突變處的數據缺失。


為解決這兩方面的挑戰,光鑑創新地研發了一套高效軟核重建算法,將計算量降低了兩個數量級,只需一顆普通的 ARM 嵌入式處理器即可完成高精度深度重建。與此同時,利用多傳感融合與深度學習,該算法大幅提升了常見的深度圖缺失問題。


和標準的雙目方案相比,結構光方案更為魯棒,這得益於結構光方案採用的主動光源和投射的結構化圖案。具體的說,投射端發出的紅外激光照亮了被拍攝物體,這使得拍攝端無需依賴環境光源即可獲得亮度穩定的圖像輸入;另一方面,投射的結構化圖案為被拍攝物體增加了表面紋理,這使得拍攝表面沒有任何圖案的物體也能精準地重建出深度。


雙目、結構光及 ToF 技術比較


為了更直觀的比較雙目、結構光和 ToF 技術路徑的優劣勢,我們彙總了各個每個方案的關鍵技術參數的比較。其中,i-ToF 和 d-ToF 技術將在之後的章節中具體介紹。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF


ToF 基本原理


相比雙目視覺和結構光方案,ToF 的方案實現起來會相對簡單,主要包括髮射端和接收端,ToF 傳感器給到光源驅動芯片調製信號,調製信號控制激光器發出高頻調製的近紅外光,遇到物體漫反射後,接收端通過發射光與接收光的相位差或時間差來計算深度信息。現大部分 ToF 傳感器採用背照式 CMOS 工藝技術,該工藝大幅度提高了感光面積,提升了光子收集率和測距的速度,響應時間能夠達到 ns 級,在遠距離情況下也能保證高精度。


i-ToF 原理


i-ToF,即 indirect ToF,通過傳感器在不同時間窗口採集到能量值的比例關係,解析出信號相位,間接測量發射信號和接收信號的時間差,進而得到深度。i-ToF 根據調製方式的不同,可分為兩種:連續波調製(CW-iToF)和脈衝調製(PL-iToF),分別發射連續的正弦信號和重複的脈衝信號;前者是通過解析正弦信號相位解析深度,而後者是解析脈衝信號相位來解析深度。


連續波調製(CW-iToF )


通常採用正弦波調製方式,接收和發射端正弦波的相位偏移和物體距離攝像頭的距離成正比, 通過相位偏移來測量距離


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF


相位偏移 (φ)和 深度(D) 是由積分能量值從上述公式 C1、C2、C3、C4 解析得到,這幾個積分能量值,是四個不同相位延遲的接收窗口採集到的能量,分別對應於在相位採樣點 0°、90°、180°、270° 採樣,即:


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF


其中 A 為接收到正弦信號的幅度。


精度方面,CW-iToF 精度主要受制於隨機噪聲和量化噪聲,前者與接收光信號信噪比(Signal to Noise Ratio, SNR)成反比,後者與正弦波調製頻率成反比。因此,為了提升精度,CW-iToF 一般採用大功率短積分時間採樣,提高接受光信號 SNR;同時提高調製頻率以抑制量化噪聲。


量程方面,CW-iToF 可解析的相位範圍為[0~2],因此其最大量程為Dmax=c/(2fm )。即頻率越高,精度越高,量程也越小。超過量程的深度,將出現週期性的相位卷繞(Phase wrap),測量值錯誤的落在[0~Dmax]內。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 3‑1 CW-iTOF 工作示意圖[3]


脈衝調製 (PL-iToF)


在 PL-iToF 系統中,激光光源發射帶有振幅信息 A 和時間 TP 的光脈衝,根據光的飛行速度 C,可計算得到最遠探測距離 dMAX=TP*C/2。反射光信號、背景光以及探測器的噪聲集成在三個不同時間段內(見Figure 3‑2)。PL-iToF 通過雙採樣技術提高精度,同激光脈衝同步的第一個窗口 W0,同激光信號正交的第二個窗口 W1,是累積反射光信號的兩部分,且每個窗口與目標距離成比例;第三個窗口 WB 在沒有光脈衝發射時開啟,僅收集背景光信號。如果 C0,C1,CB 分別表示在窗口 W0,W1,WB 的光子數,目標距離 D,接收到的有效光強度 AR,背景光 B 可由以下公式得到


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 3‑2 PL-iToF 的基本工作原理[4]


CW-iToF 與 PL-iToF 對比


CW-iToF 在工作過程中,不論目標物體的距離是多少,系統都採集了完整時長的反射光。相比之下,PL-iToF 在兩個窗口內採集的信號的信噪比與距離直接相關。在有背景噪聲的情況下,如果目標距離的很近,W1 窗口的能量幾乎為零,因此,W1 信噪比非常差;類似的,在較遠的距離,W0 中的信號很弱,導致 W0 的信噪比差。這種效應會導致 PL-iToF 在近和遠距離都有比較大的誤差。


相比 CW-iToF 連續波調試方式,PL-iToF 解算深度更簡單、計算量更低,對於平臺後端處理能力要求也相應更低。然而,PL-iToF 的精度取決於發光次數,發光次數越多,精度越高,但同時也會帶來功耗的增加。即使在相同平均功耗的情況下,PL-iToF 不僅精度弱與 CW-iToF,而且對於背景噪聲和暗噪聲更加敏感[5]。


因此,現下的主要手機廠商,包括華為、三星、Oppo 等,以及 ToF 芯片廠商,包括索尼,三星,英飛凌等都採用了 CW-iToF 的方案。


d-ToF 原理


d-ToF 即 direct ToF,相比於 i-ToF 技術用測量信號的相位來間接地獲得光的來回飛行時間,d-ToF (direct time-of-flight) 技術直接測量光脈衝的發射和接收的時間差。由於激光安全的限制以及消費類產品的功耗限制,ToF相機發射的脈衝能量有限,但是需要覆蓋完整的視場區域。光脈衝在經過反射回到接收器時,能量密度降低了超過一萬億倍。於此同時,環境光作為噪聲,會干擾接收器對於信號的檢測和還原。在這種情況下,探測器獲取的信噪比不足以直接還原脈衝的模擬信號,進而導致直接測量深度存在很大的誤差。因此,d-ToF 方法需要有靈敏度極高的光探測器來檢測微弱的光信號。


單光子雪崩二極管(Single Photon Avalanche Diode, SPAD)具有探測單個光子的靈敏度。SPAD 在工作狀態是一個偏置了高逆向電壓的二極管。反向偏壓在器件內部形成了一個強大的電場。當一個光子被 SPAD 吸收轉化為一個自由電子時,這個自由電子被內部的電場加速,獲得足夠的能量撞擊其他原子時產生自由電子和空穴對。而新產生的載流子繼續被電場加速,撞擊產生更多的載流子。這種幾何放大的雪崩效應使得 SPAD 具有幾乎無窮大的增益,從而輸出一個大電流脈衝[6],實現對於單個光子的探測。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 3‑3 SPAD 雪崩效應示意圖. (a)雪崩二極管示意圖,光子在吸收區被吸收,轉化為自由電子。自由電子在穿過 PN 結的過程中被電場加速。在獲得足夠能量時,在放大區產生雪崩效應,使得器件輸出一個大電流脈衝。(b)SPAD 的 CMOS 示意圖。具體的、結構參數取決於器件採用的 CMOS 工藝。[7]


d-ToF 技術採用 SPAD 來實現高靈敏度的光探測,並且採用時間相關單光子技術方法(Time-Correlated Single-Photon Counting, TCSPC)來實現皮秒級的時間精度[8]。光脈衝的第一個被 SPAD 捕獲的光子即可出發 SPAD,產生電流脈衝信號。系統的時間數字轉換器(Time-to-Digital Converter, TDC)可以轉換這個電流脈衝相對於發射時間的延時。SPAD 捕獲一段脈衝內哪一個瞬間到達的光子具有一定的隨機性,這種隨機性的概率與光脈衝在該瞬間的能量近似成正比。因此,d-ToF 相機重複很多次(比如數千次)發射和探測相同的脈衝信號即可獲得每次探測的電流脈衝延時的統計分佈。這個統計直方圖即恢復了發射脈衝能量隨著時間的變化,進而得到了脈衝來回的飛行時間。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 3‑4 TCSPC 方法. 系統控制激光器發射出激光脈衝,通過光學系統投射到目標物體表面。反射回的光脈衝被接受器的光學系統成像到 d-ToF 傳感器上。光脈衝觸發 SPAD,輸出電流脈衝。TDC 根據電流脈衝的時間來輸出數字化的脈衝時序。一次成像會重複幾千到幾十萬次的脈衝,從而獲得 TDC 輸出的統計直方圖,重建光脈衝及獲得飛行時間。[9]


ToF 技術挑戰


i-ToF 挑戰


在實際應用中,i-ToF 技術面臨著諸多的挑戰,真實環境的複雜多變,給深度測量引入了大量的干擾和噪聲。這也是 i-ToF 技術提出已經有數十年的時間,但實際應用卻十分有限的主要原因。本章節對 i-ToF 技術面臨的諸多問題進行簡要的原理定性分析。


飛點噪聲(Flying pixels)


在 i-ToF 測量的深度圖中,物體邊緣處往往存在大量錯誤的深度測量值,生成 3D 點雲後,視覺上表現為飛在空中的無效點(如 Figure 4‑1 所示),稱為飛點噪聲。飛點噪聲使得 i-ToF 無法有效獲取物體邊緣的 3D 信息,這也是當下 i-ToF 能否得到廣泛應用的一大挑戰。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 4‑1 典型的 i-ToF 測量點雲,邊緣處存在飛點噪聲


如 Figure 4‑2 所示,飛點噪聲產生的主要原因在於:i-ToF 傳感器上,每個像素都具有一定的物理尺寸,在測量物體邊緣時,單個像素會同時接收到前景和背景反射回來的光線;二者產生的能量疊加在一起,使得傳感器獲取的原始數據中包含多個距離的信息,使用 3.1 節原理解算相位計算距離時將得到錯誤的深度測量值。另外,鏡頭散射及像素間串擾,有時也會引起飛點噪聲,甚至造成背景的大範圍變形[10, 11]。


通過邊緣檢測等圖像算法[12],可以在一定程度上檢測並去除邊緣飛點噪聲,但對散射和串擾引起的變形難以根除,同時,誤檢也會造成大量有效深度測量值的丟失。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 4‑2 飛點噪聲產生原理示意圖:ToF 傳感器上的藍色像素僅接收到單一深度信息(前景 or 背景),可以獲取正確的測量值(藍色點);ToF 傳感器上的綠色像素同時接收到前景和背景反射的光線,兩個深度信息疊加在一起無法區分,iToF 測量得到錯誤的深度值(橙色點)。


多徑干擾 (Multi-Path Interference, MPI)


真實場景中存在複雜的漫反射甚至鏡面反射,MPI 在原理上會使得測量值變大,嚴重影響三維重建的效果。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 4‑3 多徑干擾產生原理示意圖:圖示以測量牆角為例,投射模塊投向左邊的光線(虛線)經兩次反射,與投向右邊的光線(實線)同時被 ToF 傳感器接收到 。雙重的深度信息導致 ToF 測量值錯誤。


以 Figure 4‑4 的場景為例,投向桌面的光線經標準件二次反射後被 i-ToF 傳感器接收到,MPI 效應導致測量到的標準件形狀扭曲;投向標準件的光線經桌面二次反射後被 i-ToF 傳感器接收到,MPI 效應導致桌面測量值的錯誤,桌面近似於一個鏡面,桌面測量值接近於標準件的鏡像。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 4‑4 多徑干擾示意圖:多徑干擾導致標準件測量點雲形狀扭曲(綠色),以及桌面錯誤地測量成標準件鏡像(紅色)


MPI 是困擾 i-ToF 多年的重要問題,一直是 i-ToF 廣泛應用的最大障礙。在過去的十年中,微軟,MIT,Waikato 大學等諸多研究機構在解決 MPI 問題上做出了大量算法和系統層面的嘗試[13],但仍無法根除該問題。


強度誤差(Intensity Related Error)


在 i-ToF 傳感器測量到的深度圖上,存在一類特殊的誤差,即同一平面上不同反射率的區域體現出不同的深度,如 Figure 4‑5 所示。


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 4‑5 強度誤差示意圖,同一平面上不同反射率區域呈現不同深度,黑色和灰色區域從平面上凸起[14]。


i-ToF 的強度誤差與距離、反射率、積分時間等因素都存在關聯,究其產生的原理,就筆者瞭解所限,誤差的解析尚未完全明確。PMD 等研究機構在該問題上做出了一些分析和嘗試[14],能夠緩解強度誤差,但難以在全場景消除強度誤差的影響。


遠距離-高精度矛盾(Trade-off between range and precision)


在 i-ToF 的兩種類型上,量程和精度都存在典型的矛盾:


CW-iToF:調製頻率決定量程,頻率越低量程越遠;同樣的相位解析精度下,深度測量精度隨頻率降低而降低;


PL-iToF:脈衝寬度決定量程,脈寬越大量程越遠;同樣的相位解析精度下,深度測量精度隨脈寬增加而降低;


同時,i-ToF 往往採用泛光投射,傳感器探測到的能量隨距離的平方快速衰減,遠距離測量的信噪比極差,進一步惡化上述矛盾。遠距離和高精度這一對矛盾,在原理上很難調和,通常需要根據實際應用進行權衡,選取最合理的模式配置。


高頻驅動


i-ToF 投射端需要特定驅動芯片(driver IC)驅動激光器發出調製的光信號。一般情況下,為了保證測量精度,CW-iToF 採用提高調製頻率的方式,PL-iToF 則採用窄脈衝高峰值功率的驅動方式。綜合起來,iToF 對於驅動芯片的主要需求是高調製頻率和高峰值功率;同時,驅動芯片的溫度係數與 i-ToF 測量的溫漂緊密相關,需要儘可能保證線性。這些需求對芯片工藝,尤其是 CMOS 工藝有著較高的要求。


片上集成


片上集成對於 i-ToF 芯片的設計提出了較高的要求。一方面,為保證足夠的探測靈敏度和測量動態範圍,i-ToF 往往需要有足夠的像素尺寸;另一方面,i-ToF 芯片相對於普通圖像傳感器,增加更復雜的時序控制電路和相關採樣電路,整體集成難度更大。


而消費電子行業,尤其是手機等產品,對芯片有著很高的尺寸限制。在上述要求之下,i-ToF 芯片很難集成較高的分辨率,目前市面上主流的 i-ToF 傳感器像素一般在 QVGA(320x240)上下;近幾年開始,逐步有 VGA 分辨率的 i-ToF 傳感器進入市場,但其像素尺寸一般不大於 7um,且性能上會有一定折扣。


d-ToF 挑戰


d-ToF 技術的誤差在正常工作範圍內不隨距離變化,並且受到多徑等因素的干擾較小。在遠距離、複雜環境的應用有著優勢。然而,d-ToF 的技術成熟面臨著一系列的挑戰,需要在芯片設計、系統設計、製造工藝等方面全面突破才能真正兌現 d-ToF 技術承諾的優勢,並實現在消費場景的普及。本章節將從原理上分析 d-ToF 技術存在的技術挑戰及優化方向。


暗計數率(Dark Count Rate, DCR)


相比於傳統的攝像頭圖像傳感器(Camera Image Sensor, CIS),SPAD 輸出的是數字化的脈衝,因此受到電子噪聲的影響較小。但是由於在雪崩區域內出現的單個自由電子即可觸發計數,從而導致錯誤的計數,SPAD 受到暗噪聲的影響較大。


暗計數率 DCR 的主要來源包括探測器內由於熱產生的自由電子。由於製造工藝和摻雜工藝,器件內部存在 Shockley-Read-Hall(SRH)缺陷,釋放和捕獲載流子。在尺寸為深亞微米(Deep sub-micron, DSM)的 CMOS 工藝下,電壓下降要求更高的摻雜濃度以及更小的 PN 結尺度。這導致更高的缺陷密度以及更強的加速電場,使得暗計數效應更為嚴重。相比於高電壓的定製工藝,DSM 的 CMOS 工藝暗計數率要高几個數量級[6]。因此,DCR 主要取決於製造工藝的特性和優化。


此外,在雪崩過程中,存在自由電子被缺陷捕獲的情況。這些被捕獲的電子基於 SRH 統計速度被重新釋放,製造 SPAD 的暗計數。這被稱為 AP(after-pulsing)現象。這種現象可以通過在 SPAD 配合的主動猝熄電路(quenching circuit)來設置一個適合的關閉時間(hold-off time)來解決。在 SPAD 被觸發輸出脈衝後,保持一段時間不開啟接收新的光子觸發,讓這些被捕獲的電子有足夠時間重新釋放而不會重新引起雪崩。這個關閉時間通常需要幾十到幾百納秒。這段時間被稱為 SPAD 兩次探測狀態之間的空滯時間(dead time)[15]。空滯時間成為了單位時間內重複測量的脈衝次數的限制。


通常更大尺寸的工藝有更低的 DCR,這與 CMOS 集成的要求是相悖的。特別對於 SPAD 陣列,每個像素的 SPAD 都要配合一個獨立的淬火電路,大尺寸的 CMOS 工藝會導致淬火電路佔據像素可觀的面積,並且產生更高的功耗。而手機等產品有著很高的尺寸限制,VGA 像素的 ToF 相機的像素尺寸不大於 7um。因此,3D 集成工藝是 SPAD 陣列優化暗計數率和感光率的必然要求。即,用大尺寸的製造工藝製作 SPAD 的感光部分,用更小尺寸的製造工藝製作高集成度的輔助電路,然後將不同工藝的模塊 3D 堆疊。這對 SPAD 陣列的製造提出了更高的要求。


光子探測效率(Photon Detection Efficiency, PDE)


光子探測效率是另一個重要的技術挑戰。光探測效率是感光面積的佔比 FF(Filling factor)與吸收率以及雪崩觸發率的乘積。


對於尺寸受限的 SPAD 陣列,每個像素的面積尺寸非常有限。這些有限的面積也無法完全用來感光。首先,每個像素之間需要設置保護區域,用於防止像素間的串擾。此外,淬火電路也將佔據可觀的面積。另外,對於 FSI(Front Side Illumination)工藝,用於吸收光子的厚度非常有限,限制了光子的吸收率。


因此,採用 3D 集成和 BSI 工藝將大幅提升 PDE。BSI 工藝用晶圓的背面接受照射作為光吸收層,吸收厚度得到了數量級的提升。此外,每個像素的輔助電路和光吸收不再共享同一個表面積,因而大幅提升了 FF[16]。


提升 PN 結偏置電壓可以幫助提升 PDE,但是高電壓會帶來更高的功耗和發熱以及更高的 DCR。針對於具體的應用場景,偏置電壓可以作為權衡優化具體某個指標的槓桿。


串擾(Cross talk)


採用 CMOS 工藝的 SPAD 陣列有共享的電極,幫助提升集成度。但是,一個像素的自由電子被加速後,有可能滲透到相鄰的像素,進而出發相鄰像素觸發計數,造成圖像的模糊。傳統的 CIS 也有串擾效應,但是每個像素的自由電子沒有被強電場加速,所以滲透到其他像素的情況要遠少於 SPAD。


在 CMOS 設計中,護環(guard ring)被用於防止不同像素的自由電子的串擾。護環有多種設計方法,包括採用 STI(Shallow Trench Isolation)和buried n-well等。這些護環的方法和工藝在集成電路設計中都很成熟。但是,由於護環本身佔據面積,並且其摻雜會帶來附近區域更高的缺陷,因此會影響 SPAD 的 DCR 和 PDE。


時間精度


d-ToF 要求亞釐米級或釐米級的測量精度,考慮到光速為每秒 30 萬公里,對應的時間精度要求為皮秒級。時間測量誤差主要來源於系統的時序抖動(timing jitter)。激光發射器、系統電路等部分的 jitter 有很多優化的辦法。SPAD 中自由電子被加速和滲透的過程是一個隨機過程,滲透時間必然存在 jitter,是 d-ToF 系統的時間精度的極限。常見的 jitter 在 100ps 左右,對應於 1cm 左右的誤差[17]。更薄的吸收層和有源層可以減小 jitter,但如之前 PDE 的分析所述,降低吸收層厚度會降低 PDE。


SPAD 陣列 3D 集成


為了有足夠的重複次數來獲得時序的統計,一幀深度圖需要有幾千到幾十萬次的統計數據來實現。SPAD 陣列的每個像素都在以 1MHz 左右的速度重複測量脈衝,而每次觸發,TDC 都會產生一個時間的數字輸出。以 100X100 像素的 SPAD 陣列為例,數據量就達到了幾十 Gbps。而 VGA 像素的 SPAD 陣列則將產生 1Tbps 以上的數據流。在芯片以外去處理這樣的數據量是不現實的,要求有25條以上的 40Gbps 的 PCIE 通道和幾瓦甚至 10 瓦以上的功耗。所以,提高 d-ToF 的像素就需要在 d-ToF 芯片上集成存儲和數字處理的能力。芯片需要能夠存儲每一幀測量過程中的每個像素和每個脈衝對應的 TDC 的數據,在一幀測量完成後,進行數據處理,計算出每個像素的時序統計,然後輸出其來回的飛行時間。


片上集成對於 d-ToF 芯片的設計提出了非常高的要求。在一個芯片上需要堆疊用於光探測的 SPAD、淬火電路,TDC、存儲單元以及運算單元。這要求設計團隊同時具有 SPAD 器件的設計能力和 SoC 的設計能力。此外,消費類的應用要求芯片的功耗控制在幾百毫瓦以內,否則功耗和散熱都將成為應用的瓶頸。在這些複雜度之上,需要有足夠好的良率,以保證個位數美元的芯片單價。


ToF 發展方向


當前 ToF 行業現狀,d-ToF 技術在激光功耗、抗干擾、遠距離精度等方面有明顯優勢,但在工藝和產業鏈均離成熟尚遠,仍需較長時間打磨;i-ToF 芯片在工藝和產業鏈雖已趨於成熟,但達到的效果卻不盡完美,從而導致其應用受阻。


隨著 2020 年發佈的 iPad Pro 等高端消費電子領域的持續關注,d-ToF 技術將進入快速迭代發展階段,技術發展方向可能會集中在:SPAD 工藝升級(包括 DCR、PDE、jitter 等),片上集成度提升(包括片上直方圖/深度圖算法,I/O,Memory等),TRX 系統協同設計等方面;隨著工藝和產業鏈的成熟,d-ToF 的技術優勢也會逐步釋放,佔據一定市場空間。


與此同時,i-ToF 仍有很大潛力可以持續挖掘,不論是在算法端,亦或是系統端和應用端均有望通過軟硬件的協同設計,彌補原理上的非理想效應[10]。以光鑑科技的 mToF (modulated ToF) 方案為例,通過在系統端結合軟硬件,引入調製光場的概念,通過空域、頻域、時域上的巧妙設計,創新硬件協同前沿算法,在物理上提升 i-ToF 抗干擾、抗噪聲能力,解決 i-ToF 在實際應用場景中面臨的關鍵痛點,一定程度上可以媲美 d-ToF 的性能。


綜上所述,我們認為:在 d-ToF 產業鏈成熟之前,i-ToF 還有很大的潛力可以挖掘,有望先一步搶佔 3D 行業市場份額;而隨著工藝和產業鏈的成熟,d-ToF 將逐步從高端消費電子往下滲透,在較長的時間週期中,與 i-ToF 平分秋色,各自佔據重要的市場份額。在 d-ToF 方案成熟之後,i-ToF 在像素、成本等方面有著優勢,而 d-ToF 在功耗、距離以及抗干擾方面有著優勢。而不論基於何種技術路線,ToF 系統的成像芯片只能解決如何探測和處理返回的光信號;而作為一個 3D 成像系統,光學系統的設計、投射光的調製和控制、圖像數據的算法處理等因素也將決定了一種技術方案是否能夠充分發揮出其原理的優勢,實現真正適合應用需求的方案。


ToF 技術應用


ToF 的精度取決於其脈衝持續時間,相比雙目視覺、結構光方案,ToF 精度不會隨著距離增長而顯著降低, d-ToF 是遠距離應用的關鍵技術。


隨著 2020 年蘋果 iPad Pro 的發佈,採用了激光雷達掃描儀 ToF 傳感器 ,勢必會帶動 ToF 在消費類電子應用的進一步爆發。目前消費電子中 ToF 應用以手機為主,華為、三星已在前後攝都搭載 ToF 攝像頭,今年蘋果機型有望也開始搭載 ToF技術。


3D ToF 技術在其他領域應用也開始逐步滲透,目前還是主要依賴頭部終端廠商的推動,主要的應用領域包括以下場景:


消費電子


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 6-1 ToF 在消費類電子領域應用:(a)ToF 體積小,在對於精度要求不高的場景下可以用於簡單的人臉活體識別 (b)3D 感應人體關鍵部位,體感互動遊戲 (c) 追蹤手部位置和姿勢,進行手勢控制 (d) 構建三維信息,虛擬與真實環境進行交互


機器人


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 6-2 ToF 在機器人領域應用(a)ToF 低速激光雷達可精確識別障礙物,進行自動避障 (b)測量得到周圍環境深度信息,定位自身位置構建地圖 (c) 應用於服務型機器人,智能導航 (d) 無人機得到 ToF 穩定、精準的距離信息定高懸停


安防監控&軌道交通


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 6-3 ToF 在安防監控&軌道交通領域應用:(a)ToF 獲得人體深度數據,結合人數統計算法,相比傳統監控可實時統計、跟蹤人員數量 (b) 通過智能方向識別忽略交錯人流 (c)智能停車,廣覆蓋精準識別車位車輛信息 (d) 實時監控路口車輛。增加監控環境三維信息


無人駕駛&工業自動化


清華創業團隊發佈 3D 視覺技術白皮書,萬字長文詳述ToF

Figure 6-4 ToF 在無人駕駛&工業自動化領域應用:(a)隨著面陣dToF 工藝的成熟,未來純固態激光雷達將與其他雷達相融合用於無人駕駛中(b)車廂監控,監測駕駛員疲勞狀態,監控車內人員情況 (c) 倉儲分揀,智能識別貨物信息 (d) 物流包裹體積測量,可快速識別包裹長寬高


總結


本文介紹了 ToF 深度相機的基本工作原理和不同技術路徑的優勢和挑戰。我們還比較了 ToF 與雙目和結構光技術方案的優劣勢。ToF 技術的成熟將帶來其在消費電子、機器人、工業自動化、物流等領域的大量應用和突破。


本文經授權轉載自:光鑑科技。


參考文獻:

[1] P. Zanuttigh, G. Marin, C. Dal Mutto, F. Dominio, L. Minto, and G. M. Cortelazzo, Time-of-Flight and Structured Light Depth Cameras. Springer, 2016.

[2] H. Sarbolandi, D. Lefloch, and A. Kolb, "Kinect range sensing: Structured-light versus Time-of-Flight Kinect," Computer Vision and Image Understanding, vol.139,pp.1-20,2015,doi:10.1016/j.cviu.2015.05.006.

[3] D. S. Fabio Remondino, ToF Range-Imaging Cameras. Springer, 2013.

[4] H. Sarbolandi, M. Plack, and A. Kolb, "Pulse Based Time-of-Flight Range Sensing," Sensors (Basel), vol. 18, no. 6, May 23 2018, doi: 10.3390/s18061679.

[5] D. Bronzi, Y. Zou, F. Villa, S. Tisa, A. Tosi, and F. Zappa, "Automotive Three-Dimensional Vision Through a Single-Photon Counting SPAD Camera," IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 3, pp. 782-795, 2016, doi: 10.1109/TITS.2015.2482601.

[6] D. P. Palubiak and M. J. Deen, "CMOS SPADs: Design Issues and Research Challenges for Detectors, Circuits, and Arrays," IEEE Journal of Selected Topics in Quantum Electronics, vol. 20, no. 6,pp.409-426,2014,doi: 10.1109/jstqe.2014.2344034.

[7] B. F. Aull, E. K. Duerr, J. P. Frechette, K. A. McIntosh, D. R. Schuette, and R. D. Younger, "Large-Format Geiger-Mode Avalanche Photodiode Arrays and Readout Circuits," IEEE Journal of Selected Topics in Quantum Electronics, vol. 24, no. 2, pp. 1-10, 2018, doi: 10.1109/jstqe.2017.2736440.

[8] J. S. Massa, G. S. Buller, A. C. Walker, S. Cova, M. Umasuthan, and A. M. Wallace, "Time-of-Flight Optical Ranging System Based on Time-Correlated Single-Photon Counting," Appl. Opt., vol. 37, no. 31, pp.7298-304,Nov 1 1998,doi: 10.1364/ao.37.007298.

[9] P. Padmanabhan, C. Zhang, and E. Charbon, "Modeling and Analysis of a Direct Time-of-Flight Sensor Architecture for LiDAR Applications," Sensors (Basel), vol. 19, no. 24, Dec 11 2019, doi: 10.3390/s19245464.

[10] Y. He and S. Chen, "Recent Advances in 3D Data Acquisition and Processing by Time-of-Flight Camera," IEEE Access, vol. 7, pp. 12495-12510, 2019.

[11] A. Sabov and J. Krüger, "Identification and correction of flying pixels in range camera data," in Proceedings of the 24th Spring Conference on Computer Graphics, 2008, pp. 135-142.

[12] M. Reynolds, J. Doboš, L. Peel, T. Weyrich, and G. J. Brostow, "Capturing time-of-flight data with confidence," in CVPR 2011, 2011: IEEE, pp. 945-952.

[13] R. Whyte, L. Streeter, M. J. Cree, and A. A. Dorrington, "Review of methods for resolving multi-path interference in time-of-flight range cameras," in SENSORS, 2014 IEEE, 2014: IEEE, pp. 629-632.

[14] M. Lindner, I. Schiller, A. Kolb, and R. Koch, "Time-of-flight sensor calibration for accurate range sensing," Computer Vision and Image Understanding, vol. 114, no. 12, pp. 1318-1328, 2010.

[15] S. Cova, M. Ghioni, A. Lacaita, C. Samori, and F. Zappa, "Avalanche photodiodes and quenching circuits for single-photon detection," Appl. Opt., vol. 35, no. 12, pp. 1956-1976, 1996.

[16] T. Al Abbas, N. Dutton, O. Almer, S. Pellegrini, Y. Henrion, and R. Henderson, "Backside illuminated SPAD image sensor with 7.83 μm pitch in 3D-stacked CMOS technology," in 2016 IEEE International Electron Devices Meeting (IEDM), 2016: IEEE, pp. 8.1. 1-8.1. 4.

[17] H. Xu, L. Pancheri, G. D. Betta, and D. Stoppa, "Design and characterization of a p+/n-well SPAD array in 150nm CMOS process," Opt Express, vol. 25, no. 11, pp. 12765-12778, May 29 2017, doi: 10.1364/OE.25.012765.



分享到:


相關文章: