新的視覺系統可以在傳感器內計算,無需將信息轉換成數字格式

新的視覺系統可以在傳感器內計算,無需將信息轉換成數字格式

視覺是我們最重要的感官之一。在過去的十年中,受生物啟發的機器視覺得到了迅速的發展,以至於人工系統可以從圖像和視頻中“看到”有價值的信息,儘管人類的視覺仍然有效得多。 Mennel等人在《自然》雜誌上發表的文章報道了一種視覺系統的設計,該視覺系統與大腦一樣,可以訓練以納秒為單位對簡單圖像進行分類。

現代圖像傳感器,如數碼相機中的圖像傳感器,是基於半導體(固態)技術,在20世紀70年代初發展起來的;它們分為兩種主要類型,即電荷耦合器件和有源像素傳感器。這些傳感器可以忠實地從環境中捕獲視覺信息,但會生成大量冗餘數據。通常將大量的光學信息轉換為數字電子格式,然後傳遞到計算單元進行圖像處理。

在傳感器和處理單元之間產生的大量數據移動導致延遲(延遲)和高功耗。隨著成像速度和像素數量的增長,帶寬限制使得很難將所有信息迅速地發送回中央或基於雲的計算機,以便進行實時處理和決策,這對於諸如無人駕駛汽車、機器人或工業製造等延遲敏感應用尤其重要。

一個更好的解決方案是將一些計算任務轉移到計算機系統外部邊緣的感知設備上,減少不必要的數據移動。而且,由於傳感器通常會產生模擬(連續變化)輸出,模擬處理比數字處理更可取:眾所周知,模擬-數字轉換非常耗時耗力。

為了模仿大腦對信息的有效處理,受到生物學啟發的神經形態工程採用了一種計算架構,該架構具有高度互連的元素(神經元,通過突觸連接),可以進行並行計算(圖1a)。這些人工神經網絡可以通過迭代從周圍的環境中學習,例如:學習在顯示已知示例後對事物進行分類(監督學習),或從輸入數據中識別對象的特徵結構而無需額外信息(監督學習)。在學習過程中,算法會反覆進行預測,並增強或削弱網絡中的每個突觸,直到達到最佳設置。

新的視覺系統可以在傳感器內計算,無需將信息轉換成數字格式

圖1 |在視覺傳感器內進行計算,實現智能,高效的預處理。 a,在傳統的人工智能(AI)視覺傳感器中,從光響應傳感器收集信號,將其從模擬形式轉換為數字形式(ADC,模數轉換器),放大後作為輸入提供給外部人工神經網絡(ANN)-互連計算單元(圓圈)的層,可以調整其連接,從而可以訓練網絡執行諸如圖像分類之類的任務。 ANN的輸入層接收編碼簡單物理元素(此處由點和線表示)的信號;在隨後的層中,這些被優化為中級特徵(簡單形狀);並在輸出層(3D形狀)上形成精細的圖像。總體響應可能很慢且耗能。 b,Mennel等人[3]報告了一種系統,其中芯片上的互連傳感器(正方形)不僅可以收集信號,而且還可以作為ANN來識別簡單特徵,從而減少了傳感器和外部電路之間的冗餘數據移動。

Mennel和同事直接在他們的圖像傳感器中實現了一個人工神經網絡。在芯片上,他們構建了一個光電二極管網絡——微小的光敏元件,每一個都由幾個鎢二硒化物原子層組成。這種半導體對光的響應可以通過改變外加電壓來增加或減少,因此每個二極管的靈敏度可以單獨調諧。實際上,這將使光傳感器網絡變成一個神經網絡(圖1b),並允許它執行簡單的計算任務。改變光電二極管的光響應度會改變網絡中的連接強度——突觸重量。因此,該設備結合了光學傳感和神經形態計算。

作者將光電二極管排列成9個像素的正方形陣列,每個像素有3個二極管。當圖像投射到芯片上時,產生、組合和讀取各種二極管電流。硬件陣列提供了一種模擬計算形式:每個光電二極管產生一個與入射光強度成比例的輸出電流,根據基爾霍夫定律(電路中電流的一個基本規則),所得電流沿行或列求和。

然後訓練陣列執行任務。芯片外分析陣列產生的電流與預測電流(如果陣列對圖像做出正確響應,對於給定任務,將產生的電流)之間的差異,並用於調整下一個訓練週期的突觸重量。這個學習階段佔用了時間和計算資源,但是,一旦訓練好,芯片就會快速地執行設定的任務。

使用不同的神經網絡算法,作者證明了兩個神經形態函數。第一種是分類:他們的3 × 3像素數組可以將圖像分類為對應於三個簡化字母的三個類中的一個,從而以納秒為單位確定它是哪一個字母。這個相對簡單的任務只是一個概念的證明,如果陣列尺寸增大,可以擴展到識別更復雜的圖像。

第二個功能是自動編碼:即使在存在信號噪聲的情況下,傳感器陣列中的計算也可以通過學習圖像的關鍵特徵來生成處理圖像的簡化表示。編碼版本只包含最基本的信息,但可以解碼以重建接近原始的圖像。

這項前沿技術可以用於實際應用之前,還有許多工作要做。用於自動駕駛車輛和機器人的神經形態視覺系統將需要捕獲具有三個維度並具有廣闊視野的動態圖像和視頻。當前使用的圖像捕獲技術通常將3D現實世界轉換為2D信息,從而丟失運動信息和深度。現有圖像傳感器陣列的平面形狀也限制了廣角相機的發展。

作者描述的設備很難在昏暗的光線下成像。需要重新設計以改善薄半導體中的光吸收並增加可以檢測到的光強度範圍。此外,所報道的設計需要高電壓並消耗大量功率。相比之下,在生物神經網絡中,每項操作的能耗為亞飛焦耳級(10-15至10-13焦耳)。擴展對紫外線和紅外光的響應,以捕獲可見光譜中不可用的信息也是有用的。

所使用的薄半導體難以在大面積上均勻地生產,並且難以加工,因此它們可以與硅電子器件集成在一起,例如用於讀出或反饋控制的外部電路。使用這些傳感器的設備的速度和能源效率將不取決於圖像捕獲過程,而是取決於傳感器和外部電路之間的數據移動。而且,儘管傳感器計算單元在模擬域中收集和計算數據,減少了模數轉換,但是外圍電路仍然遭受其他固有延遲的困擾。傳感器和外部電路將需要共同開發,以減少整個系統的等待時間。

Mennel及其同事的“傳感器中計算”系統應激發對人工智能(AI)硬件的進一步研究。幾家公司已經開發了基於硅電子產品的AI視覺芯片,但是這些芯片的固有數字架構會導致延遲和電源效率問題。

更廣泛地講,作者的策略不僅限於視覺系統。它可以擴展到用於聽覺,觸覺,熱感或嗅覺的其他物理輸入。此類智能系統的開發以及5G快速無線網絡的到來,應會在將來允許進行實時邊緣(低延遲)計算。


分享到:


相關文章: