自動駕駛數據集被迫開放“營業”

“現在自動駕駛很火,火到什麼程度?簡單來說就是燒錢。”

根據The Information發佈最新研究稱,投入自動駕駛戰場的各家公司已經累計花掉了約160億美元。需要注意的是,這160億美元還沒算上為了自動駕駛佈局而發生的併購。舉例來說,英特爾買下Mobileye花掉的153億美元就不算在其中。

眾所周知,自動駕駛技術相當複雜,想要實現商用,花費的時間和成本對於任何一家車企或者科技公司來說都是巨大的,這些投資想要得到回報則需要更長的時間。而且自動駕駛所謂的商業化,還在探索當中。無論是推出RoboTaxi服務的Waymo One,或者是Nuro與Kroger合作的生鮮配送,又或者是安波福和Lyft推出的乘車服務等等。

自動駕駛數據集被迫開放“營業”

那麼,為了打破各家企業各自為戰的局面,一些企業彼此開始嘗試開放有價值的自動駕駛數據集,以加快自動駕駛技術的提升,從而推動自動駕駛行業的發展。去年,谷歌母公司Alphabet旗下自動駕駛公司Waymo公開了一部分開放數據集Waymo Open Dataset;近期福特也悄悄發佈了其自動駕駛汽車數據集。

這兩家自動駕駛公司,是目前公認的在全球自動駕駛研究排名前列的企業。對於自動駕駛行業其他從業者而言,有了公開的數據集,他們能在一定程度上免去重複的資源投入。研發人員可以利用這些數據集來幫助開發自動駕駛汽車的感知算法,有助於推動其研發進程。實際上,這也是一場自動駕駛行業領導者地位的爭奪。

什麼樣的數據有價值?

自動駕駛汽車每天可以收集4TB或更多的原始傳感器數據,直到現在,自動駕駛公司收集的數據還是公司的高度機密。但是近幾年,自動駕駛領域的各路參與者,在開源數據集共享這件事上頗為“大方”。

在福特的自動駕駛數據集發佈之前,Lyft 此前也開源了自己的數據集用於自動駕駛汽車開發。其他開放此類的數據還包括nuScenes、Mapillary Vistas的街道圖像集、加拿大不利駕駛條件(CADC)、KITTI用於自動駕駛的研究;以及戴姆勒、馬克斯·普朗克(Max Planck)信息學研究所和達姆施塔特工業大學(TU Darmstadt)視覺推斷小組開發和維護的Cityscapes數據集。

自動駕駛數據集被迫開放“營業”

不過問題在於,過去相關研究人員創建和發佈的數據集相對較小,通常僅限於攝像頭數據。雖然,安波福發佈的NuScenes數據集除圖像外還包括激光雷達的雷達數據,Waymo和Argo發佈的版本會更進一步。Waymo聲稱擁有3,000個場景,是NuScenes提供的場景的三倍,並且攝像頭和激光雷達信息之間的同步更好。

雖然由自動駕駛測試生成的所有數據對於車輛感知其周圍環境,並在整個過程中都是有用的,但實際上只有其中的特定部分對開發和改進系統有用。比如在典型城市街道上一天的測試中,車輛中的工程師和技術人員會選擇性的記錄發生細微變化或具有挑戰性的場景。也就是說自動駕駛數據集需要更加多樣和精細化,對從業人員來說才有利用價值。

福特此次公開的自動駕駛數據集,是工程師駕駛配備了四個四核英特爾i7處理器和16GB RAM的汽車,往返底特律大都會機場、密歇根大學迪爾伯恩分校、高速公路、市中心和郊區等地區共行駛了約66公里。其數據主要由4個激光雷達傳感器、6個130萬像素攝像頭、1個500萬像素攝像頭和1個慣性測量單元,通過路況的細微變化來捕獲多樣化的數據。

自動駕駛數據集被迫開放“營業”

一般而言,在測試結束時,所有數據都將從車輛中提取到數據中心,並對有益的數據進行分析和標記。原始數據本身對於處理器系統核心的學習系統沒有多大價值,數據中感興趣的對象包括行人、騎自行車的人、動物、交通信號燈等變量。在將傳感器數據用於訓練或測試AI系統之前,所有這些目標都需要進行手工標記和註釋,以便系統可以理解其“所見”。

研究人員根據傳感器的讀數生成地圖和行人姿態數據,包括3D地面反射率地圖、3D點雲地圖、六自由度地面真實姿態和局部姿態傳感器信息。這些反映了季節差異(數據是在晴天、下雪和多雲的情況下以及在秋季期間捕獲),並且涵蓋了多種駕駛環境,包括高速公路、立交橋、橋樑、隧道、建築區域和植被覆蓋區。

如今,大多數感知系統都嚴重依賴機器學習或深度核心算法,感知系統處理傳感器信號並嘗試對車輛周圍的物體進行分類。為了能夠完成此任務,必須使用經過徹底標記和註釋標識所有道路的相關數據,才能更好的發揮出數據的價值。值得注意的是,標記過程可能比原始數據收集還要耗時。

自動駕駛數據集被迫開放“營業”

福特指出,福特自動駕駛汽車數據集中的每個日誌均帶有時間水印,幷包含來自傳感器的原始數據、校準值、姿態軌跡、地面真實姿態和3D地圖。它具有ROS bag文件格式,可使用開源機器人操作系統(ROS)對其進行可視化、修改和應用。

實際上是話語權的爭奪

在自動駕駛汽車上投入了大量資金,福特仍然向研究人員免費提供它的自動駕駛汽車數據集,但實際上也有所保留。此次福特公開的包括Argo正在使用的所有九臺攝像頭的視圖,以及兩個帶有10,000多個帶註釋目標的數據,但它僅涵蓋邁阿密和匹茲堡記錄的113個場景。

在自動駕駛技術發展的初期,企業對數據的所有權非常謹慎,各家收集的數據代表著它們的用戶、資源和技術。技術壟斷雖然能夠最大限度地強化自己的優勢,但同時也阻礙了技術的進步。雖然自動駕駛車輛數據共享的重要性得到了整個行業的認可,但出於行業競爭、產權保護等等方面的考慮,企業之間大概不會無私貢獻所有數據。

自動駕駛數據集被迫開放“營業”

事實上,開放數據集確實是在幫助別人,但企業自身也能獲益。自動駕駛數據採集是一個週期長,地域廣的長時間項目,如果各家都將自己的採集數據共享的話,就可以共同減少數據採集時間,從而促進行業的整體發展,促進商業化。

但實際情況是,在技術層面,對於一般研究而言,得到新的分類和預測算法可能具有巨大的價值。但由於具體數據取決於傳感器規格及其在車輛上的位置,還有很多實際原因導致諸多數據無法獲得。除非有人使用與捕獲數據的原始車輛完全相同的配置,否則如果不對視差進行調整,它對於訓練特定的自動駕駛系統可能沒有用。

毫無疑問,公開數據集,可以吸引更多企業和開發者利用並補充數據集。如果某一家的數據或者代碼被競爭對手採用,相當於這家公司為自動駕駛汽車制定了一個非正式的標準,有助於該企業的發展和地位的加強。這一開放數據的企業也可以將其他公司收購,或者收取利益許可其他企業使用該平臺。

自動駕駛數據集被迫開放“營業”

當前全球所有車企都將智能化轉型作為戰略來搶佔技術的制高點,中國也不例外。2月份出臺的《智能汽車創新發展戰略》,對中國的自動駕駛來說具有重大利好。但是在回過頭來看國外公司開放的自動駕駛數據集,主要針對底特律、波士頓、新加坡等地的環境解析。對於道路、交通、環境差別迥異的國內駕駛環境來說,是否有用還有待商榷。

不過國內的百度“Apollo”自動駕駛平臺,也是通過開源代碼,聯合諸多車企達成合作。此外,小馬智行和華為等中國公司,也在快速搶佔自動駕駛市場的份額。2019年自動駕駛汽車脫離數據報告中,排名前十的企業中有四家來自於中國。由此可見,中外企業均在搶佔自動駕駛各層面技術的標準制定和話語權。

隨著“新四化”的不斷深入,未來,可能還會有更多的玩家加入到自動駕駛的戰場。歷史也表明,未來也將是一個開放、合作、同時又相互競爭的局面。無論是傳統車廠還是科技企業,無論是國內企業還是國外公司,這場承載著人類未來出行的偉大夢想,正在一步步走近。

---------------------------------------------------------------------------


分享到:


相關文章: