無人車落地離不開它!揭祕高質量AI數據這條護城河

無人車落地離不開它!揭秘高質量AI數據這條護城河


自動駕駛技術經過多年發展,已經進入到了落地的關鍵時期,媒體和公眾往往也喜歡將視線都聚焦在自動駕駛公司身上。

但在長沙、廣州等地已經落地行駛的無人出租車背後,其實都離不開AI數據採集標註這個工種。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲自動駕駛數據標註圖示

正是海量高質量AI測數據的“餵養”,才讓無人車上搭載的AI算法能夠感知識別道路上的物體,可以說數據訓練對於自動駕駛來講,發揮著“眼睛”的作用,如果不能正確感知道路環境,智能駕駛的決策系統就無法正常工作。

那麼自動駕駛公司到底需要什麼樣的數據?背後的AI數據採集和標註工作又是如何進行的呢?

帶著這些疑問,車東西與國內頭部數據採集標註公司雲測數據總經理賈宇航進行了一次長達90分鐘的深度對話,揭開了AI數據採集標註行業的神秘面紗。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲雲測數據房山辦公區

一、自動駕駛頭部企業的特徵:數據量第一

谷歌Waymo是全球公認的自動駕駛領頭羊,但官方在宣傳時,其實很少直接說自己的技術如何厲害,不過其往往會重點強調一個數據,就是自己的路測里程數,超過多少多少萬英里。

在此前Waymo公佈第五代自動駕駛系統時,其實際路測里程已經到達2000萬英里(3200萬公里),虛擬測試里程更是超過了160億公里。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲Waymo的無人車在街頭採集數據

自動駕駛軟件的核心環節為感知和決策。

為了實現更好的感知結果,大部分公司都會引入深度學習等AI技術。而想讓深度學習的模型對某一類物體的識別率足夠精準,就需要大量該類物體的不同數據,例如圖像、視頻、3D點雲等。

與此同時,無人車想要量產,還必須要能夠應付各類小概率事件(比如十字路口突然有行人摔倒在地的情況),為了讓決策算法能夠適應這種小概率事件,自動駕駛公司也需要有這種小概率事件的數據進行針對性地研發和測試。

所以總結一下就是,無論在感知還是決策環節,自動駕駛公司都需要大量的交通數據來進行研發和測試,數據量就決定了自動駕駛公司的技術水準。

這正是Waymo為什麼一直強調自家數據量足夠大的原因。

除了Waymo,特斯拉也在量產車上部署了一個影子模式,就是在人類駕駛員開車時,其名為Autopilot的L2級自動駕駛系統也會工作,去收集一些特定數據,然後上傳到後臺來優化Autopilot系統,並逐步從L2升級到FSD(L4級完全自動駕駛)。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲特斯拉的L2級自動駕駛系統表現極佳

特斯拉旗下的車型目前總銷量超過100萬臺,按照每臺車2萬公里/年的行駛里程來算,特斯拉每年理論上最多可收集200億公里的實際路測數據(實際情況只收集特定數據)。

正是這樣的數據規模,才讓特斯拉的Autopilot系統遙遙領先於奔馳、寶馬、大眾等傳統車企,並且不斷推出像是Navigate on Autopilot、智能召喚、紅綠燈識別等新功能。

總結來看,自動駕駛技術領先的企業,數據量一定領先。

二、自動駕駛爭奪戰打響 對高質數據需求增加

自動駕駛技術應用後,不僅僅能夠解放人類駕駛員,還能組成智慧交通體系提升整個社會的通行效率,並改變網約車行業、汽車行業、運輸行業甚至是零售行業(例如移動無人商店),意義重大。

所以在谷歌Waymo研發數年後,中國、美國、歐洲、日韓等地區也相繼湧現出大量自動駕駛公司,而像是蘋果、英特爾、百度、上汽、通用、本田等IT巨頭、車企巨頭也加入到戰局之中,一場席捲全球的自動駕駛技術爭奪戰已然打響。

正如前文所言,在研發高等級自動駕駛技術時,還原實際場景的路測數據或交通數據,是關鍵“燃料”。在這場自動駕駛技術爭奪戰的背後,高質量的數據已然成為各大玩家護城河建設的重中之重。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲美國街頭的Waymo無人車

為了助力本國企業搶佔自動駕駛技術高地,各國政府也在迅速出臺政策為技術應用落地鋪路,並規範行業發展。

例如今年2月份,發改委、工信部、財政部等11部委聯合印發的《智能汽車創新發展戰略》,給了智能汽車一個較為清晰準確的發展時間規劃,在業內人士看來,“戰略”勾勒出智能汽車發展的“遠大前景”。

又例如北京最近出臺的路測規定,已經允許無人車進行載人測試(即無人出租車可以上路測試了),但同時也提出了一系列要求,比如想要申請載人測試,需要先通過實車+仿真測試,且此前的無載人測試中,最近1年內不能出現過交通事故。

毫無疑問,隨著自動駕駛競賽的逐漸白熱化和政策的不斷演變,自動駕駛行業對行駛過程中涉及的真實場景數據的需求量可謂是日益劇增,誰擁有更多的數據,誰就能夠在這場爭奪戰中取勝。

三、雲測數據深耕質量 致力於為行業提供好數據

自動駕駛研發離不開數據的支持,但數據也並非是“傻多”,還需要質量到位才能發揮作用。

雲測數據總經理賈宇航告訴車東西,高質量的數據有三個大框架——還原場景、大數據量、標註精準度高。

還原場景就是說自動駕駛數據要有針對性,比如某自動駕駛公司想訓練一下無人車應對十字路口行人摔倒這種突發情況的能力,那麼算法需要的場景數據就必須是發生在十字路口,如果是高速公路則必然不行。

同樣的,即使是在十字路口這一特定場景下,還要儘可能多的讓數據豐富起來,比如是白天、黑夜、雨天、陰天的十字路口,同時行人的衣著、摔倒的姿勢、過程,也要儘可能地覆蓋更多的可能性。

只有這樣,才能讓無人車上的AI技術完整識別所需場景,並作出正確決策。

對自動駕駛公司來說,想要收集到類似“路口行人摔倒”的場景數據,自然十分耗時耗力。

為了解決這一難題,雲測數據在北京、橫店、天津等地搭建了場景實驗室,為的就是能夠模擬還原不同的場景來進行數據採集。

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲雲測數據的成員在搭建場景實驗室

“比如我們在我們自己的數據採集基地搭建了路口這個場景後,會招募上千名群演過來模仿路人摔倒的情況,每個人的衣著、行為舉止都不一樣,並且還會考慮到白天、黑夜、黃昏等不同的光照條件,來還原客戶所需要的場景數據,做到足夠真實。”賈宇航這樣說道。

通常情況下,雲測數據團隊會使用自動駕駛公司提供的無人車來採集數據,以完美匹配該公司的傳感器設定。而如果暫無車輛可用,雲測數據團隊也擁有自購的各類激光雷達、攝像頭等硬件設備,並擁有專業人員進行傳感器標定,可以滿足不同自動駕駛公司需求。

採集足夠豐富的數據只是提供“養料”的第一步,隨後還要對數據中的關鍵物體(例如車輛、行人、甚至是固定物體)進行標註,才能供深度學習算法使用。

數據標註工作不僅需要標註人員擁有特定領域知識來保證數據標註的精準性,同時又對標註工具的熟練使用、以及作業中的效率保證、標準化流轉管理等等眾多因素有著要求。對於自動駕駛公司來說,將數據標註工作交給雲測數據這類專業公司其實是最好的選擇。

這方面,雲測數據在華東、華南、華北等地擁有著自建的數據標註基地,通過具有自主知識產權的標註平臺和專業的標註人員團隊,為高質量的AI數據交付提供著堅實支撐。

“數據標註的準確率和貼合度至關重要,比如要在一個2D圖片或3D點雲圖裡標註出汽車,要儘可能地不出現錯標和漏標的情況。同時,標註的矩形框還要儘可能地與物體貼合。”賈宇航解釋道,“雲測數據利用自主開發的標註工具,即使是3D點雲圖像,也可以保證數據標註的流暢性和時效性,以及行業內領先的數據標註精準度。而像是2D圖像中的標註貼合度,也可以做到5個像素以內。”

無人車落地離不開它!揭秘高質量AI數據這條護城河

▲雲測數據的團隊在進行3D點雲標註

“正是定製化的場景、豐富的數據量,還有高質量的標註結果,讓雲測數據獲得了行業內幾乎所有的自動駕駛客戶認可,既包括自主、合資車企,大型Tier1,也有做無人出租車的自動駕駛公司。”賈宇航這樣說道。

據賈宇航介紹,涉足自動駕駛領域3年多來,雲測數據僅在難度較大的3D點雲數據上,就大概輸出了接近1000萬幀的數據,可謂是經驗豐富。

“我們的產品價格處於主流區間,不僅能提供豐富的高質量場景化數據,還能保證項目的高效交付,獲得了很多客戶的好評,有些自動駕駛公司還會直接跟我們簽訂年度服務協議,把他們採集的數據交給我們來進行標註。”在對話最後,賈宇航這樣說道。


分享到:


相關文章: