百度智能雲-數據眾包閔楠:構建高質量智能駕駛數據集,為自動駕駛的進步提供“燃料”

百度智能云-数据众包闵楠:构建高质量智能驾驶数据集,为自动驾驶的进步提供“燃料”

雷鋒網新智駕按:數據是推動人工智能發展的重要基礎。對於自動駕駛領域而言,數據也是推動自動駕駛進一步發展的重要“燃料”。

尤其是在中國複雜的道路情況下,感知技術的進步不能完全依賴算法的迭代或技術革新來解決。在這種情況下,經過規範標註帶有豐富語義信息的數據,能夠使得自動駕駛的算法更好地理解和識別傳感器的畫面,從而解決相關的問題,促進其快速落地。

數據的重要性不言而喻,當下企業和開發者獲得高質量數據,主要通過自建團隊或者採取業務外包的形式對數據進行加工和處理。這兩種做法在成本和效率都有相應不足。百度智能雲-數據眾包針對如何構建高質量智能駕駛數據集,走出了區別前兩者的道路。

以下內容是根據百度智能雲-數據眾包標註團隊負責人閔楠在2019年AI+智能汽車創新峰會演講題目《構建高質量智能駕駛數據集》整理而成。

感知技術是智能駕駛當中的關鍵一環,尤其是在國內路況比較複雜的情況下,感知技術的突破不能完全通過算法的迭代或者是技術革新來解決。

在這種情況下,經過人工標註的帶有豐富語義信息的數據,可以使得算法更好地理解和識別視覺攝像頭、激光雷達、毫米波雷達等傳感器所傳輸的畫面信息和障礙物信息。

當下,每一個研發團隊都面臨著一個問題:海量的數據如何高效地從原始數據轉化為標註之後帶有豐富語義信息的數據。

傳感器從真實世界所採集到數據,完成了數據生產的過程。原始數據經過了一定的標定和結構化、非結構化的存儲過程後,需要再經過人工標註才能產生出帶有標籤和語義信息的數據,這樣的數據才能夠為算法所利用。

相反,如果傳感器無法在真實的世界中挖掘到足夠多的有用數據,就需要有意生產和收集這樣的數據來提升算法的精準度。

從理論層面上說:數據的標註結果越精準,對於算法的運算結果越好。因此數據的採集和標註工作都非常重要。

企業和開發者一般採取兩種做法:

  • 自建團隊。自建團隊需要耗費大量的精力來維護自有的標註團隊。通常情況下還需要開發甚至長期地維護一個合用的數據標註的工具或者平臺。唯有如此,才能長期系統性實現數據標記工作,以及進行時效性數據的補充工作。

  • 業務外包。業務外包的模式相對於自建團隊也有其難點。當下,自動駕駛的研發選型方案不斷進化,對數據標註的專業能力要求不斷提升。業界對於標註的需求不斷進化:從最原始的2D圖像的標註需求,慢慢進化到3D點雲的標註需求,到全象素的語義分割,甚至多傳感器融合障礙物的標註能力。不斷進化的需求都對數據標註團隊的能力都提出了很大的挑戰。

因此,企業需要不斷地研發新的標註工具,甚至是尋找標註能力不斷進化的團隊。百度智能雲-數據眾包希望能夠給合作伙伴提供一個在成本和效率上都優於上述兩種方案的解決方案。

百度智能云-数据众包闵楠:构建高质量智能驾驶数据集,为自动驾驶的进步提供“燃料”

百度智能雲-數據眾包成立於2011年,目標是為百度內部的研發團隊和業務團隊提供AI數據的採集和標註服務。

目前,百度智能雲-數據眾包已經承接了包括百度智能駕駛事業群在內的絕大部分團隊的數據標註需求。2017年下半年,百度智能雲-數據眾包正式對外開放標註的經驗和能力,成為綜合性訓練數據服務平臺。

百度智能雲-數據眾包通過定製化的流程管理、質量管理、資源/人員管理能夠高效地分發和管理大規模數據的數據標註任務,同時保證數據的質量和數據安全。

百度智能雲-數據眾包在智能駕駛行業上的應用

百度智能云-数据众包闵楠:构建高质量智能驾驶数据集,为自动驾驶的进步提供“燃料”

智能駕駛的傳感器的數據輸出一般分為以下三種類型:

  • 第一種是障礙物的檢測、跟蹤以及多傳感器下障礙物融合。

百度智能雲-數據眾包,從2015年開始從事智能駕駛的障礙物標註,除了具備最基本的單目和雙目攝像頭障礙物標註、魚眼攝像頭和環視攝像頭的障礙物標註能力之外;百度智能雲-數據眾包還具備了從4線到128線等線束不同的激光雷達點雲數據的標註能力,同時還具備多傳感器融合障礙物的標註能力,包括激光雷達和攝像頭融合、激光雷達和毫米波雷達等傳感器融合障礙物的標註能力;在V2X的數據標註方面,百度智能雲數據眾包團隊也具備相關的標註經驗。

  • 第二種傳感器所輸出的車外的環境感知以及車道信息。

在車外環境感知以及車道信息方面,百度智能雲-數據眾包的數據標註平臺也累積了豐富的標註方案,處理了龐大的車道檢測、車位識別、路面信息、交通標識、定位元素、可行駛區域和語義分割等類型的數據(包含Apollo平臺室外場景集合)。

  • 第三種是對車內環境的感知和對駕駛員駕駛意願的交互。

車內環境的感知,百度智能雲-數據眾包具備非常典型的疲勞駕駛的行為檢測能力,具備包括駕駛員的面部的關鍵點標註和麵部表情檢測,以及客運車輛當中,乘客的位置感知等標註能力。

關於產能規模

百度和山西省政府合作,在太原建立了一個巨大的標註中心,結合經驗豐富的線上眾包人力,百度智能雲-數據眾包的標註團隊規模超過5000人,障礙物和車道線等2D數據的每日產能峰值達到4萬幀左右、點雲障礙物標註量在1萬幀左右。

大規模的生產節奏下,如何保證標註人員對標註規則的理解和執行是一致、並且保證數據質量,是一個具有挑戰性的問題。百度智能雲-數據眾包在這個問題上進行了不斷的做摸索和迭代。

首先百度智能雲-數據眾包建立對標註員和審核人員培訓和考試等標準流程。此外,在標註工具裡,百度智能雲-數據眾包也集成了智能算法,比如連續幀的標註算法可以根據上一幀人工標註的障礙物類別,智能地預測和標註下一幀將會出現障礙物類別。

智能算法能夠極大地解放標註人員的壓力,標註人員只需要在算法識別的基礎上進行一些修整,這樣能夠極大地降低在標註過程中人工的參與和主觀判斷產生的引入人工錯誤的可能性。

百度智能雲-數據眾包標註完每一條數據,都會經過一個人工的審核和自動化的腳本檢測過程,這樣能夠有效保證標註結果符合標註規則。

此外,數據安全也是百度智能雲-數據眾包非常重視的方面。除了標準的合同條款以及保密協議之外、還有技術上的手段進行保證——百度智能雲-數據眾包會進行任務封裝、數據加密、專線傳輸、專利的反爬。

對於對數據安全有特殊要求的客戶,百度智能雲-數據眾包準備了私有化部署的標註平臺、專屬的數據標註團隊、和封閉的標註場地,確保數據的安全。

多種的方案能夠滿足對數據安全有不同級別需求的客戶。在整個項目進行過程中,百度智能雲-數據眾包的項目經理和商務經理會進行全程的對接。一般情況客戶只需要提供標註規則和待標註數據,在項目結束後對標註結果進行驗收即可。

總結

數據是人工智能的燃料,數據在智能駕駛領域的重要性不容置疑的。絕大部分企業對數據是非常重視的,但都共同面臨著缺乏有效獲得大量且高質量數據渠道的困境。因此,針對國內路況較為複雜和國內智能駕駛起步稍晚的現狀,百度智能雲-數據眾包通過多年的經驗,以及多年建立起來的高效的管理方案以及專業的軟硬件設施,能夠不斷地為智能駕駛提出新的思路。


分享到:


相關文章: