人工檢查,11 個類、97942 個標籤,Roboflow 開源自動駕駛數據集可以使用啦

機器學習即將帶來一系列的社會變革,其中一個被大肆宣傳的領域是自動駕駛。但是,伴隨著自動駕駛技術的巨大動力而來的是巨大的責任,如果一輛自動駕駛汽車訓練的不夠好,可能會引發車禍,導致人員傷亡。

這是一個非常危險的問題。

機器學習是通過舉例來教計算機算法以執行新任務的過程,但是,ML 模型只能在和它們所訓練的數據一樣的情況下表現良好。

缺失大量行人和關鍵標註的自動駕駛數據集問題很大

然而,合適的訓練數據集並不是很多。在 github 上有一個廣受歡迎的數據集 Udacity(https://github.com/udacity/self-driving-car),有著 5000+ star,它被成千上萬的學生用來構建開源的自動駕駛汽車項目。

對此,Roboflow 的創始人 Brad Dwyer 感到驚訝和擔憂,因為這個數據集中包含了很多關鍵的錯誤和遺漏。

他們對廣泛使用的 Udacity Dataset 2(https://github.com/udacity/self-driving-car/tree/master/annotations) 中的 15000 幅圖像進行了手工檢查,發現其中 4986 幅(約佔總數據量的 33%)存在問題。這些問題包括數以千計輛未貼標籤的車輛、數以百計未貼標籤的行人和幾十個未貼標籤的騎自行車的人。他們還發現了許多模糊的註釋、重複的邊界框和過大的邊界框的實例。

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

錯誤實例(原始數據集中缺少突出顯示的紅色註釋)

或許最令人震驚的是,217 張(約佔 1.4%)圖片完全沒有標籤,但它們實際上包含了汽車、卡車、路燈或行人。

一些包含行人的示例圖像在原始數據集中不包含任何註釋。

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

開源數據集雖然很好,但是不夠完整和準確。

在 reddit 上,網友們也紛紛表達了對這個數據集的擔憂。

有人表示,大約 1/3 的圖像包含錯誤或遺漏,輸入的數據不應該是垃圾數據,自動駕駛應該受到嚴肅對待。手動修復很乏味,但如果有足夠的需求,他還是會做這件事。

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

這真的很可怕。我發現這一點是因為我們正在轉換和重新託管多種流行格式的流行數據集,以便跨模型使用。。。我第一次注意到竟然有一堆完全沒有標記的圖像。

在深入調查時,我震驚地發現,有大約 1/3 的圖像包含錯誤或遺漏!有些錯誤很小,如汽車的一部分在車架邊緣或遠處的一條路沒有貼上標籤,但有些則很離譜,如在人行橫道上帶著嬰兒推車的女人也沒有被標記。

我認為這確實說明了嚴格檢查任何用於模型的數據的重要性。如果輸入的是垃圾數據,輸出結果也會很差勁。自動駕駛應該受到嚴肅對待。

我繼續手動糾正了丟失的邊界框,並修復了其他一些錯誤。但仍然有很多重複的框(尤其是紅綠燈周圍的框),手動修復很乏味,但如果有足夠的需求,我會去做這件事。

有人抱怨道,這並不是特別意外,但仍然令人失望。如果有這些明顯的錯誤,為什麼要公開數據集?

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

也有人說,雖然他必須將註釋轉換為 VOC XML 才能在自己的標籤工具中打開它們,也必須編寫一個轉換回其自定義 CSV 格式的轉換程序才能提交 PR。但是如果人們真的要使用這個數據集來開發開源的自動駕駛汽車,所付出的時間是值得的。

改進的 Udacity 自動駕駛數據集

為了解決這個問題,在獲得 MTI 的許可後,2020 年 2 月,Roboflow 修復並重新發布了 Udacity 自動駕駛數據集,大家可以在項目中使用這個數據集。如果是在原來的基礎上訓練模型,可以考慮切換到這些更新的註釋。

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

該數據集下載地址:https://public.roboflow.ai/object-detection/self-driving-car

Roboflow 重新標記了數據集,更正錯誤和遺漏。他們提供了多種格式以便下載,包括 VOC XML、COCO JSON、Tensorflow 對象檢測格式 TFRecords 等。

數據集包含 11 個類和 97942 個標籤的 15000 張圖像,其中還包含 1720 個沒有標籤的圖像。

所有圖像均為 1920x1200 的格式,下載大小約為 3.1 GB。Roboflow 還提供了一個降採樣到 512x512 (下載大小約 580 MB)的版本,適用於大多數常見的機器學習模型(包括 YOLO v3、Mask R-CNN、固態硬盤和移動網絡)。

Roboflow 已經手動檢查了數據集中註釋的準確性。

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

註釋分佈如下圖:

人工检查,11 个类、97942 个标签,Roboflow 开源自动驾驶数据集可以使用啦

正在研究自動駕駛技術的同學們,現在就可以開始使用這個數據集啦~不過,Roboflow 也聲明,該數據集包含許多相同主題的重複邊界框,他們尚未更正。這些類是 100% 重疊的,可能會影響模型的性能,特別是在 stoplight 檢測中,重複邊界框的情況會比較嚴重。可能需要通過使用 IOU 等方法來過濾這些類。

via:https://www.reddit.com/r/MachineLearning/comments/f29l4v/r_a_popular_selfdriving_car_dataset_is_missing/

https://public.roboflow.ai/object-detection/self-driving-car

http://t.cn/A6hArQ79

雷鋒網雷鋒網雷鋒網


分享到:


相關文章: