騰訊開源ML-Images,超越谷歌成業內最大多標籤圖像數據集

騰訊開源ML-Images,超越谷歌成業內最大多標籤圖像數據集

作者 | 騰訊 AI Lab

採訪 | Natalie

AI 前線導讀:2018 年 9 月 10 日,騰訊 AI Lab 宣佈將於 9 月底開源“Tencent ML-Images”項目,該項目由多標籤圖像數據集 ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡 ResNet-101 構成。AI 前線記者專門採訪了騰訊 AI Lab ML-Images 團隊,為各位讀者帶來該項目的第一手深度解讀。

騰訊 AI Lab 此次公佈的圖像數據集 ML-Images,包含了 1800 萬圖像和 1.1 萬多種常見物體類別,在業內已公開的多標籤圖像數據集中規模最大,足以滿足一般科研機構及中小企業的使用場景。此外,騰訊 AI Lab 還將提供基於 ML-Images 訓練得到的深度殘差網絡 ResNet-101。該模型具有優異的視覺表示能力和泛化性能,在當前業內同類模型中精度最高,將為包括圖像、視頻等在內的視覺任務提供強大支撐,並助力圖像分類、物體檢測、物體跟蹤、語義分割等技術水平的提升。

以深度神經網絡為典型代表的深度學習技術已經在很多領域充分展現出其優異的能力,尤其是計算機視覺領域,包括圖像和視頻的分類、理解和生成等重要任務。然而,要充分發揮出深度學習的視覺表示能力,必須建立在充足的高質量訓練數據、優秀的模型結構和模型訓練方法,以及強大的的計算資源等基礎能力之上。

各大科技公司都非常重視人工智能基礎能力的建設,都建立了僅面向其內部的大型圖像數據集,例如谷歌的 JFT-300M 和 Facebook 的 Instagram 數據集。但這些數據集及其訓練得到的模型都沒有公開,對於一般的科研機構和中小企業來說,這些人工智能基礎能力有著非常高的門檻。

當前業內公開的最大規模的多標籤圖像數據集是谷歌公司的 Open Images, 包含 900 萬訓練圖像和 6000 多物體類別。騰訊 AI Lab 此次開源的 ML-Images 數據集包括 1800 萬訓練圖像和 1.1 萬多常見物體類別,或將成為新的行業基準數據集。除了數據集,騰訊 AI Lab 團隊還將在此次開源項目中詳細介紹:

  1. 大規模的多標籤圖像數據集的構建方法,包括圖像的來源、圖像候選類別集合、類別語義關係和圖像的標註。在 ML-Images 的構建過程中,團隊充分利用了類別語義關係來幫助對圖像的精準標註。
  2. 基於 ML-Images 的深度神經網絡的訓練方法。團隊設計的損失函數和訓練方法,可以有效抑制大規模多標籤數據集中類別不均衡對模型訓練的負面影響。
  3. 基於 ML-Images 訓練得到的 ResNet-101 模型,具有優異的視覺表示能力和泛化性能。通過遷移學習,該模型在 ImageNet 驗證集上取得了 80.73% 的 top-1 分類精度,超過谷歌同類模型(遷移學習模式)的精度,且值得注意的是,ML-Images 的規模僅為 JFT-300M 的約 1/17。

據瞭解,“Tencent ML-Images”項目的深度學習模型,目前已在騰訊多項業務中發揮重要作用,如“天天快報”的圖像質量評價與推薦功能。

以下是 AI 前線記者對 ML-images 團隊的專訪內容

Q:騰訊這次開源的“Tencent ML-Images”圖像數據集,與此前谷歌的 Open Images 圖像數據集相比,除了數據量變得更大,還有哪些不同之處?

A:相比於 Open Images, 除了圖像數據量更大,ML-Images 圖像數據集還有兩個主要不同之處:

1)更多的可訓練物體類別,達到 1 萬多種類別,而 Open Images 的可訓練類別只有約 7200 種;

2)ML-Images 的圖像標註質量更高,因為在標註過程中我們充分利用了類別語義關係(見問題 4 詳細介紹),而 Open Images 的訓練圖像標註來源於已有分類器的自動生成。

Q:騰訊此次開源的圖像數據集對於學術界和工業界的意義分別是什麼?為什麼大規模圖像數據集對於行業來說非常重要?

A:利用 ML-Images 的圖像,科研人員可以設計,訓練,驗證新的模型和算法;工程師可以利用此次開源的高精度 ResNet-101 模型,快速遷移到其他視覺任務。數據是深度神經網絡的燃料,只有充足的高質量訓練圖像,才能充分發揮深度神經網絡的視覺學習能力。

Q:以“Tencent ML-Images”圖像數據集為例,詳細談談大規模多標籤圖像數據集的構建方法,主要包含哪些步驟,每個步驟的難點是什麼?分別有哪些解決思路?

A:大規模圖像數據集的構建主要包含圖像來源,物體類別集合,圖像標註三個步驟。圖像來源一般有兩種形式,一種是利用圖像搜索引擎(例如 Flickr)來爬取, 另一種是融合已有圖像數據集。

我們選擇利用 ImageNet 和 Open Images 提供的部分圖像 URL 進行融合。我們稱之為多源數據集融合,其最大難點在於物體類別集合的融合。我們採取的方法是利用 WordNet,將所有數據源中的類別,規範化成統一的 WordID。如果不同類別的 WordID 相同,則可以將它們進行融合成一個類別,即類別去重;如果不同類別的 WordID 在 WordNet 中是同義關係,同樣可以將它們進行融合成一個類別,即類別去冗餘。

在完成類別的去重和去冗餘後,剩下的 WordID 對應的都是含義相對獨立的類別。它們的語義關係結構可以從 WordNet 中提取, 從而形成一個完整的、無冗餘的、具有統一語義關係結構的物體類別集合,進而完成訓練圖像的融合與標註。

Q:你們提到,“在 ML-Images 的構建過程中利用類別語義關係來幫助對圖像的精準標註”,能否介紹一下類別語義關係,以及具體是如何實現圖像精準標註的?

A:如上述回答中所介紹的,ML-Images 中的類別語義關係來源於 WordNet。常見的語義關係有:

(1)屬種關係,比如“馬”是一種“動物”,因此“馬”是“動物”的子類;

(2)整部關係,比如 “樹葉”是“樹”的一部分,因此 “葉”是“樹”的子類。

從語義關係中可知,如果子類別存在於一幅圖像中,其父類別也應該存在。利用這種約束關係,我們可以對自動標註的結果進行快速甄別、矯正,從而得到更精準的標註。另外,類別語義關係還將用來篩選類別共現關係(即不同物體類別同時出現在一幅圖像中),而類別共現關係也將為精準標註提供重要幫助。

Q:大規模多標籤數據集中很容易出現類別不均衡的問題,從而對模型訓練產生負面影響,你們是如何解決這個問題的?

A:大規模多標籤數據集中的類別不均衡主要有兩種形式:

(1)同一類別中正負圖像的不均衡,即對於一種特定類別而言,其正圖像(即該類別存在的圖像)在整個數據集中所佔的比例往往很小,遠小於其負圖像的比例。

(2)不同類別間的正圖像不均衡。例如,常見大類別(比如“動物”、“植物”)的正圖像的比例有可能超過整個圖像數據集的 10%,而罕見小類別的正圖像比例往往不到千分之一。

針對以上兩種不均衡,我們設計了:

a) 帶有權重交叉熵損失函數,

b) 損失函數權重的自適應衰減,

c) 負圖像降採樣,可以有效抑制類別不均衡對模型訓練的不利影響。

Q:基於 ML-Images 訓練得到的 ResNet-101 模型與之前谷歌、微軟的 ResNet-101 模型相比,有什麼優勢?你們從哪些方面對其進行了優化和改進?

A:對比谷歌、微軟所公佈的 ResNet-101 模型,我們此次開源的 ResNet-101 模型具有更強的視覺表示能力和泛化性能,這一點通過遷移學習在 ImageNet 驗證集上精度可以體現。之所以能得到這麼優秀的模型,主要原因包括 ML-Images 提供的高質量訓練圖像,和我們設計的損失函數、訓練算法。詳情可參見下表:

騰訊開源ML-Images,超越谷歌成業內最大多標籤圖像數據集


注:微軟 ResNet-101 模型為非遷移學習模式下訓練得到,即 1.2M 預訓練圖像為原始數據集 ImageNet 的圖像。

Q:這個圖像數據集可以應用於哪些不同的行業和領域?目前這個圖像數據集以及所包含的 ResNet-101 模型是否有在騰訊的實際業務中落地應用?主要用在了哪些場景?效果如何?(最好有實際案例和數據)

A:“Tencent ML-Images”項目的 ResNet-101 模型,目前已在騰訊多項業務中發揮重要作用,如“天天快報”的圖像質量評價與推薦功能,顯著提高了圖像推薦的效果,如下圖所示:

騰訊開源ML-Images,超越谷歌成業內最大多標籤圖像數據集

左側為優化前,右側為優化後

騰訊 ML-Images 團隊在採訪最後表示,他們將持續擴充數據集的圖像數量和物體類別範圍。團隊還將基於 Tencent ML-Images 的 ResNet-101 模型遷移到很多其他視覺任務,包括圖像物體檢測,圖像語義分割,視頻物體分割,視頻物體跟蹤等。這些視覺遷移任務進一步驗證了該模型的強大視覺表示能力和優異的泛化性能。“Tencent ML-Images”項目未來還將在更多視覺相關的產品中發揮重要作用。

該數據集將於本月底正式開源,感興趣的讀者屆時可訪問此鏈接:

https://github.com/Tencent


分享到:


相關文章: