數據標籤是中國在人工智能大戰中的祕密武器

數據標籤是中國在人工智能大戰中的秘密武器

這是一場真正的軍備競賽。

"您現在所看到的-所有這些AI的壯舉,例如無人駕駛汽車,解釋醫學圖像,擊敗圍棋的世界冠軍等等,這些都是非常狹窄的智能,它們確實針對特定目的進行了訓練。 在這種情況下,我們可以收集很多數據。"

這據說是Facebook的AI研究負責人Yann LeCun所說的。

這些話凸顯了一個事實,即在最近閃亮的AI產品氾濫之後,隱藏著更為平淡的人類現實。

世界各地的科技巨頭通常依靠大批人工來標記將用於訓練他們的機器學習算法的數據。

"標籤數據"僅意味著獲取一組未標記的數據(例如電話成績單或街道圖像),並在單詞或汽車等單個元素上添加內容豐富的描述性標籤。

為了幫助訓練自然語言處理系統,數據標籤廠商可能會添加標籤,以顯示某個單詞在不同上下文中的含義。

儘管此類估算將始終是通用且可簡化的,但數據科學類型已按如下方式幫助分解了機器學習項目中的時間分配:

數據標籤是中國在人工智能大戰中的秘密武器

如果向機器學習算法提供大量準確標記的訓練數據,則可以在"現實世界"中將其用於包括無人駕駛汽車在內的計算機視覺任務。

數據標記需要花費很多時間,這是一項重要的任務,尤其是當數據將用於訓練自動駕駛汽車時。 可以接受的誤差幅度很小,我相信我們都會同意。

儘管AI取得了所有進步,但仍然像其綽號所暗示的那樣是人造的。

機器學習算法的學習方式與人不同。 一些科學家正在嘗試教AI像孩子一樣學習,但是這些努力仍處於嬰兒階段。

我們偶爾會通過這樣的特技收到有關此事實的強烈提醒,這些改動包括完全模糊了計算機視覺系統的較小路牌,如下所示:

數據標籤是中國在人工智能大戰中的秘密武器

很明顯,當我們看到這個破壞性的STOP符號時會看到什麼,但是神經網絡分類器認為在幾乎100%的測試中它都是" Speed Limit 100"符號。

因此,就目前而言,機器學習需要良好的數據,而實現這一目標的最可靠方法是讓人們整天坐在那裡圖像添加註釋。

您擁有的人越多,您可以標記的數據就越多。

這是一場軍備競賽,但不是我們所熟悉的那種。

在中國,他們談到前店后街的經濟模式-字面意思是"前店後廠"。 通常,這用於協助供應鏈中的勞動,資本和資源分配。

過去(特別是在1980年代和1990年代),中國使人民幣貶值,以使其對外國的出口價格更低,並刺激了對生產大眾消費品的工廠的投資。 這也使進口商品對中國公司而言更加昂貴,從而刺激了他們在本地購買設備。

基本上,在這種情況下,中國是工廠的後方,而西方是工廠的前部。

現在,自那時以來(也是由於這一時期),中國的野心有所增強,以至於中國公司希望"升至"價值鏈的頂部,並擁有客戶關係以及產品創造。

為什麼要提這個? 好吧,"前店後廠"的模型仍然佔據主導地位。 現代中國的不同之處在於,機器人在前面,而人們在後面。

人們正在努力工作,以使中國的汽車,數字助理和店內機器人得以蓬勃發展。 在理想的世界中,中國將向世界其他地區出口優質產品。

這有點讓人聯想起18世紀的"機械土耳其人",下棋的自動機令賭徒們大吃一驚,結果卻法相木偶由下面的一個小個子在一個隱藏隔間所控制。

數據標籤是中國在人工智能大戰中的秘密武器

我提到這個特定示例是有原因的,信不信由你。 亞馬遜做出了一個頗具說服力的決定,將其眾包的工作平臺命名為" Amazon Mechanical Turk",這是對曾經風光無限的前任的提倡。

在17世紀,"計算機"是可以執行算術運算的人。 在20世紀中葉,計算機仍然是處理公司內部數字轉換的人(主要是女性)。 直到後來計算機才被編程並數字化,而我們今天仍在對其進行培訓。

每天,我們都是這一動態的一部分。 我們使用這些驗證碼錶格來"證明"我們是人類,並且這些數據用於使機器更智能。

儘管我們確實偶爾會瞥見一幕,但對於今天仍然有很多AI培訓仍然是手動的,人們會感到驚訝。

去年,蘋果,谷歌,亞馬遜和Facebook在導出用戶數據並將其與第三方共享時被迫道歉。

這些技術巨頭向數據註釋公司提供信息,例如與數字助理的用戶對話,以提高其AI系統的準確性。

在發佈之時,還沒有人找到一種準確,經濟高效的方法來代替人類標記物。

這樣,回到中國。

中國的農村地區(如貴州)現在是海綿狀的數據註釋工廠的所在地。

對於當地人來說,這是一個誘人的職業。 每月3,000元人民幣(425美元)的平均工資是該地區平均工資的三倍。 去年,貴州的經濟產出增長了10.2%,是該省增長最快的省。

當然,科技公司之間的"軍備競賽"不只是讓更多的人來執行流程中的標籤工作。

儘管如此,這是一個好的開始。

正如貴州一家數據標籤公司的所有者在接受《紐約時報》採訪時所說,

"我們是數字世界中的建築工人。 我們的工作是一磚一瓦地鋪設。 但是我們在人工智能中發揮著重要作用。 沒有我們,他們將無法建造摩天大樓。"

淘寶的視覺搜索等知名產品(最近在時事通訊中進行了討論)都經過訓練,這些信息是根據阿里巴巴在這些農村地區的倉庫中標記的數據進行的。

就其本身而言,騰訊正在研究這個巨大的掩體,以存儲,處理和分析來自其廣受歡迎的微信應用程序中的用戶數據:

數據標籤是中國在人工智能大戰中的秘密武器

當然,中國通常比其他國家擁有更多的勞動力。

它在許多關鍵技術領域也落後於美國,並且陷入了與特朗普政府的持續鬥爭中。

美國出於多種原因將這種體力勞動外包。 一方面,建立這些設施,培訓勞動力然後向他們支付討厭的最低工資是很昂貴的。 將工作轉到更便宜的地方要容易得多,尤其是在成品(大量帶標籤的數據)看起來相同的情況下。

中國也許能夠將過去的劣勢變成強項。 貴州等農村地區仍不發達。 數據標籤公司帶來了急需的工作和相對健康的薪水。 與北京這樣的主要城市相比,這些薪水相形見拙,這也為科技公司帶來了更多好處。

中國完全跳過了幾代人的技術發展,從而在接下來的重大事情上處於領先地位。 非接觸式信用卡從來沒有真正起飛過,它們已經直接轉移到智能手機支付。 在西方國家,從非接觸式卡轉移到智能手機支付的動機遠沒有吸引力。

自動駕駛汽車也是如此。 由於未能在全球以人為本的汽車市場上大打折扣,中國公司已將重點轉移到製造無人駕駛機器上。

如果中國科學家學會在此過程中開發更先進的微處理器,那麼中國發展的最新階段只會真正威脅到美國科技巨頭。

正如《經濟學人》本週報道的那樣,中國仍在追趕這一至關重要的行業,到2022年,這一行業的產值將達到5750億美元。

儘管數據標記看起來像是一項僅用於一個有用目的的繁瑣,單調的任務,但它也可以在此宏級別上發揮巨大的作用。

通過自始至終獲得機器學習供應鏈的所有權,中國的AI科學家仍然與這些複雜的,有時是不透明的系統的內部運作保持緊密聯繫。

中國龐大的勞動力將對開發寶貴的知識產權商品發揮至關重要的作用。

(本文翻譯自Clark Boyd的文章《Data Labeling is China's Secret Weapon in the Connected Car Battle》,參考:https://towardsdatascience.com/data-labeling-is-chinas-secret-weapon-in-the-connected-car-battle-e8e395965380)


分享到:


相關文章: