無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來

過去十年裡,機器學習在語言處理、圖像識別、自動駕駛等商業應用,甚至圍棋、星際爭霸和DOTA等遊戲領域裡都取得了空前進步。這些成功在很大程度上是通過監督學習和強化學習這兩種學習模式中的一種,對神經網絡進行訓練來實現的。

它們的共同之處在於都需要人類設計訓練信號。在監督學習中,這些信號通常被定義為“目標”,比如圖片的正確標籤;在強化學習中,則為對成功的“獎勵”,比如在遊戲中獲得高分。也就是說,人類其實限制了學習成果

儘管一些科學家認為,給出包容性較高的訓練規則或許足以產生通用人工智能。但更多人認為,真正的人工智能需要能夠自我學習,把對一個領域的學習成果應用於另一個領域,就像兒童探索世界一樣


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來



如果我們觀察一個兒童的學習過程,就會發現,她的長輩或會耐心教她如何分辨動物(監督學習),或會在她拼好拼圖後用掌聲鼓勵(強化學習)。但在絕大部分時間裡,兒童都是在自我探索世界,通過好奇心、遊戲和觀察來理解周遭環境,這就是無監督學習

進行無監督學習的一個關鍵動力,來自於人類設計訓練信號的一大缺陷:雖然傳遞給算法的數據具有非常豐富的內部結構(比如圖像、視頻和文本),但用於訓練的目標和獎勵通常比較稀少(比如“狗”的標籤只適用於特定物種,或者只用1和0代表遊戲的成功和失敗)。這意味著,算法學到的大部分內容主要是對數據本身而非對任務的理解。

但是在創造自主智能的過程中,我們會對計算機程序理解所觀察到的數據和信息(而非一個特定的任務)進行獎勵。換句話說,程序是為了學習而學習

解碼視覺的元素


2012年,AlexNet(以其首席架構師Alex Krizhnevsky命名)席捲了ImageNet分類競賽,成為了深度學習的里程碑。在當時,AlexNet具備了前所未有的圖像識別能力,但算法內部的工作過程更加值得注意。

當研究人員試圖分析AlexNet如何解釋圖像時,他們發現,它創建了非常複雜的內部表達,來對應輸入值。諸如紋理和邊緣這樣的低層特徵,都被放入了底層,然後在高層中組合成了更高級的概念,比如輪子和狗。

這與人類大腦處理信息的方式非常相似,其中初級感官區域負責處理邊緣和紋理等信息,然後在高級處理區域組合起來,最後構成面部這樣的複雜對象。因此,我們可以用視覺原語(visual primitives)構建複雜場景的表達,就像是用多個單詞組成一句話一樣。

無需明確指引,AlexNet僅憑自己就發現了這一點,找到了一種挖掘和組合“視覺詞彙”的方式來解決問題。從某種意義上說,它學會了哲學家路德維希·維特根斯坦所說的“語言遊戲”,即小孩子學習母語時玩的遊戲,可以做到迭代“翻譯”像素,形成分類標籤。


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來


圖 | 卷積神經網絡的視覺詞彙。網絡中的每一層,都在以激活最多特定神經元的方式生成圖像。至於這些神經元對其他圖像的響應,我們可以解釋為缺少了某些視覺“單詞”:紋理、書架、狗鼻子、鳥。(來源:Feature Visualization, Olah et al. (2017))

遷移學習


從通用智能的角度來看,“AlexNet詞彙”最有趣的地方在於,它可以被重複使用或遷移到未經訓練的視覺任務中,例如識別整個場景,而不是單個對象。在不斷變化的世界中,遷移是一種必不可少的能力,人類尤其擅長於此。

面對相似的事物和環境的改變,我們能夠迅速調整已掌握的技能和理解。例如,學習古典音樂的鋼琴家可以相對輕鬆地掌握爵士鋼琴。理論上,正確理解事物內部運作規律的人工智能系統,也應該可以達到類似的水平。

儘管如此,AlexNet等分類器學到的表達仍然具有侷限性。具體來說,由於我們只用單一類別(貓、狗、汽車、火山)訓練網絡,那麼在它眼中,只要不是用來推斷類別的信息,可能都是無用的,哪怕它們對其它任務來說價值巨大。比如,如果分類標籤總是指向前景物體,那麼分類器很可能忽略圖像的背景。

一種可能的解決方案,是提供更全面的訓練信號。簡單的例子就是,標註不能再是簡單的“”,而是“在陽光明媚的公園中叼飛盤的柯基”這樣的具體描述。然而,實現這一目標很難,尤其是現代機器學習需要海量數據的情況下。


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來



而且,這也可能不足以滿足完成任務所需的全部信息。

對無監督學習來說,想要獲得豐富而廣泛的可轉移式表達,最基本的前提就是:掌握數據中可以學到的全部信息。

如果“表徵學習轉移”的概念看起來過於抽象,那麼我們可以想象一個會畫簡筆畫的小孩。她首先將人體特徵用最簡單的方式表達出來:頭、五官、身體和四肢等,既高度緊湊,又十分靈活(完成了表徵學習)。然後通過添加具體細節,她就可以為同學創作卡通肖像:有的戴著眼鏡,有的喜歡紅色T恤等等,各不相同(遷移到同學身上)。

重要的是,她學習這項技能不是為了完成特定任務或獲得獎勵,而是為了反映周圍的世界。

在創造中學習:生成模型


在無監督學習領域,最簡單的任務或許就是訓練算法來生成自己的訓練數據。但所謂的生成模型不能只產生與訓練數據集相似的數據,而是需要生成一個能夠抽取出基類數據的模型:不是僅生成一匹馬或一道彩虹的照片,而是所有的馬和彩虹的照片集合;不是某一位演講者的一個特定表達,而是話語的一般分佈。

正如理查德·費曼(Richard Feynman)所言:“我無法創作的東西,便是我不能理解的”。生成模型能夠建造可信性夠高的數據實例,便是理解這些數據的最有力的證明。

對於圖像來說,迄今最成功的生成模型是生成對抗網絡(GAN)。該模型由生成器和判別器兩部分組成,這兩者在“造假”的競賽中一個負責產出,一個負責識別。生成器產生的目的是產出以假亂真的圖像,而判別器則在成功識別“贗品”後獲得獎勵。

生成的圖像最開始是雜亂又隨機的,但是經過多輪迭代的修正以及與判別器不斷相互抗衡後,生成對抗網絡所產生的圖像最終會與真實的照片無差。此外,這類模型也能根據用戶的粗略草圖,繪製十分細膩的風景圖像。

從下圖中,我們不難發現生成對抗網絡已經學會表達訓練集圖片裡的關鍵特徵,如動物的身體結構、草的紋理、光影細節(即使是通過肥皂泡的折射)。


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來


圖 | 由BigGan 生成的情景和生物(來源:Brock, Donahue and Simonyan, 2018)

當然,仔細看還是能發現些許異常的,比如白狗多了一條腿,噴泉有一個直角水柱。雖然人們會竭力避免生成模型出現瑕疵,但它們的存也並非毫無意義。使用圖像等常用數據最大的好處就是,可以根據瑕疵推斷模型已學到的內容和未學到的內容。

在預測中創造


在無監督學習領域裡,另一個值得一提的手段是自迴歸模型(Autoregressive Models),即將數據切分成序列片段,依次預測每個片段。這種模型可以通過不斷預測下組數據來生成新的數據,並將預測作為輸入去繼續猜測。

最常見的自迴歸模型莫過於語言模型,因為語言模型的每個詞,都是由它前面的詞預測而來。一些郵件和聊天應用的文本預測功能皆基於這類模型。而最新的進展讓語言模型能生成相當合理的文章段落,比如這段由OpenAI GPT-2生成的文字:


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來



如同生成對抗網絡一樣,這段文字中也有一些瑕疵,比如誤把獨角獸形容為有“四隻角”。這再次為我們展現了模型的理解侷限。

通過調控能制約預測輸出的輸入序列,自迴歸模型可以實現序列之間的轉換。比如一個小應用可以把輸入的文字轉換為十分真實的手寫字體,還有能將文本轉換為自然語音的WaveNet,現被用於生成Google助手的語音。

自迴歸模型瞭解數據的方法是通過特定的順序,去預測數據的每一部分。而更廣泛的無監督學習算法,則可以通過任意部分數據去預測其他部分。例如,從一句話裡刪除一個詞,然後試圖用剩下的部分來預測這個詞。通過進行大量的局部預測,整個系統相當於被迫學習了整體數據。

對於生成模型最大的擔憂在於其被濫用的可能。雖然早就存在修改照片、視頻和音頻來偽造內容的技術,但生成模型讓惡意編輯操作變得更容易。目前已經出現了這種所謂的“deepfakes”內容,比如大家熟悉的假奧巴馬發言視頻。


無監督學習:大數據帶我們洞察現在,但小數據將帶我們抵達未來



但幸運的是,已經有很多大型項目試圖解決這些問題。比如利用統計手段來檢測合成內容和確認真實內容、提高公眾意識,以及一些關於限制成熟生成模型的討論。

此外,我們還可以利用生成模型本身來檢測合成內容與反常數據,比如檢測虛假語音、識別異常支付以避免顧客遭受詐騙等。而研究人員則需要更好地理解生成模型並減少其下游風險。

重新思考“智能”


生成模型本身足以吸引人,但它們最大的吸引力在於它們還可以作為走向通用智能的踏板,生成數據的能力就像一種想象力,模型也會因此具有規劃和推理未來的能力。研究表明,學習預測環境的各個方面能豐富AI的世界模型,從而提高其解決問題的能力。

這些結果與我們對人類思維的直覺隱隱相合。“在沒有明確的監督下去了解世界”是我們常說的“智能”的基礎能力。在乘坐火車時,我們可能會無精打采地凝視窗戶外、手指無意識地在座位上滑動、或觀察周圍的乘客。

我們在這些學習行為中沒有任何固定的目的,但我們幾乎無法停止收集信息,我們的大腦不斷地致力於瞭解周圍的世界,以及我們在這個世界中的位置。

-End-


分享到:


相關文章: