世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

作者 | CDA數據分析師

來源 | 《Data Scientists at Work》

受訪者簡介

Yann LeCun是全球最大社交網站Facebook的人工智能研究總監。

Facebook的核心業務是促進人與人之間、人與人與數字世界之間的溝通。考慮到涉及的數據規模之大,支持這項任務所需的技術是巨大的。截至2014年,Facebook擁有超過13億的活躍用戶(彼此之間的連接超過1500億)和8.29億的每日獨立登錄。這些用戶平均每天上傳約3.5億張照片,分享約47.5億項內容,發送約100億條信息。這些流數據集的可用性是如此之大,以至於在大多數情況下,Facebook的系統只有一次時間查看任何數據。這樣的活動水平帶來了一系列獨特的挑戰:如何最好地理解和理解所有的數據,以及如何使用這種信息關聯來做出決策

在加入Facebook之前,LeCun是紐約大學計算機科學、神經科學、電子和計算機工程的銀牌教授,現在仍然是紐約大學數據科學中心的創始主任。

在多倫多發展理論後,他加入了美國電話電報公司貝爾Laage處理研究部門。2003年加入紐約大學。在他迄今為止的職業生涯中,他發表了180多篇關於機器學習、計算機視覺、筆跡識別、圖像處理和壓縮以及神經網絡作品的技術論文和書籍章節。他尤其以他在深度學習方法方面的工作而聞名,這些方法被公司用來理解圖像、視頻、文檔、人機交互和語音。

LeCun是一個無與倫比的數據科學家的例子,他有一個轉型的願景——在他的例子中,使用深度學習來教機器感知世界——他努力在學術和工業研究實驗室實現這一願景。 LeCun的採訪證明了他對機器學習的熱情和對未來的信念,以下為整理的採訪內容。

世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

您的工作職責是什麼?

我是Facebook的人工智能研究總監。

這個角色的一部分涉及到數據科學,儘管Facebook也有其他團隊在做數據科學。如果你願意,人工智能研究可以被認為是數據科學更先進的一面。我也是紐約大學的兼職教授,就在我的Facebook實驗室對面。雖然我現在是一名大學教授,但我的大部分職業生涯都是在工業研究方面。

早些時候,我在貝爾實驗室的一個小組裡工作,當時,這個小組致力於機器學習,神經網絡和類似的項目。然後我成為AT&T實驗室的部門主管,這是AT&T在1996年公司分裂後的研究實驗室的名字。我2003年加入紐約大學,所以我在這裡已經11年多一點。我是在2013年底加入Facebook的。

您的職業生涯是如何形成的?

  • 興趣導向

雖然在我工作過的機構方面沒有明確的途徑,但在我感興趣的技術問題方面有明確的路徑。事實上,我感興趣的是相當恆定的,除了很短的時間。我從小就對人工智能和相關學科非常著迷。上世紀70年代末至80年代初,我讀本科時學的是電氣工程。在這段時間裡,我做了很多項目,試圖弄清楚我們是否能讓機器學習。我一直堅信,製造智能機器的唯一方法就是學習,因為每一種動物都有學習的能力。任何有大腦的東西都能學習。

我通過搜索文獻來解決這個問題,尋找能夠學習的機器,並意識到,至少在20世紀80年代初,沒有人在研究這類問題。我唯一能找到的文獻是20世紀60年代的,有些是70年代的,但大部分是60年代的。這是上世紀50年代神經網絡1.0版的舊作。像百分率加速器和其他類似的技術然後是1970年代早期的統計模式識別文獻。但當我開始對這個研究領域感興趣時,這個領域已經被研究團體所拋棄了。這段時間有時被稱為“神經網絡的寒冬”。

我畢業了——儘管我的專業實際上不是機器學習,因為那時還沒有機器學習這種東西。事實上,在那個時候的法國,甚至還沒有計算機科學。我畢業的專業是VLSI集成電路設計和自動控制。大學畢業後,我上了研究生院。不幸的是,我很難找到對我想做的事情感興趣的人,因為我已經確切地知道我想做什麼。當我還在讀本科的時候,我就已經意識到,早在上世紀60年代,人們一直在追求的東西,卻永遠無法解決,基本上就是多層神經網絡和深度學習的概念。

  • 研究算法

也許在我讀研究生的兩年前,我開始嘗試各種算法。我提出了一個最終成為我們現在所說的反向傳播算法的東西——我們每天在Facebook上都在非常非常大規模地使用它——獨立於David Rumelhart, Paul Werbos, David Parker, Geoff Hinton和其他人。我很難找到研究生院的高年級學生來幫助我,因為這個領域已經被遺棄了。

幸運的是,我有一個很好的顧問,莫里斯·米爾格拉姆,我有自己的資金,基本上是獨立於我的顧問的。我的導師很好,他對我所做的一切都不感興趣,他基本上告訴我,他會簽署這份文件,因為我看起來很聰明,但他幫不了我。

世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

最初是什麼激發了您對人工智能的興趣?

  • 家庭薰陶

我出生於1960年。在我九歲的時候,火箭飛上了太空,人類登上了月球,《2001太空漫遊》問世了,裡面有太空和智能電腦。科幻小說是那個時代的精神。我一直對科學感興趣。當我還是個孩子的時候,我想,也希望我能成為一名科學家。在天體物理學、古生物學、神經科學或人工智能之間,我猶豫了——不幸的是,沒有猶豫很長時間。但我確實是個工程師。這是我爸爸給我的,他是個機械工程師,我喜歡做東西。

所以當我想到做科學的時候,我想到的是:我們這個時代最大的科學問題是什麼?

一個問題是:宇宙是由什麼構成的?天體物理學和基礎物理學試圖回答這個問題。

另一個問題是:生活是關於什麼的?哪一種生物學,等等。

另一個問題是:大腦是如何工作的?這個問題是一個很大的科學謎團。

如果你是一名年輕的科學家,還沒有意識到自己的侷限性,那就去做大事吧。理解智力是一個很大的問題。

作為一名工程師,我認為大腦是一個非常複雜的系統。

  • 好奇心

智能是一種非常抽象的東西,它可能可以用數學方法來建模,所以我們可以用工程學的方法來弄清楚大腦是如何工作的,通過嘗試建造智能機器來驗證我們的設計或概念想法。關於大腦是如何工作的,已經說了很多,有些非常抽象。但是在你建立一個真正有效的系統之前,你怎麼知道他們是正確的呢?所以至少你有了大部分必要的成分。這就是我感興趣的科學問題。

當然,我不僅要滿足我建造東西的慾望,我還必須找到工作,在那裡我可以開發好的技術和做偉大的工作。這對我來說很奇怪,但我從來都不清楚我是否會成為一名學者。我

做過——也許我應該早點做——但長期以來,行業研究對我來說是一種完美的環境。所以我現在又回到這個話題上了,儘管我也涉足學術界,我發現這兩個世界在這方面是互補的。所以我處在一個非常優越的環境中,我可以在工業上有1.5英尺,在學術上有0.5英尺,這讓我可以利用兩者之間的互補。在學術界,你可以做像計算神經科學和理論這樣的事情,而在工業界,你可以做一些在學術界很難做到的雄心勃勃的事情。

您使用的第一個數據集是什麼?

  • 醫療數據集

我研究的第一個真實數據集是我在做博士研究時使用的醫療數據集,數據集來自於對因腹痛來到急診室的病人進行的醫學研究。事實證明,僅僅根據腹痛來決定是否手術是一個非常困難的診斷。根據腹痛,你可以做出大約20種不同的基本診斷。有些診斷需要非常快的手術,比如闌尾炎。所以當時有一個相當大的數據集,有成千上萬的樣本,有對病人的基本描述,有缺失的值,諸如此類的東西,你會預料到的。

  • 神經網絡方法

我採訪過的收集這些數據的人都嘗試過樸素貝葉斯和類似的方法。我嘗試了神經網絡。神經網絡還不存在,但我基本上嘗試了這個新奇的東西——反向傳播——我得到了一些相當不錯的結果。這幫助我想出的想法裁剪系統的體系結構,它將能夠識別症狀,這樣的事情,這是集合的症狀,以減少系統中的自由參數的數量,因為我們知道,甚至在1986年,當時,過度擬合是一個大問題。

世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

未來的數據科學領域會是什麼樣子?

  • 數據指數增長

關於數據科學的未來,我經常說的是,需要注意的最重要的一點是,收集和存儲的數據量呈指數級增長。它要麼以通信網絡帶寬增長的速度增長,要麼以硬盤容量增長的速度增長。它總是兩者之一,這取決於它是流數據還是存儲數據。這是一個非常大的指數。目前,當你試圖從數據中提取知識邊緣時,循環中有人類。地球上人類腦力的數量實際上也在呈指數增長,但是指數非常非常小。與數據增長率相比,增長速度非常慢。

這意味著,不可避免的是——事實上,這種情況已經發生了——地球上已經沒有足夠的腦細胞去觀察或瀏覽這些數據,更不用說分析數據並從中提取知識了。所以很明顯,未來世界上的大部分知識都將被機器提取出來,並將駐留在機器中。實際上可能已經是這樣了,這取決於你對知識的定義。對我來說,知識是一些數據的彙編,使你能夠做出決定,而我們今天所發現的是,計算機正在自動做出許多決定。這在未來不會有任何改善。

  • 成為一種時尚

如果我們看數據科學的未來,數據科學是不會消失的,科學和現有的工程在從數據中提取知識將是一個未來的大事情,社會要依靠。在某種程度上已經是這樣了。網絡已經依賴於此。但整個社會都將依賴於此。所以這不是一時的流行;它不會消失。如果你說數據科學是一種時尚,就像你在1962年說計算機科學是一種時尚一樣。看看我們現在的處境。

因此,我對這一現象的看法是,它將創造——當然,它創造了一個我們都知道的產業——對這一領域受過教育的人的需求。這也創造了一種學術學科的需要來處理這個問題。這一點有些人還沒有完全理解。例如,如果你是一名統計學家,你會說,“嗯,那只是統計。如果你是一個機器學習的人,你會說,“嗯,那就是機器學習。”如果你是一個數據庫人員,你會說,“嗯,那只是一個數據庫,上面有一些機器學習和統計數據。”如果你是一個應用數學的人,你會說,“所有這些技術和方法都使用了應用數學。”

所有這些人都錯了。它是所有這些東西組合成一個系統:統計、應用數學、計算、基礎設施和應用領域,這些都是那些方法可以應用的東西,需要專業知識。因此,像深度學習這樣的技術可以讓我們減少或最小化處理新問題所需的人類專業技能,這樣機器就可以儘可能地自己完成任務。當然,在這一點上,總是有人參與其中。像數據可視化這樣的東西使得人們可以很容易地做這樣的事情,只要循環中還有人。然而,最終,這些模型將從本質上自行構建。

  • 新興學科

我堅信數據科學是一門新興的學科。在紐約大學,我們幫助開創了這一趨勢,因為我們很早就創建了一個數據科學中心。我們也很早就創立了數據科學碩士學位,這是一個巨大的成功。我們得到了摩爾-斯隆數據科學環境倡議的大力支持,這是摩爾和斯隆基金會的一個大型項目。該計劃將紐約大學、華盛頓大學和加州大學伯克利分校聯合起來,目的是將數據科學確立為科學的一門學科。

世界頂尖數據科學家採訪實錄——Facebook人工智能研究總監

您對數據科學的新人有什麼建議麼?

我總是給同樣的建議,因為我經常被問到這個問題。

  • 學習數學和物理的課程

我的觀點是,如果你是一名本科生,學習一門專業,你可以選修儘可能多的數學和物理課程。不幸的是,它必須是正確的課程。我要說的可能聽起來有些矛盾,但工程學或物理學專業可能比數學、計算機科學或經濟學專業更合適。

  • 學習編程

當然,你需要學習編程,所以你需要上大量的計算機科學課程來學習如何編程的機制。然後,再做一個數據科學的研究生項目。參加本科階段的機器學習、人工智能或計算機視覺課程,因為你需要接觸這些技術。然後,在那之後,參加所有你能參加的數學和物理課程。尤其是像優化這樣的連續應用數學課程,因為它們讓你為真正的挑戰做好準備。

您認為數據科學的最大機遇在哪裡?

  • 社會科學領域
  • 深度學習方法

如果你是一名實驗科學領域的科學家,尤其是社會科學領域的科學家,我認為在數據科學的方法領域和領域科學之間存在著大量的機會。這將給很多科學領域帶來革命性的變化,所以這是一個非常令人興奮的地方,尤其是在社會科學領域。其他領域,如基因組學和生物學,已經先行一步。

而社會科學,是一個充滿機遇的大領域。如果人們剛剛開始,我建議他們去尋找一些有趣的、令人興奮的大問題來解決。當然,如果你對方法感興趣,深度學習才是關鍵。


分享到:


相關文章: