字節跳動春招開放6000個崗位,在技術大牛身邊工作是怎樣的體驗?

字節跳動春招開放6000個崗位,在技術大牛身邊工作是怎樣的體驗?

  近期,字節跳動宣佈,今年春季招聘為大學生開放超過6000個全職及實習生就業崗位。這一招聘數字,超過字節跳動以往每年春季招聘的規模,也讓字節跳動成為今年互聯網行業少見的“不縮招”企業。

  字節跳動招聘負責人表示,2020年,字節跳動會繼續加大對人才的培養,傾注更多平臺資源,幫助社會創造更多的就業崗位。字節跳動將為應屆畢業生提供廣闊穩定的發展機會、完善的新人培養體系、平等開放的工作氛圍,以及有競爭力的回報和福利。

  此前,2019 ACL(國際計算語言學會)Fellow名單出爐,字節跳動人工智能實驗室科學家李航入選。ACL Fellow是對NLP領域從業者的最高認可。據ACL官網信息,李航因在「信息檢索方面做出基礎性貢獻,特別在學習排序、深度學習和對話生成方面做出卓越貢獻,同時促進了中國NLP的發展與商業化」而入選。

  李航獲東京大學計算機科學博士學位,曾任微軟亞洲研究院主任研究員和華為諾亞方舟實驗室首席科學家。2019年5月,李航編寫的機器學習入門“藍寶書”《統計學習方法》再版,字節範兒邀請李航就新書內容、加入字節跳動的體驗、年輕技術人的成長、機器學習的未來和人工智能趨勢等話題進行了分享。

  在李航身邊工作是一種怎樣的體驗?

  字節跳動有的員工說,當然是很開心,都知道他是行業裡的技術大牛,在微軟亞洲研究院、華為諾亞方舟實驗室等知名機構有著豐富的從業經歷。還有很多員工說,其實也沒有那麼神秘,他總是穿著襯衫西褲而不是碼農的T恤,開會帶著紙質本子記東西,習慣用手錶看時間,溫和儒雅,一副大學教授的樣子。

  他的另一個身份是《統計學習方法》的作者,這本書被很多人親切地稱作“藍寶書”,是不少技術人入門機器學習的啟蒙讀物。他出版過三部學術專著,並在頂級國際學術會議和期刊上發表過上百篇論文,擁有40項授權美國專利。

  在以下訪談中,李航就新書的內容、加入字節跳動的體驗、年輕技術人的成長、機器學習的未來和人工智能的發展趨勢等話題與大家進行了分享。

  關於新書

  Q:《統計學習方法》第二版相對於第一版有哪些更新?

  A:統計學習即機器學習,第一版主要是介紹了監督學習的算法與模型。第二版主要是在過去六年的時間裡,補充了無監督學習的八個方法,並對第一版的監督學習方法做了一些修改。雖然目前90%以上的機器學習都是監督學習,但無監督學習其實是機器學習的重點和難點,即讓機器自己發現數據裡的規律,它是未來實現強大人工智能的重要推動力。未來我還準備花3-4年時間把深度學習和強化學習加進去。因為我都是業餘時間寫作,所以花的時間比較久。

  Q:很多人把《統計學習方法》叫做藍寶書,是入門機器學習的啟蒙讀物,但一些學生看這本書會覺得吃力,能不能推薦一些入門的方法?

  A:這本書的內容本身是最基礎的,也就是機器學習領域大家都應該掌握的東西,從這種意義上來說確實是一本入門書籍。但是我並沒有從入門的角度寫這本書,而是更多地把一些最基本的概念,提綱挈領地整理出來,也是我自己再學習和思考的過程。你也可以認為是從教材的角度來寫這些內容,因此這本書適合多次閱讀,需要經常查看,而不是看一遍就了事。

  這本書比較適合有一定基礎的讀者,主要是數學基礎。它不太適合特別入門的初學者,也不太適合概率論、統計學都不太瞭解的入門者,這些基礎知識可以通過其它課程或教材快速補全。當然,讀者也可以一邊閱讀《統計學習方法》,一邊補全基礎知識,這樣學習可能效率更高。

  當然,我希望《統計學習方法》不僅僅是教材,它還能為業界的工程師提供一些有用的幫助。

  Q:能不能給我們分享一下經驗,年輕技術人員如何自我成長?

  A:我覺得有幾件事情比較重要。一是建立遠大的理想和目標,選擇自己喜歡做的,擅長做的,能給自己帶來利益的事情的交集去做。制定有挑戰的目標,想想希望自己5-10年後成為什麼樣子。二是一旦有了目標之後,在日常的工作中紮紮實實地去做。其實沒有捷徑。

  另外,我們談到技術人員的工作的時候,科學家和工程師的思維方式應該是不一樣的。工程師的思維方式應該是面向問題解決問題,而科學家的思維應該是建立普世價值的理論和方法。在AI Lab的同事們更是這樣,需要明確自己當前做的工作是哪種性質的。理想是不斷培養自己兩方面的能力,但也有側重。

  關於加入字節跳動

  Q:問答社區上有一個問題“如何評價李航加入今日頭條母公司字節跳動?”,所以你為什麼加入字節跳動?目前為止,感覺如何?

  A:字節跳動有很好的產品和大量的用戶,有人工智能研究需要的大數據,公司也有很多優秀的人才,總之這裡擁有做技術開發最好的環境,有很多有意思的問題可以和大家一起去做。事實證明,這是一個正確的決定,公司的機制和文化很好,大家做起事來心情愉快,效率也很高。

  Q:越來越多人工智能方向的專家從校園走向了工業界,怎麼看待這種現象?

  A:這取決於你自己想做什麼事情,學校適合做研究,工業界更偏產品和應用。人工智能時代需要利用大數據,學校很難有這樣的環境,促使很多老師選擇到工業界。計算機科學領域,現在跟以前有很大的不同,以前的研究很多是大學先工業界後,現在是共同推進,甚至是反過來了。

  我先後在NEC和微軟的研究部門工作過,它們更像是傳統工業界的研究部門,不直接負責產品的開發。字節跳動是我待過的第4家公司,這裡的研究部門是這當中最接近產品的部門,很多東西需要在實際的場景中應用,這很接近美國的一些互聯網公司的做法,既有偏產品的工作又有基礎研究。

  Q:你享受這種balance嗎,難道它不是一種角力嗎?

  A:我個人意見:理想的情況是70%的精力做應用,30%放在相關的基礎研究上,當然中間沒有一個清晰的界限。我們需要為未來做一個很好的佈局。這是這個時代技術發展的必然趨勢。很多東西需要有現實數據以及實際場景去驗證,機器學習本來也是這樣一種技術。所以我很享受這種balance,而不認為是角力。

  Q:現在主要在解決什麼問題?

  A:做好內容平臺。目前主要是開發自然語言處理和機器學習的技術,希望能夠開發出更好的智能信息處理技術,幫助大家更好地獲得信息和知識。比如跟搜索團隊合作的精準問答,是為了幫助用戶更加精確地獲取高質量的信息。還有在頭條的新聞推薦,用算法幫助提高內容質量,打壓低質內容,提高優質內容。

  綜合來說就是要讓每個用戶在信息獲取過程中有更好的體驗,真正得到自己想要的東西。最理想的狀態就是我們每個人都有智能助手,想要什麼信息助手就給你什麼。

  Q:你最初讀的是電氣電子工程專業,為什麼最終進入了機器學習領域的研究?

  A:算是機緣巧合吧。我最早接觸人工智能,是大一的時候在京都大學的人工智能實驗室,80年代末是人工智能很火的時候,那會兒看到機器翻譯、圖像識別就覺得很有意思。到90年代,我在日本NEC公司的研究部門工作,偶然的機會加入機器學習的小組,開始了研究之路。

  這期間經歷了人工智能的起起落落,但也感受到了整個領域的巨大發展。那個時候只有專家在討論AI,現在變成家喻戶曉,大家都能去評論的話題,最典型的就是AlphaGo。我們也已經在使用很多人工智能技術的產品,這是一個質的飛躍。不好的地方是,感覺大家會有一些浮躁,我們的研究和技術開發還是應該更紮實一些。

  能堅持在研究路上的秘訣可能是保持年輕的心態吧,我感覺現在的心態跟20年前讀博士的時候沒有什麼不同。做研究很痛苦,也很快樂。要去做出一個比已有的方法更好的方法很不容易,研究過程中的挫折和沮喪也挺多的。但當你把一個確實work的東西做出來的時候,你確實會有很大的成就感。可以比喻成長跑,跑的過程當中會覺得自己很累,但是當你到達了終點,會享受到完成一件事情的快樂,大概就是這種感覺吧。

  Q:所以你算是見證了人工智能在中國的發展,你看好它的發展趨勢嗎?人工智能的未來到底是什麼樣的?

  A:是的,2002年復旦大學組織過一個機器學習研討會MLA,當時只有不到30人參會,但現在已經是近千人的規模了。不到20年的時間,人工智能在中國已經有了突飛猛進的發展,這是讓人意想不到的。

  中國市場大、人才多、從業者努力,這是別的國家沒有的優勢。但是也要注意到,我們在創新方面的能力離美國還有一定距離,這可能需要幾代人的努力。目前最基本最核心的概念和方法大多還是在美國開發出來的,我們的快速發展更多還是體現在產品落地上。我相信我們速度很快,但還是需要不斷努力,不斷提高自己的創新能力,真正的創新還是需要挺長時間的。

  我們可以把人工智能理解為人類很好的工具,不要把它特別的誇大,至少未來很長一段時間內是這樣,就像你的秘書或者助手。

  關於機器學習未來

  Q:你最近的一篇論文重點講了腦科學,有一個觀點是說機器學習很重要的內容就是對人腦的研究,所以腦科學給人工智能帶了來什麼?

  A:科學發展到今天,我們對外部宇宙有了不少了解,但是對我們自己內部的“宇宙”——人腦,我們瞭解得還遠遠不夠,這是當今最大的一個未知領域。腦科學就是研究這個問題的科學領域。從計算機器的角度看,人腦是一個非常了不起的計算機,它的能耗還不到30瓦,就能做那麼多複雜的計算。

  人工智能希望開發智能性的工具,離不開對人腦信息處理機制的瞭解。腦科學的發展,對人工智能是有啟發和指導作用的,特別是自然語言處理這一塊。人工智能有三大應用領域——聲圖文,也就是語音、圖像、文字,語言是最難的了。前兩者是感知能力,而語言是認知能力。此外,看或聽一個東西的時候,只是大腦的局部在工作,但使用語言的時候,是整個大腦在工作,所以說非常複雜。如果我們希望計算機能夠像人一樣去操作語言使用語言,那就需要對人的語言處理機制有進一步的瞭解,關注腦科學的研究成果,多去進行跨學科的研究。

  Q:機器學習如何跟深度學習結合?

  A:《統計學習方法》的第一版中,介紹了很多算法,都是非常基礎與經典的機器學習方法,但是在深度學習時代,我們更多的是根據經驗、實驗和「啟發式」方法理解模型,這些經典算法被大家關注得比較少,反觀常見的深度學習方法與技巧,卻不一定有傳統方法那樣的理論。

  其實傳統機器學習與深度學習在技術上是一脈相承的,中間並不可以割裂。在我面試員工的時候,也會發現這樣的問題,大家對深度學習瞭解得很多,但對傳統機器學習瞭解得非常少。這種現象並不好,例如我們在 TensorFlow 上實現某個模型,然後就直接跑實驗,這樣對很多基本概念瞭解得都不夠。理想情況下,我們應該更全面地理解機器學習的概念與理論,再做深度學習實踐,也就是說對傳統機器學習的理解有助於更好地掌握深度學習技術。

  此外,儘管深度學習在眾多任務上都有極好的效果,但也不能說傳統機器學習就沒什麼用了。例如在小數據集或簡單問題上,SVM 或 GBDT 這些方法在實踐中用得還是挺多的。

  Q:有人說機器學習無疑是最有希望實現突破的方向之一,你怎麼看待這個判斷?對機器學習的未來有什麼期待?

  A:機器學習是人工智能的核心領域,幾乎所有的人工智能技術其實都是機器學習技術,無疑機器學習技術的發展決定了人工智能的未來。希望機器學習能有更多的突破,促進整個領域的發展。我認為,長期來看,機器學習與推理和知識的結合,類腦學習或類腦計算是這個領域的未來發展大方向。

  Q:近年各種自然語言對話系統如雨後春筍般地湧現,所以計算機多大程度上可以自如地和人進行對話?自然語言對話的挑戰在什麼地方?未來可能會有哪些突破?

  A:從功能的角度,計算機也有可能能夠像人一樣,自如地進行自然語言對話,但是現在這個命題無法證真或證偽。原因是尚不清楚人腦的語言理解機制,用計算機完整模擬人的語言理解仍然非常困難。但在特定領域,特定場景下,和人一樣進行自然語言對話的計算機的實現,我們已經看到。問題是如何進行擴展,能夠以更低的開發成本覆蓋更多的領域和場景。

  語言理解的核心是向內部表徵的映射。多義性和多樣性是計算機進行語言理解最大的挑戰。要完成具體的任務,體現計算機的智能性,定義和使用內部表徵看來是不可或缺的。基於分析的方法本質上是重要的,甚至是在聊天機器人的場景。基於檢索方法更適合於單輪問答的場景。基於生成的方法只能用於特定的場景。多輪對話要體現完成任務的整個邏輯,有限狀態機表示。開放式的對話意味著動態地改變任務,所以在現在的技術條件下,是非常困難的;在特定領域任務明確的條件下的對話,現實可行。

  近年,深度學習和強化學習的使用,使得對話有了長足的進步。主要體現在表徵學習、端到端學習上。事實上需要符號表徵和神經表徵,深度學習和符號處理的結合,這應該是未來發展的重要方向。

  Q:最後分享一部你最喜歡的科幻電影吧?

  A:我看的電影不多,印象深刻的AI相關的是斯皮爾伯格導演的《AI》,讓人去思考機器與人的智能的本質區別。


分享到:


相關文章: