03.02 論英特爾Nervana的倒掉

論英特爾Nervana的倒掉

果不其然,Nervana終於被Intel徹底關掉了[1],雖早已在預料之中,但也不勝唏噓。我見過Nervana未曾發佈的產品,在當年諸多AI芯片逐鹿之初也算是一條好漢。然而,Nervana的倒掉,除了技術原因之外,團隊的組成和Intel組織架構也是重要的內在因素。“起個大早,趕個晚集”,算是對Intel之前4年AI芯片戰略的一個總結,我以為。

我不看好Nervana很多人都知道,也在2019年中預言了Intel收購Habana的大致劇本,在此分享一下對這個未來或許會成為AI芯片歷史上重要事件的思考,作為case study供大家參考。以下僅為作者個人觀點,不代表就職公司。

徐凌傑

團隊組成

回撥到2016年中,當年北美最有名的AI“芯片”初創公司就數Nervana了。我們不妨來看一下Nervana被Intel收購之前的重要時間線:

  • 2014年初成立,三個創始人,CEO Naveen Rao、CTO Amir Khosrowshahi(姓氏是否很熟悉?沒錯,他和Uber現任CEO是堂兄弟,均來自伊朗的望族)和算法負責人Arjun Bansal

  • 2016年2月,發佈基於Neon框架,宣稱在GPU上可以達到10倍以上的深度學習訓練速度

  • 2016年6月,宣佈開發名為Nervana Engine的AI芯片

  • 2016年8月,被Intel已4.08億美元收購,被收購時員工48人

论英特尔Nervana的倒掉

非常巧的是,當時的48名員工有3個是我之前的同事或同學(其中包括第48名員工,入職即被收購的那位),我當時就饒有興趣地在他們網站上把所有人的背景都過了一遍,看完之後驚奇地發現這不是一家傳統意義上的芯片公司

  • 首先是創始團隊,三個人均是2010前後畢業的神經科學博士,沒有任何硬件背景;48人中還有不少來自神經生物學界的

  • 負責硬件的Carey Kloss是DV(芯片驗證)出身,主架構師Andrew Yang(不是那個每人發1000刀helicopter money的總統候選人)背景是網絡通信芯片的ASIC design

  • 而其他絕大部分人,包括我認識的3個,都是軟件工程師背景

皮衣教主一直強調NVIDIA是一家軟件公司,這一點都沒錯,芯片產品最終拼的是軟硬件聯調的服務能力。但在芯片公司草創之初,沒有有經驗的、來自計算芯片背景的主架構師,沒有成型的硬件團隊,也是絕對不可接受的

。這也為Nervana第一代Lake Crest芯片的失敗埋下了伏筆。按照正常的邏輯就是,Nervana原本的主營業務是神經網絡算法和框架,而芯片硬件項目只是一個pet project,乘著2016年5月Google公開發布TPU一代的東風,立馬趕鴨子上架,而Intel正好缺乏合適的AI芯片產品和GPU叫板,一拍即合,賣了個不錯的價格。

可惜,當年nervanasys.com的網站已經沒有辦法考古,這幾天點擊打開之後映入眼簾的是巨大的Intel+Habana的logo。

论英特尔Nervana的倒掉

相比之下,在初創團隊組成上,不得不說,Habana是非常值得稱道的:

  • CEO David Dahan是DSP設計背景,在CEVA幹過好多年,之前聯合創立了Prime Sense成功賣給了Apple

  • VP R&D Ran Halutz,是Dahan在Prime Sense和CEVA並肩作戰多年的隊友,負責芯片硬件設計

  • CTO Shlomo Raikin,原Mellanox的首席架構師,之前在Intel做過10年的CPU架構設計

  • Chief Business Officer,Eitan Medina,通信/芯片行業的老兵,Galileo/Marvell/Cavium的CTO和VP

以上都是在Habana網頁和LinkedIn上公開的信息。然而,鮮為人知的是Habana幕後的大boss,Avigdor Willenz,以色列芯片界教父般的傳奇人物,90年代中期就創立了Galileo,如今在AWS撐起半邊天的Annapurna Labs也同樣出自他的手筆。是他,看到了AI芯片市場的巨大潛力,通過強大的資源整合能力,把以上的牛人們聚在了一起,並有策略有步驟地逐步推行產品計劃

精心撰寫的劇本和“腳踩西瓜皮,滑到哪裡算哪裡”的創業,在人員佈局上就可見一斑。

技術路線

芯片產品,最終是要回歸到技術的。Nervana被Intel收購之後,馬上根據Intel的習慣把產品線重命名成Crest,而第一代芯片Lake Crest因為之前的匆忙已經是箭在弦上不得不發了。根據wikichip [2]和其他公開信息,我們來看一下它的芯片設計。

论英特尔Nervana的倒掉

Lake Crest架構圖

平心而論,Lake Crest的架構還是非常工整的,有著當時業界領先的HBM2配置和帶寬,芯片間12個ICL互連也是比較超前的意識。55T 16bit FLOPS的算力如果能在2017年初正常發佈也是非常有競爭力的產品,但是,因為前面在團隊部分描述的原因,Lake Crest成為了一個徹頭徹尾失敗的產品:

  • 首先,因為項目啟動是在被收購之前,受於資金限制,Nervana只能找eSilicon合作,而且只能做28nm的產品(NVIDIA 2016年初發布的P100已經是16nm了)。即使被收購之後,Intel在這代產品上也幫不上太多忙。而最終的結果是,由於芯片執行上的問題,導致最後功耗巨大,400W的產品無法在已經被NVIDIA很好定義的300W PCIE的主流機型上做適配。

  • 其次,其實也是架構裡面最關鍵的,也是Nervana當時最引以為豪的發明,Flexpoint最終被證明是個大坑。這點我在去年AI Hardware Summit的Keynote上提過,想要了解技術細節的可以看Nervana團隊在2017年NIPS大會的paper[3]。Flexpoint在技術上是個看似聰明的拍腦瓜的方案,撇開模型在其之上很難收斂的事實,光是其tensor之間共享 exponent需要反覆來回和host通信同步就是一個很大的overhead,而團隊欠缺計算芯片、特別是通用處理器的架構背景,軟件算法想當然,我認識是造成這個局面的很大原因之一。岔開一句,“軟件定義硬件“是個非常時髦的詞,而Groq 最近公開的144路VLIW的架構也足夠行家們貽笑大方了。


论英特尔Nervana的倒掉

Flexpoint示意圖

  • 有人可能要問,Nervana的neon框架後來哪去了?有人在Reddit[4]上的回覆非常到位,“Development speed is generally more critical than computational speed in research”,“I trust TensorFlow/Torch more than Neon, e4ven if Neon is faster”。沒有抓住訓練用戶的痛點是其一,退一步來說,芯片公司沒有長出基於芯片的核心能力,框架做得再好,也無法僅憑此就成為未來競爭的護城河。

其實Lake Crest的失敗還不是致命的,以Intel的資源和能力,在後一代Spring Crest儘快修正錯誤未為晚矣。然而,期望的改變並沒有發生:

  • Spring Crest依然沿用了錯誤的Flexpoint設計,直到內部仿真明確了實在不行之後,才決定全面轉向BF16(原話是,”Flexpoint16三個月converge不了一個網絡,而BF16一天就可以converge三個”)。這也為什麼在2018年中Intel的AI大會上 [5],宣佈了Spring Crest會有兩個迭代,第一個只做硬件適配仍然是Flexpoint,而第二個tape out會使用和Google TPU一樣的BF16。

  • 不過,非常遺憾的 是,Nervana團隊沒有抓住兩次tape out的機會,在中間再加強算力,B stepping 2019年底119T BF16的算力和NVIDIA 2017年中發佈的V100相比,毫無優勢可言,更何況市場都在等待2020年3月更強更新的GPU產品。刻舟求劍,用在這裡再恰當不過

錯誤的技術方案和產品路線,貽誤了Nervana和Intel戰機。而反觀Habana,戰術和打法就清晰很多了:

  • 首先是埋頭苦幹,2016年底成立後一直保持stealth mode,直到2018年9月AI Hardware Summit發佈第一代inference芯片Goya(芯片實體,而非紙面發佈),以單卡15000 images/s的ResNet50性能一鳴驚人

  • 同時宣佈training芯片Gaudi將於半年之後面世,100個人不到的小團隊的戰鬥力吸引了全世界的目光,Intel Capital迅速投資

  • 2019年3月份,Facebook在OCP大會上發佈OAM模塊標準之後,快速反應、迅速跟進,業界首個支持OAM標準,並第一時間在2019年8月在Hotchips大會現場演示

再來看Habana的架構,無論是Goya還是Gaudi,其實都沒有任何fancy之處,兩顆芯片遵循了架構最大程度複用的原則,把一些普通的元素執行到了接近極致

  • 版圖上所謂的TPC,其實就是DSP,這是Habana團隊的強項

  • 畫得很小的GEMM矩陣加速但也其實是面積的主體,各家AI 芯片公司都有

  • Local和Shared memory代表了大量的片上SRAM,其他AI芯片公司也都有

  • Gaudi芯片集成NIC,概念上屬於Habana首創(NVIDIA後來也收購了Mellanox),但技術上並無特殊之處,片間互連帶寬遠低於NVIDIA的NVSwitch方案,但用比較低的成本實現all to all的connection也是充分發揮了其CTO來自於Mellanox的天然優勢

Habana的芯片架構雖然簡單,但勝在執行,把團隊每個人的優勢充分發揮,快速迭代,和Nervana相比絕對是技術和產品上的一股清流。

论英特尔Nervana的倒掉

Habana Goya示意圖

论英特尔Nervana的倒掉

Habana Gaudi示意圖

組織能力

有人說,Intel是把一手“好牌”打爛了,但我認為不然,Nervana從來就不是一手好牌,但Intel在組織架構上沒有很好地進行保障也導致了後來失敗的局面。

Intel內部團隊非常多也非常複雜,其中最大最重要的部門即為DCG (Data Center Group),而Nervana被收購之後即作為單獨的AIPG部門一度直接彙報給CEO,然後馬上又被掛在了DCG下面。然而,自2017年以來Intel內部的調整也一直沒有消停過:

  • 2017年5月,主持收購Nervana的DCG部門負責人Diane Bryant離職,後加入Google負責谷歌雲

  • 2017年11月,Raja Koduri從AMD加盟Intel,主持GPU部門,並在2018年宣佈會進軍discrete GPU市場和NVIDIA/AMD正面競爭

  • 2018年1月,Intel CEO Brian Krzanich因為私生活問題辭職

  • 2018年6月,CFO Bob Swan出任臨時CEO,2019年1月轉正

從上述的時間線可以看到,Nervana自從被收購之後,除了在PR品牌上被Intel大肆宣傳之外,在內部並沒有被完全接受,AIPG的位置也一直在DCG內部飄忽不定,同時還面對Intel的GPU部門在產品定位上的全面競爭。

其實,從2018年以來,換掉Naveen Rao的聲音在Intel內外已經有不少了,但Intel遲遲沒有調整到位,也顯示了其作為大廠在組織架構上“擠牙膏”的慢節奏作風

  • 2017年中,Intel以色列團隊的負責人Gadi Singer調入AIPG,但只是讓他負責inference產品Hill (打Nervana的商標,但全是Intel原生技術),直到這周Naveen Rao離職才被扶正

  • 2018年中,Movidius(2016年被Intel收購)的前CEO Remi El-Ouazzane調入AIPG,但是隻是讓他負責operation,沒有實際的架構和產品路線的管理權

  • 也就是說,從Crest產品線頹勢盡顯開始,Naveen Rao居然在AIPG的一號位上坐了兩年多,看起來不可思議,但其實也是公司內部不斷互相尋找平衡的大公司病的典型特徵

最後來講一下我是如何大膽判斷Intel會棄子Nervana,收購Habana和其中timing的:

  • 從財報來看,新任CEO上任之初通常會用big bath的手法把壞消息出盡,而通常CFO出身的CEO對砍人絕對不會手軟,只是時間問題。Bob Swan 2019年1月正式接任CEO,當月的財報抖了很多包袱,盤後跌了7% [6];同年4月的財報[7],他又表態“taking a more cautious view of the year”,然後盤後又跌了6%;而再過了幾個月,通過諸如把基帶生意關掉等一系列手段,把股價搞上去了,那就是時候來梳理最大的DCG部門了。

论英特尔Nervana的倒掉

Intel一年股價走勢圖

  • 作為Intel最賺錢的DCG部門,AI相關的營收一直是掌門人Navin Shenoy的痛,算上CPU,AI based的芯片營收才勉強超過NVIDIA,而AI硬件產業在未來幾年是幾百億美元的大市場,大有可為卻沒有很好的抓手:之前過於擔心對核心CPU市場的cannibalization沒有大力發展inference專用芯片,而Nervana又無法扛起訓練的大旗,確實頭痛。北美big4,AWS只用最成熟的產品(訓練用GPU,推理開始推自研的inferentia),Google自然有了TPU,微軟鍾情於FPGA,而Facebook是唯一的空白。Facebook作為非雲廠商的hyperscaler,有一個特點就是喜歡逗人玩,沒事通過OCP發佈行業標準來讓標準模塊商品化達到降低成本的目的。剛才提到的OAM就是訓練加速卡的專用模塊,2019年只有Intel的Nervana Spring Crest和Habana的Gaudi具備了OAM的產品化能力,看看自己口袋裡的Nervana不一定爭氣,為了鎖定Big4中的最後一家,20億美金收購Habana我認為還是值得的。所以如果下週OCP大會,Intel和Facebook聯合發佈產品,用足這20億的廣告費,是一點都不奇怪的。

论英特尔Nervana的倒掉

2019年9月 OCP阿姆斯特丹大會

  • 2019年6月,Intel的GPU團隊發佈One API編程模型,其重點自然在One上面,號稱全Intel通用,而其對外的市場宣傳也把AI訓練作為其Ponte Vecchio芯片的主打,大有捨我其誰之勢。外部沒了市場還好,內部沒了面子怎麼行,DCG肯定坐不住。

綜上,砍掉Nervana,收購Habana,勢在必行。而Nervana團隊內部看得清形勢的人,在2019下半年也陸續出走了。

當Habana在2019年Hotchips現場demo樣機的時候,NVIDIA的Tesla線產品經理問我最看好哪家AI芯片公司,我答“Habana”;又問我如何解,我再答“被Intel收購“;我倆相視一笑。當然,這是玩笑,我還是真心希望能看到市場上出現能和NVIDIA正面PK的產品,希望Habana不要重蹈之前那些被Intel收購公司的覆轍。

Nervana帶來的啟示

Habana不是一個完美的例子,以色列團隊傳統也是硬件強,軟件偏弱,但人家畢竟在沒有把產品賣出去的情況下先把自己賣了,從思路到執行力還是值得好好研究的。

Nervana的倒掉,在我看來,標誌著AI芯片的競爭即將從從春秋進入戰國階段。雖然皮衣教主還有著絕對的統治力,但無可否認越來越多資金雄厚的玩家會更加重視這個市場,面對幾百億美元的大市場,資金、技術、產品能力還有眼光缺一不可。根據上述Habana和Nervana的對比,一個成功的AI芯片需要做到的點:

  • 完整的團隊:功力深厚的(軟硬件)架構師、經驗豐富的執行團隊、能精準把握市場趨勢的產品團隊

  • 前瞻的眼光:產品定義要有足夠的高度和包容度,保持對技術趨勢的敏銳度,Habana的一鳴驚人和第一時間擁抱OAM就是最好的例證

  • 完美的執行:速度和迭代能力也將會是核心競爭力,特別是AI算法日新月異的今天,軟件和硬件週期不匹配日益突出,我認為這將是中國公司短期內競爭力所在

  • 現實的兼容:與現有產品實現平滑過渡(無論是軟件還是數據中心基礎設施),作為硬件廠商不要幻想一朝一夕就能改變頂層用戶習慣(Flexpoint的反例),同時保留通用性適應未來的發展和建立自己的生態

  • 貼身的服務:軟件能力(其實是軟硬件聯調能力)決定芯片的成敗已經成為一個共識,而能夠本地化服務於客戶,提供優秀解決方案的服務能力也會是芯片技術之外的分水嶺

  • 充裕的資金:我在AI Hardware Summit上曾把AI芯片的競爭比喻成長征,芯片的長週期和快速迭代之間的矛盾就決定了需要更大資金的投入,這也是未來競爭力的關鍵所在

與各位共勉!

AI芯片當前的落地主要方向還是數據中心,而Google又是這個領域的技術先驅。前幾個月花了點時間把Google經典的《The Datatcenter as a Computer》第三版翻譯成了中文,做一下知識的搬運工,希望對各位有幫助!

论英特尔Nervana的倒掉

參考

[1] https://www.bizjournals.com/sanjose/news/2020/02/26/intel-ai-head-steps-down-weeks-after-chipmakers.html

[2] https://en.wikichip.org/wiki/nervana/microarchitectures/lake_crest

[3] https://papers.nips.cc/paper/6771-flexpoint-an-adaptive-numerical-format-for-efficient-training-of-deep-neural-networks.pdf

[4] https://www.reddit.com/r/MachineLearning/comments/4h5u0h/why_dont_many_people_use_nervana_neon/

[5] https://www.hpcwire.com/2018/05/24/intel-pledges-first-commercial-nervana-product-spring-crest-in-2019/

[6] https://news.alphastreet.com/intel-corp-intc-q4-2018-earnings-report/

[7] https://www.businessinsider.com/intel-earnings-q1-revenue-profit-2019

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2236期內容,歡迎關注。

★汽車廠商的芯片佈局

★氮化鎵代工將成為新賽場

★CIS封測業爆發,誰將成為最大受益者?

“芯”系疫情|ISSCC 2020|日韓芯片|華為|存儲|氮化鎵|高通|康佳


分享到:


相關文章: