我們對英特爾和 Arm 的印象,分別是 PC 與服務器市場,及移動應用領域的霸主,雖然這些廠商過去都曾嘗試跨入對手的領域,但都不算太成功,
傳統上,英特爾是 PC 與服務器方案大廠,但這次卻沒有太著墨於這兩塊主力產品,反而是沒有公開展示的量子計算與雲端 AI 方案佈局有著較為精彩演出。而 Arm 則是偏離過去的主旋律,其在 Computex 前就已經發布新款架構,但這些架構不是針對過去所獨霸的移動領域,而是瞄準了 PC 計算及 IoT 終端 AI 架構等應用,不僅威脅目前市場上的 X86 架構與獨立 AI 芯片方案供應者,Arm 副總裁 Nandan Nayampally 也不諱言未來包含英特爾或 NVIDIA 都將成為其挑戰的目標。
兩大芯片架構公司不走過去的尋常路,不介意踩到過去傳統觀念中難以被撼動的固有領域,甚至也勇於挑戰全新的市場技術,其實也是因為兩家芯片架構公司在面臨應用發展瓶頸的情況之下所不得不為的策略。
面臨發展瓶頸的應對之策
圖|PC 市場的不斷衰退逼迫英特爾不得不另尋出路
英特爾在傳統 PC 市場中已經陷於發展泥沼之中相當久的時間,由於 PC 市場出貨規模逐年衰退,光是要維持業績不退就已經煞費苦心,而且還要花費巨資維持工藝技術與新架構的持續開發,若不增加新應用來擴充收入基礎,那往後可能連工藝的維持費用都將難以為繼,而過去其在移動終端的努力失敗對英特爾亦造成相當大的打擊,因此這次的佈局可說是英特爾的背水一戰,有不得不成功的壓力。
圖|中國智能手機出貨在 2017 年反轉向下,是對 Arm 的一聲警鐘
至於 Arm,在移動智能終端市場雖佔有極大的比重,但移動終端其實也面臨與 PC 市場類似的情況,那就是出貨已經由成長逐漸邁入穩定,甚至在中國市場先一步進入微幅衰退的格局,而其在被軟銀收購後喊到震天價響的 IoT 佈局,也在近年的 AI 應用熱潮中被搶了鋒頭,大家不關心 IoT 市場會怎麼長,或是最後會長到多大,反而介意有沒有辦法把網絡或者是 AI 功能引入這些領域。
也因此,英特爾與 Arm 近來的產品與技術佈局乍看之下是不務正業,但實際上卻是為了求生存的必要經營方向。
英特爾帶來平淡的 PC 產品線更新,背後卻藏了精彩的 AI 與“常溫量子佈局”
英特爾雖在今年的 Computex 發表了年度產品更新,但基本上就是慣例性的擠個牙膏,主打的 Whiskey Lake 和 Amber Lake 沒有太多吸引人的特性,純粹是為了補上低能耗的產品空缺,而其 28 核高效能平臺圖|Arm 的三大 AI 方案,補足了過去幾年的空白單純就是從服務器平臺下放,而且在發表次日就被 AMD 的 32 核方案奪走了風采。
圖|英特爾從服務器下放的 28 核產品將走向消費端,但面臨來自 AMD 的 32 核方案的挑戰
也因為英特爾在 PC 產業能使出來的招式所剩不多,近來在行銷策略面就轉向未來應用為主,包含了 AI 與 5G 方案的建構。
英特爾過去幾年其實在 AI 方面做了很多的努力,包括收購了 Movidus 以及 Nervana,前者重點在於終端與邊緣計算的 AI 方案生態的建立,後者則是希望能夠結合創造足夠強大的雲端計算生態。
圖|英特爾的 AI 也是從雲到端的完整方案,與 Arm 的平臺規劃類似
目前,在 AI 雲計算領域,英特爾已經被 NVIDIA 狠狠甩了好幾條街,而業界轉向以 GPU 為核心的計算方式,也讓英特爾憂心未來 CPU 被取代的問題。雖然 CPU 在服務器中還是有不少 GPU 取代不了的應用,但如果業界推動以較其他架構核心來取代英特爾的 X86,就如美國最新推出的超算架構 Summit 中採用了來自 IBM 的 Power 9 處理芯片,併成為業界的共識,那麼對英特爾而言將是致命的一擊。
為了避免最壞的情況發生,英特爾也在推動其自有的 AI 加速方案,由於英特爾沒有 GPU,因此選擇了當初收購 Altera 而來的 FPGA 架構,並結合英特爾自家的 X86 技術,推出異質計算架構 Lake Crest。
圖|CPU 與 FPGA 結合的異構計算方式是未來英特爾針對 AI 計算所提出的答案,要以之對抗 NVIDIA 的 GPU 霸權
Lake Crest 採用的 FPGA 架構在 AI 計算中,不論是訓練或是推理,都展現出相當出色的效能與彈性,甚至不下於 GPU 架構,也因此,Lake Crest 肩負了英特爾對抗 NVIDIA 的 GPU 霸業、並同時阻止其他包含 Arm、IBM、AMD 等對服務器 CPU 市場虎視眈眈的對手進犯的重責大任。
不過 Lake Crest 只是英特爾龐大計算佈局中的一小部分,另一個重點發展項目,就是基於半導體工藝技術的量子計算芯片。
目前主流的量子計算架構幾乎都是基於超低溫冷卻的超導方式,藉以維持穩定的量子態,過去 D-wave System 公司的 CEO 在接受 DT 君的專訪時,就曾表示常溫量子技術在相當長的一段時間內都還很難現身,但英特爾卻突破了業界的認知,成功推出常溫下的半導體量子計算芯片。
圖|英特爾在超導量子計算方面進展相當快速
自去年宣佈推出 17 個量子位的超導體量子芯片後,英特爾再接再厲於今年 CES 2018 展示了 49 個量子位的測試芯片,而在 Computex 2018 前夕,英特爾又宣佈推出採取微縮體積設計的自旋量子位芯片,成為目前業界少數成功試產的半導體常溫量子芯片之一。
圖|英特爾成功試產基於半導體工藝的量子芯片,具備 26 個量子位,甚至比指甲還小很多
英特爾目前試產的半導體常溫量子芯片擁有 26 個量子位,而根據英特爾量子硬件總監 Jim Clarke 的說法,該芯片最終目標將拓展為超過 1000 個量子位,目前還在想辦法突破因為溫度波動造成的熱漲冷縮,導致量子位難以增加的技術難題。
目前該芯片在英特爾於俄勒岡州的 D1D Fab 廠生產,採用的半導體制造工藝為 50nm,預期未來在整體產能方面將遠大於現有的主流超導量子位,不僅推動英特爾在量子芯片的技術佈局,並可望藉此提高未來對自有晶圓廠的產能利用率。
採用半導體量子架構還有另外一個好處,那就是可以通過多芯片並聯,最終達到極高規模的量子位計算架構,而其目標可以瞄準 100 萬量子位的超高規模,並希望在 10 年內達成。
圖|英特爾另一個不務正業是宣佈正式進軍獨立 GPU 市場,為此還挖走了 AMD 的幾員大將
英特爾其實還有另一個不務正業之舉,那就是 GPU 事業的發展。英特爾計劃在 2020 年推出自有的獨立 GPU 芯片,挑戰包含 NVIDIA、AMD 在內的市場領導者,而該獨立 GPU 除針對專業與消費繪圖市場,也有可能瞄準諸如 AI 的計算領域。為此英特爾從 AMD 挖了首席架構師 Raja Koduri 及前營銷主管 Chris Hook,併成立 GPU 部門,而根據內部消息,其試作 GPU 架構已經大致確定,並開始進行測試。
多樣化的芯片與應用佈局一方面是為了確保英特爾在各計算領域仍能佔有一席之地,而另一個重要的目的,就是要消耗未來晶圓廠工藝發展後所增加的產能。芯片的生產要有足夠的規模才能有效分攤成本,且才有餘力推動未來更進一步的芯片製造技術革新,畢竟臺積電已經進入 7nm 的量產,而英特爾主力工藝卻還停留在 14nm,其 10nm 雖在技術特性上可和臺積電的 7nm 相提並論,但實際大量生產仍須一點時間,但也因為這點時間差,讓英特爾從半導體制造的領導者成為跟隨者,若無法急起直追,恐怕會連帶影響未來所有計算產品的競爭力。
Arm 再次嘗試打入 PC 領域,並在 AI 應用急起直追
Arm 對 PC 市場其實早就垂涎已久,2012 年就曾與微軟合作推出基於 Windows RT 系統的平板電腦,當初採用的方案是來自 NVIDIA 的 Tegra 3 芯片,基於 Cortex A9 多核架構,在當初可說是 Arm 架構中性能數一數二的產品。
圖|當初 Windows RT 喊的震天價響,但實際成績極為慘淡,迫使微軟重新思考 Windows on Arm 的定位
不過這款產品卻面臨了徹底的失敗。原因主要有幾個。首先,微軟 Windows RT 不支持傳統的 Windows 桌面程序,微軟特地為其創造了理論上更適合觸控操作的 Metro 桌面,然而 Metro 桌面的操作邏輯非常差勁,讓使用慣 iOS 與 Android 系統的使用者無法接受,最終導致應用開發者拒絕了 Metro 桌面,Windows RT 也因為缺乏第三方應用,對消費者難以產生吸引力。
其次,當初 Tegra 3 方案的確是最強大的 Arm 架構,但實際性能仍遠低於英特爾最低端的移動處理器,導致 Windows RT 在系統與應用的執行流暢度方面的體驗極差。
有了前車之鑑,Arm 這次為了推動新款的 Windows on Arm 平臺,在方案性能方面自然是做了充分的準備,當然,作為早期開發的 Windows on Arm 是基於高通的修改版 Arm 架構 Snapdragon 835/845/850,性能稍弱,但功耗表現與 GPU 性能要比標準 Arm 架構優秀,而為了滿足未來 Windows on Arm 的進一步發展,Arm 推出新款 Cortex A-76 架構,號稱擁有標準筆記本電腦等級的性能,且功耗表現遠遠優於英特爾的架構。
雖然 Cortex-A76 才剛推出,但是高通已經宣佈要在下一代 Windwos on Arm 處理芯片 Snapdragon 1000 中採用該架構,預計可帶來極為明顯的效能成長,有機會與英特爾的主流 CPU 方案平起平坐。
至於在另一個重頭戲,也就是 AI 領域方面,繼今年初 Arm 發表 Project Trillium 之後,Arm 也終於在 Computex 2018 發表了更多關於 AI 方案的細節,除了之前提過的 CPU 與 GPU 協同計算的機器學習能力,這次也推出獨立的 AI 芯片 IP。
圖|Arm 的三大 AI 方案,補足了過去幾年的空白
這些 IP 包含了三大類,分別是機器學習處理器、視覺識別處理器,以及神經網絡SDK。
圖|機器學習處理器可擴增到 16 個單元的核心,理論上可達到主流人工智能服務器計算平臺的效能水準
其中 ML 處理器可在 7nm 工藝下以標準規模設定達到 4.6TOPs 的操作性能表現,每 W 可達 3TOPs 的能效,具備相當的競爭力。而 Arm 也強調他們的架構都是可規模化的,換言之,理論上客戶需要什麼等級的性能表現,就可以把規模擴充到所需要的程度,當然,規模的增加也代表功耗和成本的同步增長。Arm 雖強調其可擴充能力,但談到可否將規模加大到與主流用於雲端 AI 計算的 GPU 架構相提並論,仍語帶保留。
圖|視覺識別處理器則是能夠實時應對各種物體識別場景,並可和其他計算架構合作在本地端處理相關計算
視覺識別處理器則是在之前 Project Trillium 中有提到過,採用優化的算法與電路設計,讓芯片的面積效能比達到一流水準,同時又能肩負主流視覺識別計算需求的能力。目前該芯片可以做到 1080P 每秒 60 張畫面的實時物體偵測,且物體的大小可以從 50*60 像素延伸到全畫面,另外,同一畫面中的物體數量沒有限制。
而該視覺識別處理器還能與 CPU、GPU 或 Arm 的機器學習處理器合併使用,增加在邊緣的計算能力,減輕服務器端的工作計算負擔。
圖|神經網絡 SDK 鋪平了個別神經網絡框架在 Arm 架構核心上執行的道路,讓開發者可以無障礙在 Arm 平臺上執行主流 AI 應用。
而最後的神經網絡 SDK,則是號稱可以支持目前主流的神經網絡框架,並實行高效能的轉換,使其能夠在 Arm 架構的 CPU 與 GPU 上無接縫執行,完全不需要修改程序,當然,這個是通過 Arm 所開發的神經網絡執行層來進行轉換,客戶不需要自己重新開發轉換的工具。
通過這幾個架構,Arm 終於補上了這幾年在 AI 市場的空白,而其提出的架構也足夠應對幾乎所有應用場景的需求,甚至包含了服務器等高端計算平臺。Arm 方面對此也自信的表示,生態是所有計算平臺最重要的一環,即便個別單一方案性能再強大,如果缺少了生態的共同經營能力,開發者還需要重頭髮明輪子,那這樣就無法滿足客戶需求,時間一久,必定會被具備完整生態的方案所取代。