寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

11月14日,在正在進行的深圳高交會上,國內AI芯片巨頭寒武紀發佈了邊緣端AI芯片“思元220”和思元220-M.2邊緣加速卡。據瞭解,思元220是一款專門用於深度學習的SoC邊緣加速芯片,採用臺積電16nm工藝,基於寒武紀全新的MLUv02架構,峰值算力達到32TOPS(INT4),在算力方面甚至超越了英偉達上週發佈的系統級模塊Jetson Xavier,且功耗僅為10W。這也讓人不禁感嘆,中國AI芯片正在從追趕實現超越。

寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

據不完全統計,截止目前,國內已有超過 20 家企業投入到 AI 芯片的研發中來,當然也有更多新興創業公司也都想蹭一蹭AI芯片的熱度。但在競爭日趨激烈的AI芯片市場,只有不斷的刷新自己的產品線,打造更強力的芯片才有機會贏得市場。

寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

而寒武紀此次推出的思元220,顯然是再次填補了自家產品鏈上的缺口。至此,寒武紀已經完成了覆蓋雲端(思元100、思元270)、邊緣端(思元220)、終端(1A、1H、1M處理器IP),即雲邊終的使命。不過,本土AI芯片市場並不乏有實力的玩家。寒武紀思元220之後,國內還有哪些更值得關注的AI芯片呢?

1.地平線:旭日二代

與寒武紀同為AI獨角獸企業的地平線,在上月剛剛發佈了同樣用於邊緣計算的AI芯片旭日二代。旭日二代集成了地平線第二代BPU架構(伯努利架構),典型算法模型的算力利用率大於90%,加上地平線自家的高效算法,每TOPS算力可以處理的圖像幀數高於同樣標稱4T算力的AI芯片,並且是同等算力GPU的10倍。

規格方面,旭日二代採用28nm工藝,因為面向AIoT應用,其設計功耗僅為2W。當然算力從紙面數據上看4TOPS並不算太高,但考慮到其低功耗和28nm製程帶來的成本優勢,旭日二代在AIoT領域有很大機會去開闢出屬於自己的市場空間。

2.華為:昇騰(Ascend)310

寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

去年10月份發佈的昇騰310採用了華為AI芯片中統一使用的達芬奇架構,而統一架構的優勢在於對開發者非常友好。據編者瞭解,在AI芯片中統一使用達芬奇架構後,開發者在面對雲端、邊緣端、側端等不同芯片的應用開發時只需要進行一次算子開發和調試,即可應用於不同平臺,大幅度降低了遷移成本。

從規格上看,昇騰310兼顧了AI算力提升與能效平衡,採用12nmFFC工藝,在最大功耗8W的條件下,可以達到16TOPS(INT8), 8TOPS(FP16)的性能。另一方面,華為在軟件層面上對開發者的支持可能是最大的優勢,除了上述提及的統一架構帶來的優勢外,華為還為其推出了高效靈活的自定義指令集,面向張量和向量計算進行設計,能夠充分發揮出3D Cube的性能優勢,提高各計算單元的利用率,並有效解決目前在AI應用中出現的能效比等普適性問題。而從產業的角度來看,開發成本的大幅降低可以有效推動AI應用的落地發展。

3.紫光展銳:虎賁T710

與前面的芯片都面向較為單一的使用場景不同,紫光展銳今年8月推出的高性能AI邊緣計算平臺虎賁T710一開始就面向日漸複雜的應用場景,以及應對不斷增長的算力需求。

據瞭解,虎賁710採用了異構雙核架構NPU 和8核CPU架構,搭載了4顆2.0GHz的Arm Cortex-A75和4顆1.8GHz的Arm Cortex-A55,以及800MHz的IMG PowerVR GM 9446圖形處理器。同時,為了應對各種不同AI應用的需求,虎賁T710還包含了 CPU、GPU、NPU、ISP、VDSP等處理單元。除了支持多種AI訓練框架外,還支持多種AI模型量化方式和Android NN,擁有紫光展銳自研SDK,便於第三方應用程序能更高效地部署AI功能。此外,虎賁T710還整合了多媒體和無線通信能力,例如4K@30fps編解碼、802.11AC、BT 5.0等功能。

4. 嘉楠科技:勘智K210

寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

低功率和高性能並存從來都是一個偽命題,兩者不得兼容。出於對低功率的要求,目前大多數AI芯片公司的解決辦法是通過疊加模塊來提升算力,例如在芯片中加入NPU來彌補AI算力的不足等。不過也有部分廠商另闢蹊徑,從指令集的角度入手提升芯片算力,嘉楠科技的勘智K210就是其中之一。

勘智K210中內置的FPU雙核64位處理器採用了精簡指令集RISC-V,使其自身功耗僅為0.3W,即使搭載攝像頭等外部設備,功耗仍能夠維持在1W左右。算力方面,在0.3W的條件下,勘智K210可提供1TOPS的算力,超過3TOPS/W的效率,能很好地適應各種超低功耗應用下的需求。

5.比特大陸:BM1880

與嘉楠科技相似,在當年比特幣挖礦熱時,依靠礦機研發崛起的比特大陸,也同樣走向了AI芯片之路。在去年10月,比特大陸推出的AI芯片BM1880,是比特大陸首款面向邊緣端計算的低功耗AI協處理器BM1880,採用28nm工藝,Arm A53雙核架構以及RISC-V指令集CPU,其典型功耗2W,int 8精度算力能夠達到1 TOPS,在Winograd卷積加速下,這一數值可以達到2 TOPS,支持CNN/RNN/DNN等。

6.平頭哥:含光800

阿里平頭哥在今年表現得相當活躍,7月份發佈了基於RISC-V的處理器IP核“玄鐵910”;8月,平頭哥又發佈SoC芯片設計平臺“無劍”,但還沒有一款芯片產品誕生。終於在9月,平頭哥發佈了自家首款AI芯片“含光800”。

據達摩院介紹,在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。在11月7日,阿里巴巴平頭哥的AI芯片含光800在MLPerf基準聯盟公佈的Resnet50基準測試結果中,擊敗了谷歌TPU v3、英偉達T4和英特爾CLX 9282等獲得單芯片性能第一。不過阿里並沒有將這款處理器投入到市場上,而是將其用於阿里生態中,在雲端與終端更好的結合,突出軟硬結合的優勢,並以無劍平臺為核心,為企業提供普惠算力。

7.雲天勵飛:DeepEye1000

寒武紀帶頭“引戰”!十大國產AI芯片同臺競技“硬剛”國際大廠

與寒武紀類似,雲天初芯也在今年的高交會期間,正式發佈了DeepEye1000芯片。DeepEye100專注邊緣和端側視覺應用,採用22nm工藝,基於多核異構並行計算架構設計,內置四核神經網絡處理器,可支持INT16 / INT12 / INT8混合精度量化數據,採用存算融合體系架構和可重構計算陣列,可以靈活、高效的執行各種深度學習算法模型的推理計算,峰值算力達2.0Tops。

其中,DeepEye1000神經網絡處理器由雲天勵飛自主研發,深度定製指令集,定製指令多達160條以上,支持主流神經網絡模型。神經網絡處理器採用可重構計算陣列,支持靈活可編程計算流,計算效率超過99%。另外,DeepEye1000還支持H.264和H.265解碼,可支持4K@30fps視頻、4路高清視頻並行的實時分析。

8.天數智芯:Iluvatar CoreX I

作為天數智芯的首款邊緣端AI推理芯片,Iluvatar CoreX I採用16nm製程工藝,基於32核並行數據流和圖計算的CNN優化架構,支持檢測、分類、識別等視覺智能算法,支持主流深度學習框架,能效比達到1 TFLOPS/W-0.2 TFLOPS/mm2,可支持實現超高能效比的邊緣計算加速。同時支持FP16精度,單芯片算力達4.8TFLOPS,物體檢測可達1000fps,支持TensorFlow框架原生兼容、客戶開發環境無痛遷移,提供高性價比的消費級方案和高穩定性的工業級方案,面向行業用戶提供端到端解決方案,面向開發用戶提供軟硬結合開發環境。

9.依圖科技:求索(QuestCore)芯片

依圖在今年5月份推出的“求索”是全球首款深度學習雲端定製 SoC 芯片,定位服務器芯片/雲端 AI 芯,可獨立使用,將與依圖的智能視覺分析軟件結合,作為軟硬件一體化的解決方案,適用於加速各類視覺推理任務,比如交通運輸、公共安全、智慧醫療和智慧零售等行業,尤其是對雲端智能視頻實時分析等應用具有強需求的企業環境。

在能效上,“求索”峰值性能達到 11.2T(深度學習推理運算),功耗 20W,攝像頭單路功耗僅為英偉達 GPU P4 的 30%,同等功耗下,深度學習推理運算性能是市面同類產品的 2~5 倍。這款產品也支持 TensorFlow、PyTorch 等各類深度學習框架,適用於加速各類視覺推理任務,最高 50 路 FHD 視頻流硬件解碼,另外還支持虛擬化、容器化,可將 AI 雲的彈性計算和調度提升一個量級。

百度的“崑崙”是中國第一款雲端全功能AI芯片,其中包含訓練芯片崑崙818-300,推理芯片崑崙818-100,主要面向AI大規模運算需求,這是目前為止業內設計算力最高的AI芯片。

而在參數方面,“崑崙”採用了14nm工藝,擁有260Tops性能,512GB/s內存帶寬,功耗僅為100+W。崑崙AI芯片具有高效、低成本和易用三大特徵,其針對語音、NLP、圖像等專門優化,同等性能下成本降低10倍,支持paddle等多個深度學習框架、編程靈活度高、靈活支持訓練和預測。與含光800類似的是,百度表示將使用崑崙芯片,通過“百度崑崙雲服務器”為用戶提供強大的雲算力。但截至目前,“崑崙”並沒有任何量產的消息。

小結:

綜上,國產AI芯片如今已走上高速發展的快車道,性能和技術上的不斷刷新,也讓一眾本土AI芯片玩家站上了更高的舞臺,與國外如英偉達、英特爾這樣的老牌芯片巨頭們同臺競技。雖然從某些參數上來看,國產AI芯片已經有很大的進步且能媲美國際大廠的產品,但長遠來看,本土AI芯片企業想要從追趕實現超越,還有一段路要走。

畢竟,並不是所有初創公司都能夠像互聯網巨頭一般,有著充足的資金支持、完善的生態以及他們自身業務、應用等對於芯片的需求。對於國內AI創企們而言,目前的要做的不僅是從紙面數據上對芯片性能進行提高,更重要的是找到合適的應用領域,融入合適的生態圈,儘快取得落地應用並推廣才是當務之急。


分享到:


相關文章: