深度學習加速：算法、編譯器、體系結構與硬件設計

2020-03-28 10:33:33 sandag

概述

NeurlPS2019 大會的「Efficient Processing of Deep Neural Network: from Algorithms to Hardware Architectures」的演講概括性地介紹了目前深度學習加速領域的進展，看後覺得這個演講的邏輯清晰，於是想結合

演講ppt內容 和近期調研的一些加速器相關內容，總括性地理一下深度學習加速領域的內容。首先關於深度學習加速，一般會想到的就是關於深度學習加速器的硬件設計，但其實更寬泛地講，從算法頂層，到編譯器，到體系結構，硬件最底層都有涉及。下面的介紹也大致圍繞這幾個方面展開。（有新的東西會繼續往上加，長期更新）

關注指標
CPU和GPU平臺與其設計考量
Domain-Specific 硬件設計
設計關注點
深度學習應用數據重用機會
兩類設計範式：Temporal Arch. 與 Spatial Arch.
加速器設計可以利用的特性（稀疏、低精度、壓縮）
一些經典的加速器設計案例分析（DianNao、PuDiannao、TPU、Eyeriss）

1. 算法頂層

算法頂層在深度學習加速的工作也囊括了很多方面，例如：更好的分佈式訓練調度（大規模分佈式機器學習系統），更好的優化算法，更簡單高效的神經網絡結構，更自動化的網絡搜索機制（神經網絡架構搜索NAS), 更有效的網絡參數量化剪枝算法、卷積運算的優化等等。

1.1. 大規模分佈式機器學習

這方面主要是分佈式系統的一些設計。現在的網絡模型越來越大，為了達到好的擬合效果，許多公司需要用極大的數據量餵給模型訓練，這些數據往往單機都塞不下，而要一個batch一個batch慢慢給可能要訓練到猴年馬月，因此才需要大規模分佈式機器學習系統。

下面內容先概括:

並行方式有數據並行和模型並行
調度方式有集中式(參數服務器）和去中心化調度(RingAllReduce）
參數更新方式有同步和異步兩種，從另外角度分的話有基於參數的，有基於梯度方式的

分佈式機器學習系統的並行加速本質上是就是DLP的多機延伸，具體來說其並行的方式分為兩種:

數據並行

顧名思義就是每臺機器都有模型的副本，但是將數據的不同部分分別餵給各個模型（各個機器), 最後的結果以某種方式進行合併(可能是直接參數融合，也可能是傳遞梯度數據進行融合）。數據並行是最常見也是最直觀可以理解的。

模型並行

模型並行的話，就是模型本身太大了，因此需要將模型各個部分分散在各個機器間，這種情況在更新參數時需要層間跨機器通信。

兩者結合

當然實際上還會有數據並行和模型並行的結合，可以從這個角度理解: 模型各個部分分散在單機的多個GPU中(模型並行），同時模型在多個機器都有副本，數據各個部分分別餵給各個機器並行訓練(數據並行）。

上面介紹的是並行的方式，那麼在實際分佈式訓練中是怎麼進行訓練的調度呢?調度方式主要分為集中式調度和去中心化調度，前者代表有Parameter Server方式，後者代表有Ring Allreduce方式。

Parameter Server

參數服務器是一種集中式的架構，有專門的機器用於存放全局參數，其他的worker用於訓練！那麼怎麼更新呢？

一種方法是參數平均，這是一種同步方式！

這種方式下，參數服務器每次將全局參數分配到各個worker，worker們每次迭代更新了參數後再彙集到參數服務器求平均得到這一輪的結果，之後再重複上述步驟直到收斂，是不是很簡單！然而實際在工程上要考慮更多！例如，由於參數服務器要等待所有worker的參數到來後才可以操作(同步方式），那麼如果有worker發生故障呢？如果worker每一次迭代就發參數給參數服務器，那麼通信可能會成為瓶頸，而我們知道，計算比重要大於傳輸比重，才有收益，所以可能需要考慮在worker那邊多做幾輪迭代後再給參數服務器更新，減少通信開銷。諸如此類的衡量還有很多。

另一種就是基於梯度的方式，worker不是發送本地更新後的參數給參數服務器，而是發送梯度數據，參數服務器彙總的是梯度，然後在那邊統一進行梯度更新。這也是一種同步更新的方式!兩種方式似乎大同小異，但是由於梯度的稀疏特性，在通信前可以利用壓縮算法來減少傳輸開銷。

參數平均和基於梯度的方式本質上都是同步更新方式，有同步就有異步方式（基於梯度的方法本身可以做成異步更新的方式）。異步是說參數服務器不再等待最後一個worker才開始操作，而是有worker的參數到了，我這邊就開算，不進行等待。那麼兩種更新方式的區別是啥？

同步方式: 有較大通信開銷和同步等待開銷，但是優點是收斂過程比較穩定。
異步方式: 速度快，高吞吐，等待時間少。但是噪聲更大，有參數過期問題，所以收斂過程沒有前者穩定。

Ring AllReduce

這種調度方式是與Parameter Server相反的方式，體現了設備去中心化思想。集中式調度容易管理，但是隨著worker數目增加，master的負擔越來越大，加速比也急劇惡化。

而 Ring AllReduce可以將參數通信分散到各個GPU，經過一循環的數據傳遞和計算後，得到正確結果。通過Ring AllReduce這種比較巧妙的方式，每個設備的負載更加均衡，基本上可以實現當GPU並行卡數的增加，實現計算性能的線性增長。具體的scatter和reduce流程可以參考

這裡 ,一些相關的分佈式訓練庫: horovod baidu-allreduce

關於大規模分佈式機器學習系統先介紹到這裡，以後再細講。之前看過一本相關書籍《 分佈式機器學習：算法、理論與實踐 (豆瓣) 》，感覺不錯，感興趣可以參考一下。

1.2. 優化算法

深度學習的優化算法我覺得也可以算入深度學習加速的範疇，因為各式各樣的優化算法 （SGD，Adagrad，Adadelta，RMSprop，Momentum，Adam，Adamax，Nadam） 的目標都是使得梯度下降搜索的時候可以更加趨近全局最優，使得收斂的速度更快，從而加速訓練進度。當然，優化算法在分佈式機器學習系統上需要實現其相應的分佈式的版本，各類優化算法在分佈式系統的參數更新方式上可以玩出很多花來。

1.3. （輕量級）高效的神經網絡結構

由於神經網絡對於噪聲不敏感，所以許多早期經典模型的參數其實是存在很大冗餘度的，這樣的模型很難部署在存儲有限的邊緣設備，因此學術界開始追求一些輕量級的網絡設計（這代表著更少的參數，更少的乘法操作，更快的速度）：

減小卷積核大小

主要的做法包括使用更小的3x3卷積(加深網絡來彌補感受野變小)；將大卷積核分解成一系列小的卷積核的操作組合。

減少通道數

第一種方式：1x1卷積的應用。在大卷積核前應用1X1卷積，可以靈活地縮減feature map通道數（同時1X1卷積也是一種融合通道信息的方式），最終達到減少參數量和乘法操作次數的效果。

第二種方式：group convolution，將feature map的通道進行分組，每個filter對各個分組進行操作即可，像上圖這樣分成兩組，每個filter的參數減少為傳統方式的二分之一（乘法操作也減少）。

第三種方式：depthwise convolution，是組卷積的極端情況，每一個組只有一個通道，這樣filters參數量進一步下降。

如果只採用分組卷積操作，相比傳統卷積方式，不同組的feature map信息無法交互，因此可以在組卷積之後在feature map間進行Shuffle Operation來加強通道間信息融合。或者更巧妙的是像Pointwise convolution那樣將原本卷積操作分解成兩步，先進行 depthwise convolution，之後得到的多個通道的feature map再用一個1X1卷積進行通道信息融合，拆解成這樣兩步，卷積參數也減少了。

減少filter數目

直接減少的filter數目雖然可以減少參數，但是導致每層產生的feature map數目減少，網絡的表達能力也會下降不少。一個方法是像DenseNet那樣，一方面減少每層filter數目，同時在每層輸入前充分重用之前每一層輸出的feature map。

池化操作

池化操作是操作卷積神經網絡的標準操作，池化層沒有參數，同時又可以靈活縮減上一級的feature map大小，從而減少下一級卷積的乘法操作。

1.4. 神經網絡架構搜索

1.3節所介紹的那些高效的神經網絡結構本質上是人工精心（費力）設計的結構，而神經網絡架構搜索NAS則是將神經網絡設計探索這個過程自動化。

NAS主要包括三個主要的components：

搜索空間：搜索空間的每個樣本就是一種神經網絡設計架構
優化算法：如何進行採樣得到一種網絡設計
性能評價：用什麼指標評價採樣出來的網絡設計，評價的結果反過來指導優化算法的採樣。通常的指標是DNN的accuracy和所需的搜索時間。

優化總搜索時間可以從縮小搜索空間、提升優化算法和簡化性能評價指標三部分入手：

縮小搜索空間

可以通過增加一些搜索約束來減少探索空間，例如權衡架構的寬度；放低所要達到的性能目標；結合domain knowledge，通過現有的人工設計經驗來縮小探索範圍。下面是一種搜索的例子，將設計空間設定為 layer operations和 layer connections的不同組合，然後NAS系統在人工設計的幾種選擇組合選項中進行搜索：

提升優化算法

關於如何用一種比較好的啟發算法從搜索空間採樣出網絡設計，NAS + 以前優化領域那一系列智能算法又可以玩出各式花樣來，遺傳算法、模擬退火、粒子群、螞蟻算法...等等都有相關的結合工作。

簡化性能評價

先在小型輕量級的數據集訓練和快速驗證，觀察驗證集精度曲線決定是否早期停止等等，這些經常使用的訓練技巧在NAS上也同樣適用。

基於歷史搜索經驗來減少一些無意義的探索

估算搜索出來的網絡架構的參數，由此推算該網絡的乘加操作次數，如果超出了設定的約束範圍，那麼可以間接預估出該網絡架構過於複雜，不符合要求，那麼直接丟棄這個設計，連訓都不用訓。另外可以建立查找表記錄各個搜索出來的網絡架構的時間，根據表中信息，可以推算出新網絡架構的時間。

1.5. 網絡量化剪枝

什麼是量化

根據上圖，最簡單的理解方式就是：統計網絡權重和激活值的取值範圍，找到最大值最小值後進行min-max映射把所有的權重和激活映射到到INT8整型範圍（-127~128）.

量化為什麼有效

首先量化會損失精度，這相當於給網絡引入了噪聲，但是神經網絡一般對噪聲是不太敏感的，只要控制好量化的程度，對高級任務精度影響可以做到很小。

其次，傳統的卷積操作都是使用FP32浮點，浮點運算時需要很多時間週期來完成，但是如果我們將權重參數和激活在輸入各個層之前量化到INT8，位數少了乘法操作少了，而且此時做的卷積操作都是整型的乘加運算，比浮點快很多，運算結束後再將結果乘上scale_factor變回FP32，這整個過程就比傳統卷積方式快很多。

提前從體系結構的考量角度思考量化帶來的另一個好處是節能和芯片面積，怎麼理解呢？每個數使用了更少的位數，做運算時需要搬運的數據量少了，減少了訪存開銷（節能），同時所需的乘法器數目也減少（減少芯片面積）。

量化的一些其它考量

上面舉的例子都是INT8量化，實際上要根據設備的支持情況以及應用的性能要求選擇INT32、INT16、 INT8量化。

單純使用min-max映射可以將分佈均勻的浮點數映射到INT8空間，但是如果權重和激活比較多地集中在0.0以上，只有小部分落在負數，那麼此時min-max映射後許多數也會集中在INT8某個小範圍，那麼INT8寶貴的動態範圍就被浪費了，因此我們需要選擇一個合適的閾值對激活和權重的範圍進行裁剪，NIVDIA在實際操作中是根據KL散度來選擇出這個裁剪閾值，具體細節參考 章小龍：Int8量化-介紹（一）

權重剪枝

神經網絡的權重剪枝就是把網絡趨近於0的權重直接裁剪成0，以達到稀疏性。權重剪枝，可以作為量化模型後進一步的優化，有了稀疏性，通過壓縮後可以進一步減少參數存儲量；有了稀疏性，運算時如果跳過權重為0的計算，又可以減少功耗。TensorFlow Lite框架對模型的移動端部署的核心優化就是量化和權重剪枝。

稀疏模型的優勢在於易於可壓縮，在推理過程中跳過權重為0的計算。剪枝通過壓縮模型來實現。在犧牲微小精度的前提下，我們的模型有6倍的性能提升。剪枝這項技術，也在實際應用到語音應用中，如語音識別、文本轉語音以及橫跨各種視覺與翻譯的模型中。

權重剪枝主要有兩種方式

後剪枝：拿到一個模型直接對權重進行剪枝，不需要其他條件。

訓練時剪枝：訓練迭代時邊剪枝，使網絡在訓練過程中權重逐漸趨於0，但是由於訓練時權重動態調整，使得剪枝操作對網絡精度的影響可以減少，所以訓練時剪枝比後剪枝更加穩定。

TF官方提供了詳盡的 Keras剪枝教程 和 Python API文檔 ，以及 訓練稀疏模型等高級用法的指導 。此外，還有一個 MNIST手寫體圖像識別的CNN模型剪枝代碼 ，和 IMDN情感分類的LSTM模型的剪枝代碼 也可以參考。

1.6. 卷積運算的優化

卷積轉化為矩陣乘法

大部分深度學習框架會把卷積操作轉化成矩陣乘法操作，這樣可以利用現有成熟的矩陣乘法優化方案，比較常見的轉化方式是img2col：

全連接層可以直接轉化為矩陣乘法，因為全連接的操作本質上就是Y=WX的矩陣操作。從另一個角度，全連接的操作其實還可以看作每個神經元為1x1filter，所進行的卷積操作。而對於卷積層，轉化為矩陣乘法後，會引入一定冗餘度：

矩陣乘法的一些優化操作

矩陣分塊可以更好地匹配各級cache的大小，這樣cache局部性更好，訪存時的miss率更低。除此之外，對矩陣的內存數據佈局進行重排布來增加待計算數據放置的連續性，這樣取數的時候cache miss率也會更低，像常見的 NCWH 和 NWHC 排布模式都是這方面考慮。

矩陣乘法的近似計算

使用其它的卷積近似替代算法，可以減少複雜度。不過有些算法有使用條件，像Winograd只是對小卷積核操作有比較大的優化效果。傅里葉變換似乎不太常用，因為要達到理論上的加速，要求卷積核要很大才可以，而實際上深度學習用的都是小卷積核。

2. 深度學習編譯器

2.1 需求

這個算是連接頂層和體系結構的部分，之所以有深度學習編譯器的需求，是因為我們的模型從各式各樣的頂層框架訓練出來(Pytorch, Tensorflow, MXNet, Caffe等 )，但很多時候並不是還在訓練時用的平臺部署來進行推理，最終落地階段可能需要將模型部署到各式各樣的設備（Intel CPU, Nvidia GPU, 移動端Arm CPU, 移動端GPU, FPGA, Risc-V CPU ), 而這些設備是用不同的指令集架構的。

舉個例子，你使用Tensorflow或者Pytorch為服務器端的Nvidia GPU所實現的算子操作(一些列cuda 函數) 完成了模型在GPU的訓練，你得到了模型參數，接下來你被要求將模型部署到手機端cpu，那麼可以肯定的是，你訓練時候所使用的那些cuda函數肯定在手機端用不了了，怎麼辦呢？你需要針對你手機端的指令集架構Arm，重新手寫算子(實現一些前向推理需要的卷積啊池化操作的函數，並且實現方式還必須高效，不然到時模型跑起來速度太慢也沒有意義) ，這樣你的模型才跑得起來，隻手寫一套你覺得還OK，頂得住，那如果還要部署要其他類型的設備呢？問題變得繁瑣起來...

人工的話不太可能有精力對那麼多目標平臺重新手寫切合各個平臺指令集架構的算子(各類卷積，池化，點乘...)，因此，如果有深度學習編譯器來作為中間部分，將頂層框架的模型流圖轉化成中間層表示IR，在這個中間層表示做系列標準的流圖優化操作(loop 調度，算子融合...)，最後在按需求生成各個目標平臺的機器碼，那就是頂好的！

2.2 TVM

從上圖可以看出來，TVM其實是一個橋樑作用，TVM可以實現算子代碼的自動生成，也就是說現在我在頂層訓練好了模型需要部署到不同的目標平臺，通過TVM可以生成針對這些平臺的優化的算子和推理代碼。當然自動生成的算子還可以結合手工進一步優化（自動與手工結合）。除了自動生成算子代碼功能，TVM很有吸引力的一點就是其自動生成的代碼可以媲美那些手工優化的加速庫。

TVM的使用場景:

一種是離線支持敏捷算子優化，通過TVM自動代碼生成的功能，部分解放優化人員手動添加優化的負擔。具體地，給定一個計算，優化人員進行workload characterization分析完計算訪存pattern之後，可以擬定幾種可能的優化方案，如果TVM的schedule中包含，那麼可以直接應用TVM來生成包含該優化的代碼。然後藉助profiler來分析代碼的瓶頸，進一步修正或者更新優化方案，再試圖藉助TVM的自動生成能力，如此循環往復。到最後，如果TVM代碼的可讀性足夠的話，優化人員可以在其上做手動優化；如果可讀性不好的話，TVM也可以幫助優化人員快速確定優化方案。另外一種場景是，運行時代碼生成。當研究員在試驗新的算子時，由於沒有可供調用的計算庫，同時缺乏CUDA等高性能代碼開發經驗，因此很多情況下是通過裸跑python代碼來調用新算子的。PyTorch已經在今年5月份開始將TVM接入到PyTorch中實現運行時代碼優化編譯，目前已經可以運行了。

詳細的討論參考： HONG：也談TVM和深度學習編譯器

關於深度學習編譯器我還了解不多，下一步打算深入探究一下TVM再來補充。TVM入門可以參考 藍色：手把手帶你遨遊TVM

2.3 Tensorflow XLA

XLA（Accelerated Linear Algebra，加速線性代數）是一種優化TensorFlow計算的編譯器。 XLA（加速線性代數）是為優化TensorFlow計算的特定領域編譯器。它可以提高服務器和移動平臺的速度、改進內存使用、提升便攜性（或者說是可移植性）。 XLA框架是目前處於開發中的實驗性項目。更多信息請閱讀 XLA指南 ，

XLA有幾個與目標硬件無關的優化，例如 公共子表達式消除（CSE，common subexpression elimination） ，過程與硬件後端無關的（target-independent）算子融合，以及用於為計算而在運行時做內存分配的緩衝區分析。硬件目標無關的步驟之後，XLA將HLO計算發送到後端去做進一步的HLO級優化，HLO級優化會針對硬件目標特定信息和需求，如XLA GPU後端的算子融合、確定如何將計算劃分為流。此階段，後端還可以將某些算子或其組合與優化的庫調用進行模式匹配。下一步是特定於目標硬件的代碼生成。CPU包括XLA使用的GPU後端會使用 LLVM 生成低級IR、優化和代碼生成。硬件後端以有效方式發出了表示XLA HLO計算所必需的LLVM IR，然後調用LLVM從LLVM IR發出原生代碼。 GPU後端目前通過LLVM NVPTX後端支持NVIDIA GPU，CPU後端支持多個CPU指令級架構（ ISA）

詳細可以參考： 按時計劃：TensorFlow Lite概述：轉換器、解釋器、XLA和2019年路線圖

2.4 Pytorch Glow

Glow是一個機器學習的編譯器和執行引擎，它可以面向多種硬件, 是基於LLVM項目進行了開發的。（後續繼續補充....）

3. 體系結構與硬件設計

傳統標量處理器適合分支情況複雜的程序，但是對於深度學習這種數據驅動的、有明顯的DLP特徵的應用就顯得不適用了，因此現在通常是通用處理器和專用處理器的結合，像我們手機有多個CPU負責一般程序執行，又有NPU去加速器一些神經網絡應用。

3.0. 關注指標

DNN加速器的關注的點不僅僅是 OPS/W，更多的是準確度、吞吐量、時延、功耗、硬件成本、硬件的靈活度或者說對新出現模型的可複用性等等各個方面的權衡。

3.1. CPU與GPU平臺

現有的CPU和GPU都有官方的加速庫來加速矩陣運算。CPU和GPU為了支持DLP行為，有專門的向量指令集，例如CPU的SIMD指令，不過SIMD畢竟是通用處理器對DLP的補充，並行度其實不算太高；還有就是GPU的SIMT，其實本質上是SIMD的一種不同的抽象方式，並且藉助GPU大量的運算核心，在並行度方面遠超支持向量處理的CPU。

SIMD和SIMT本質上是一種時間上的並行展開,屬於Temporal架構，怎麼理解呢？就好比一個循環並行，我每個並行計算單元做的是某次迭代的事，相當於把通用CPU在一段時間內的循環操作在我們的加速器的並行單元上一次性展開了。

SIMD/SIMT本質上是一種Temporal Arch

進一步，有些CPU/GPU支持INT8 INT16低精度運算，在取相同的數據量情況下，還可以進行更多的乘法運算（4個INT8 相當於原先一個 FP32所佔的空間）。

CPU和GPU的設計考慮

軟件（編譯器）

通過對卷積操作的變換來減少不必要的MACs，例如前面提到的卷積近似計算
通過編譯時的優化PASS對循環執行進行調度（循環展開、循環tile等等）
編譯器優化減少load,store指令，儘量用寄存器操作

硬件

提高PEs處理每個MAC的時間.
提高並行度（使用更多並行的PEs，例如PE陣列）.
提高PE的利用率. 意思是儘量使得PE忙碌，一個方法是增加片上緩存大小，提高訪存總線寬度等等入手，這些都旨在減少訪存的瓶頸，PEs可以更快拿到數，減少等待時間；另一種方式是讓數據儘可能在數據通路中多停留，這樣在訪存能力不變的情況下，就可以用流水線的形式讓PE儘可能有事做，後面講解的TPU所用的脈動陣列，和流行的 DtaFlow數據流架構都是類似方式，當然在GPU的設計上也可以融入上述通用思想.

3.2. Domain-Specific 硬件設計

設計關注點

上圖展示了DNN加速器在體系結構設計所關注的幾個點：數據的讀寫也就是訪存，以及計算。尤其是訪存問題，因為通常PE數目很容易堆上去，並行度上去後，數據讀寫往往會成為瓶頸，也就是常說的撞到“內存牆”，內存訪問在我們的機器上是有層級的，寄存器，cache很快，但是到了內存取數就很慢，數據在cache miss後代價會很大，因此如果沒有很好的訪存優化，那麼對於大數據的深度學習，加速比是很難做上去的。

從DNN加速器的經典實現 DianNao系列、TPU、Eyeriss來看（後面會講到),這些加速器都十分關注訪存方面的設計，後續有時間就其一些設計細節展開。不過大體上優化訪存的方式有：

研究新的內存製作工藝：這個沒那麼沒那麼容易其實

從更下級cache取數：一般CPU從L1 cache取數，但是L1 cache能裝的數比較少，我看到有些加速器從L2 cache取數，因為L2 更大一些，取數 miss幾率小，不過這麼做要解決一下cache一致性問題（

Hwacha ）。

增大加速器的片上buffer：好理解，如果我加速器的buffer大的可以裝進更多權重，那麼計算部件PE要消費數據的時候取數從片上buffer取，那肯定比從內存取數要快。

數據重用：如果這個PE產生的結果下一次計算會被接著用上，那麼可以讓這個數據留在PE中，等待下次複用，這樣就減少了數據被store回去、下一次又load回來的開銷。從另外一個角度看，第二種方式本質上也是在利用數據的複用，只不過把數放在片上buffer來複用，複用的粒度不同。

兩類設計範式

Temporal Arch. 這個前面有提及主要以SIMD，SIMT為代表.
Spatial Arch. 也就是數據流模式. 相比Temporal Arch的不同之處就是，數據流模式中PE與PE之間是可以相互通信的，也就是說數據可以在PE間流動，這一週期計算出來的結果可以在下一週期流到其他PE參與運算，而不用發生訪存動作。所以，這樣帶來的好處是有更大的數據吞吐量，適合具有很好數據重用特性的應用。

深度學習應用的data reuse機會

前面說道，處理訪存問題是DNN加速器設計的一個關鍵，一個方法就是發掘卷積操作中的數據複用性。

卷積神經網絡三個角度複用，一是複用權重；二是複用激活（也就是feature map）；三是複用兩者。不同的複用策略，可以引申出不同設計架構和取數策略：

加速器Eyeriss則是採用了行復用的方式：

加速器設計一些可以利用的點

稀疏性質

為什麼稀疏是一個對硬件設計友好的特性呢？首先，減少不必要的乘法操作。0乘上任何數都是0，那麼如果有0出現的話可以不使能乘法單元去計算，直接輸出結果0，這樣可以節省運算產生的功耗；乘法的操作數有0的話，不必費力去內存取0，直接有個存0寄存器輸出0給乘法單元即可，這樣就減少了數據搬移的開銷。體系結構設計上可以利用剪枝的思想，把很小的只裁剪成0，這樣就增大數據稀疏性，這裡說的剪枝是硬件實現的剪枝。

低精度

前面算法層面有講過量化的加速作用，但是量化本身其實是一個軟硬件結合的設計，怎麼理解呢？你在程序上實現的量化算法，落到指令架構級別都需要硬件的支持才行。這裡再加強一下，INT8低精度支持可以使得數據的搬移量減少，同時整形操作速度更加快從而起到加速效果，目前許多設備都開始支持低精度推理

壓縮

同樣，如果硬件支持壓縮功能，那麼也可以減少數據搬移，例如，Eyeriss在寫回數據時候會進行壓縮編碼再寫回，這樣大大減少訪存的時間。

一些經典加速器設計案例分析

DianNao

可以說是深度學習加速器的開山之作，比TPU還要早。裡面的一些設計哲學就是在分析了DNN的行為模式後設計的。論文的貢獻在於：

1、對大規模的CNNs和DNNs最先進機器學習算法的綜合硬件設計

之前的加速器將神經網絡每一層一次性全部實現到了硬件上，這種做法只適合規模小的網絡結構。而且可拓展性很差(改動新的網絡參數或者結構發生變化那麼這個加速器就用不了了）。DianNao的利用計算單元的複用來適應大規模的網絡。

2、專注於優化訪存的性能，著重減緩”存儲牆”的問題。

不用cache，用sratchpad作為buffer。因為cache的數據衝突問題會帶來高功耗。
將輸入數據split成兩個獨立的輸入buffer。因為對於神經網絡來說，輸入數據和權重是兩類很明顯獨立的數據，分開的話就不用混在一起，這樣更加容易處理。考慮reuse的話，例如一個Nbin中一列輸入數據Tn需要和實際中權重矩陣中多列進行相同的運算(也就是輸入數據的重用），那麼SB中的一列的位寬可以做的大一些(NBin一列是Tn=16寬度，也就是一列放16個輸入特徵；那麼SB一列可以設置成TnXTn，也就是SB的一列代表權重矩陣Tn列，每列Tn個權重值，一共TnXTn個數）。從這個角度來說，將NBin和SB分開可以方便的根據reuse模式裁剪不同的位寬，如果是隻用一個統一的buffer的話就做不到這點(一個buffer只能用一種位寬）。
NBout在輸出最後結果之前，大部分時間可以用來緩存中間結果，這樣中間結果先不回去memory。NBout緩存的中間結果可以回去NFU2進一步計算得到最終結果。
NBin和SB在DMA控制下進行preload，也就是每次計算單元取數時候數已經preload在buffer中了。

三個buffer用三個DMA控制，這樣方便三個buffer中各自的取數寫數操作。例如在計算過程中，SB和NBin的DMA要負責 preload 和放數據給計算單元這兩類任務。 NBout的DMA負責將中間結果wirte進NBout緩存以及將最終結果load回內存這兩類任務。可見DMA分開可以各自幹各自事，比較靈活。

PuDianNao

普電腦和DianNao的區別就在於，DianNao主要針對神經網絡，而普電腦而是支持一類機器學習算法（KNN、樸素貝葉斯、SVM、K-Means、線性迴歸、決策樹等等）的加速，屬於特定領域的通用加速（狗頭。論文中花了大量篇幅，仔細分析了各類機器學習算法在訪存行為、計算模式上的異同，（搞體系結構的訪存真的時常掛嘴邊啊...，強烈建議搞體系結構、加速器設計的同學仔細讀一下論文裡面對各個算法案例的分析），最終得出一個結論：

各類機器學習的行為模式很大不同（相比各類DNN而言），但是從更細粒度，也就是在數據重用、計算操作（乘加、計數比較..）角度上是可以分幾類的，針對這一點設計如下的結構：

HotBuf和ColdBuf 就是在分析幾類算法的數據重用行性後設計的，有的數據重用距離小，有的數據重用距離大，所以將buffer根據重用距離進行分離。
數據通路根據總結了幾類算法出現的高頻運算操作（有比較操作、計數、乘加（乘法+加法樹組合）、中間結果緩存、非線性運算）做成流水線，對於某種特定的類型，如果在某級不需要該運算，可以直接bypass.

PuDianNao論文的詳細分析可以參考： 中科院說的深度學習指令集diannaoyu到底是什麼? 大佬講的蠻好的。另外，如果想細究一下加速器一些具體的設計細節，可以看看 ShiDianNao ，這篇論文沒有太多架構創新，但是在加速器設計細節上講的應該是所有DianNao系列論文中最細緻的了.

TPU

設計哲學就是：

Simple and regular design：可以說，簡單和規則是脈動陣列的一個重要原則。而這樣的設計主要是從“成本”的角度來考慮問題的。
Balancing computation with I/O：平衡運算和I/O，應該說是脈動陣列最重要的設計目標。儘量讓數據在運算部件中多停留。儘量讓運算部件保持繁忙，不會因為要取數而停滯計算。

脈動矩陣

TPU使用了脈動陣列，這是一個很有趣的點，脈動陣列在很早之前就已經出現，後來被認為實用性不大，但是在深度學習時代，計算密集的大矩陣運算讓脈動矩陣煥發活力，可以算是加速器設計的重新考古發現。關於脈動陣列的計算方式可以參考 https://github.com/meton-robean/PaperNotes/issues/3

簡述一下脈動陣列計算方式就是：權重先送進各個PE，之後input 矩陣數據從左往右流進陣列計算，之後計算結果從下面依次流出（不同列輸出相差若干個週期），沒錯，這就是一種數據流架構的實現嘛.

脈動矩陣的一些看法與分析：

1. 脈動架構是一種很特殊的設計，結構簡單，實現成本低。但它靈活性較差，只適合特定運算。而作者認為，卷積運算是展示脈動架構特點的理想應用。 2. 脈動陣列難以擴展，因為它需要帶寬的成比例的增加來維持所需的加速倍數。這違反摩爾定律和儲存速度落後於邏輯速度的技術趨勢。另外它又使延遲變得更糟，這違反了論文中提到的用戶需求的趨勢。即使TPU中的矩陣乘法單元只是脈動矩陣乘法的多種選項之一。是否可以找到可擴展並且節能的替代方案，來實現所需的傳播和累加而不以犧牲延遲時間為代價，這是一個值得思考的有趣的話題。 3. 數據重排。脈動矩陣主要實現向量/矩陣乘法。以CNN計算為例，CNN數據進入脈動陣列需要調整好形式，並且嚴格遵循時鐘節拍和空間順序輸入。數據重排的額外操作增加了複雜性，據推測由軟件驅動實現。 4. 規模適配.在數據流經整個陣列後，才能輸出結果。當計算的向量中元素過少，脈動陣列規模過大時，不僅難以將陣列中的每個單元都利用起來，數據的導入和導出延時也隨著尺寸擴大而增加，降低了計算效率。因此在確定脈動陣列的規模時，在考慮面積、能耗、峰值計算能力的同時，還要考慮典型應用下的效率。

分享到:

閱讀更多 sandag 的文章

關鍵字: Power 深度網頁設計

Freertos定時器

Stm32F103R6之FSMC

調測BFD方法

【STM32】SD卡讀寫（四）-STM32利用SPI讀寫SD卡的程序詳解

圖解 Kubernetes Deployment Controller 工作原理與流程

「正點原子Linux連載」第四十三章Linux設備樹（二）

STM32硬件SPI主從通信實例

交換機及路由器調測流程

stm32F103R6之CRC

03.06 stm32F103R6之CRC

03.04 網絡收斂經常用到的快速檢測機制，BFD雙向轉發檢測，瞭解下

03.04 BFD雙向轉發檢測，BFD會話靜態和動態建立方式，一分鐘瞭解下

「RT-Thread筆記」IO設備模型及PIN設備

通過路由方式引導客戶流量清洗，實現DDos防護功能

Filecoin主網上線推遲，可見中國節點的力量！

halcon圖像獲取（一）

Linux硬件管理

01.06 「計算機網絡」第三章：數據鏈路層

ThreadLocal源碼分析

vRealize Automation系列教程-配置資源預留（五）

Python—PDF文本與圖片抽取

net包 dial

「小喵科技」圖形化編程軟件：連線引擎簡介和使用

分佈式和微服務到底有何區別？

通過在 S7-1200/1500 中調用功能塊實現 V90 PN 參數的備份及恢復

數據鏈路層

「CAN波形分析」一次CAN波形分析之旅

Spring cloud微服務架構服務註冊與發現Eureka

一個案例，教你PLC傳送與比較指令用法

詳解計算機中內存、cache和寄存器之間的聯繫及區別

世界互聯互通的基本法則（四）：OSI網絡層

FPGA高級編程語言VHDL學習--數據類型講解

淺談開發51單片機操作系統應注意的問題都有哪些

04.02 如何對S7-1200/S7-1500 進行數據類型轉換

簡學：CPLD工作原理

QOS：quality of service 服務質量

併發編程技術（五）之AbstractQueuedSynchronizer源碼分析

Dubbo 其實很簡單的，就是個分佈式框架，瞭解一下

西門子S7-200常見故障代碼及診斷指南

如何用最少的IO驅動更多的按鍵

IIC詳解，包括原理、過程，最後一步步教你實現IIC之三

IIC詳解，包括原理、過程，最後一步步教你實現IIC之二

分享一個倒計時開關（下）（多圖）

基於矩陣的反向傳播

07.25 基於矩陣的反向傳播

05.30 11、RedHat7系列——掛載硬件設備

通過專業、通俗兩種角度去講解軟件質量模型，易學易懂漂亮好看！

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？

深度學習加速：算法、編譯器、體系結構與硬件設計

目錄

1. 算法頂層

1.1. 大規模分佈式機器學習

1.2. 優化算法

1.3. （輕量級）高效的神經網絡結構

1.4. 神經網絡架構搜索

1.5. 網絡量化剪枝

1.6. 卷積運算的優化

2. 深度學習編譯器

2.1 需求

2.2 TVM

2.3 Tensorflow XLA

2.4 Pytorch Glow

3. 體系結構與硬件設計

3.0. 關注指標

3.1. CPU與GPU平臺

3.2. Domain-Specific 硬件設計

兩類設計範式

加速器設計一些可以利用的點

一些經典加速器設計案例分析

相關文章:

深度學習加速：算法、編譯器、體系結構與硬件設計

目錄

1. 算法頂層

1.1. 大規模分佈式機器學習

1.2. 優化算法

1.3. （輕量級）高效的神經網絡結構

1.4. 神經網絡架構搜索

1.5. 網絡量化剪枝

1.6. 卷積運算的優化

2. 深度學習編譯器

2.1 需求

2.2 TVM

2.3 Tensorflow XLA

2.4 Pytorch Glow

3. 體系結構與硬件設計

3.0. 關注指標

3.1. CPU與GPU平臺

3.2. Domain-Specific 硬件設計

兩類設計範式

加速器設計一些可以利用的點

一些經典加速器設計案例分析

相關文章:

Freertos定時器

Stm32F103R6之FSMC

調測BFD方法

【STM32】SD卡讀寫（四）-STM32利用SPI讀寫SD卡的程序詳解

圖解 Kubernetes Deployment Controller 工作原理與流程

「正點原子Linux連載」第四十三章Linux設備樹（二）

STM32硬件SPI主從通信實例

交換機及路由器調測流程

stm32F103R6之CRC

03.06 stm32F103R6之CRC

03.04 網絡收斂經常用到的快速檢測機制，BFD雙向轉發檢測，瞭解下

03.04 BFD雙向轉發檢測，BFD會話靜態和動態建立方式，一分鐘瞭解下

「RT-Thread筆記」IO設備模型及PIN設備

通過路由方式引導客戶流量清洗，實現DDos防護功能

Filecoin主網上線推遲，可見中國節點的力量！

halcon圖像獲取（一）

Linux硬件管理

01.06 「計算機網絡」第三章：數據鏈路層

ThreadLocal源碼分析

vRealize Automation系列教程-配置資源預留（五）

Python—PDF文本與圖片抽取

net包 dial

「小喵科技」圖形化編程軟件：連線引擎簡介和使用

分佈式和微服務到底有何區別？

通過在 S7-1200/1500 中調用功能塊實現 V90 PN 參數的備份及恢復

數據鏈路層

「CAN波形分析」 一次CAN波形分析之旅

Spring cloud微服務架構服務註冊與發現Eureka

一個案例，教你PLC傳送與比較指令用法

詳解計算機中內存、cache和寄存器之間的聯繫及區別

世界互聯互通的基本法則（四）：OSI網絡層

FPGA高級編程語言VHDL學習--數據類型講解

淺談開發51單片機操作系統應注意的問題都有哪些

04.02 如何對S7-1200/S7-1500 進行數據類型轉換

簡學：CPLD工作原理

QOS：quality of service 服務質量

併發編程技術（五）之AbstractQueuedSynchronizer源碼分析

Dubbo 其實很簡單的，就是個分佈式框架，瞭解一下

西門子S7-200常見故障代碼及診斷指南

如何用最少的IO驅動更多的按鍵

IIC詳解，包括原理、過程，最後一步步教你實現IIC之三

IIC詳解，包括原理、過程，最後一步步教你實現IIC之二

分享一個倒計時開關（下）（多圖）

基於矩陣的反向傳播

07.25 基於矩陣的反向傳播

05.30 11、RedHat7系列——掛載硬件設備

通過專業、通俗兩種角度去講解軟件質量模型，易學易懂漂亮好看！

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

「CAN波形分析」一次CAN波形分析之旅

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？