11.26 高交會見聞(一)—AI科普篇

高交會是是一個開拓視野的好機會,本次高交會好不容易遇上資深的AI產品總監—來自一家國內做AI圖像領域的獨角獸某廠商,深入交流了一番。筆者對這番內容進行了梳理,才有了這篇文章

這家廠商,是國內做AI安防整體方案的獨角獸的公司,關於他家的業務如下:

高交會見聞(一)—AI科普篇

業內人士,能否猜到是哪家公司?好不容易跟這家公司的產品總監張總深入交流一番。筆者對交流內容進行了梳理,才有了這篇文章。所以文章以交流的形式呈現,中間會穿插著介紹一些基礎的AI的知識,介紹知識部分以黑色斜體字體呈現。

因為考慮到關注咋們公眾號的讀者以風控板塊偏多,讀者的背景大都以風控策略、模型、政策偏多些, 也有個別偏開發類的。雖然風控模型類的某些算法能稱得機器學習算法,但是跟目前真正所提的AI相比,還是覺得相去甚遠。

在整個風控模塊中,模型是最能跟AI貼上關係的。在風控模型中,xgb算法算得上機器學習中,最能跟AI貼近的了。原自豪以為征服了的xgb就像征服了一座高山的你,等到真正接觸到人工智能領域中強大的神經網絡時,會發現真正廣闊的世界還在後面的山頭。

鑑於以上推論,對於AI類的內容相信大部分讀者都為小白級別,所以本文仍以簡單科普類為主。後續根據各位讀者的反饋,如大家有興趣,繼續深入更新這一模塊的內容。最後當然也歡迎AI大佬的圍觀後,給予拍磚指點。

另外在書寫本文中,也查閱了一些資料跟內容,在AI方面實在不敢成為專家,寫得不對的地方不吝賜教。關於此次這家AI公司整體建模的流程框架,相關的資料跟圖片會有部分留在公眾號,另一部分會獨享到知識星球平臺,歡迎各位交流切磋。

交流一:目前他們家的產品能夠負載多少種算法?

張總表示:他們公司的芯片能同時處理五十種左右的算法,比如RNN和CNN等一類的算法。

交流二:目前公司的產品所用到的芯片是你們自己研發的嗎?

張總表示:芯片是自己設計研發的,並且公司戰略是將芯片免費提供給用戶使用,他們是做智能雲服務商的。目前芯片是採用業界領先的22nm工藝,工藝的性能、功耗、面積經過仿真、分析、比對,對比業界主流的28nm工藝,都具有一定優勢,性能提升約10%,功耗降低約15%,面積減小15%-20%。

交流三:深度學習為什麼能這麼熱火?

張總表示:深度學習,在七八十年代已經有了,現在的總體的技術跟那個時候其實沒有很大的差別,不同的是因為數據豐富了,使得模型訓練有了較好的載體。

交流四:目前的產品的計算能力如何,浮點的計算能介紹一下嗎?

張總表示:視覺AI芯片具有2Tops/W的高能量效率。與Nvidia開源的nvDLA相比,相同運算力下,在很小的內存帶寬下,算法模型效率可以提高18倍。與麒麟970相比,相同運算力下,比970的性能提高4.4倍。

這裡之所以提到浮點計算,是因為浮點計算是AI的關鍵所在。首先有必要解釋一下,什麼是浮點計算。通俗來說,就是一種可以通用表示所有數字的科學計數法。它的表示形式為0.*****×10^***,其中小數點前面是定點小數,後面則是一個定點整數(10的N次方)。比如傳統的1024整數,浮點數就表示成0.1024×10^4。不難發現,浮點數可以表示出任意一個整數和小數,並且比普通格式的計數方式數位更長,因此計算難度和精度也更高。而利用浮點數進行的運算就是浮點運算。浮點運算到底有多重要呢?這麼說吧,目前所有的計算機處理器都採用的是浮點運算,所以AI芯片也是以浮點運算能力為基礎展開的。

交流四:目前他們家的模型的數據樣本來源?

張總表示:目前的數據都是自己內部的大量數據,都是採用人工標註的形式進行的。

高交會見聞(一)—AI科普篇

這裡提到的剛才說到了標註的問題,那現在標註是一項什麼樣的工作?需要什麼技能?數據標註的問題。其實是一個很基礎的問題,沒有太大的難度。有些標註有工程師的,是需要使用某些軟件,所以這部分崗位對應著title稍高些的數據標註工程師。

交流五: 目前,各種AI算法的內容,都會用用上CPU,GPU等內容,這些相關的內容,具體在什麼場景下,用到什麼X-PU,用什麼芯片?

張總表示:目前隨著AI概念火爆全球,做AI芯片的公司也層出不窮。為了讓市場和觀眾能記住自家的產品,各家在芯片命名方面都下了點功夫,既要獨特,又要和公司產品契合,還要朗朗上口,也要容易讓人記住。比較有意思的是,很多家都採用了“xPU”的命名方式。目前在關於各種X-PU上,不同的場景用特定的芯片,這個也是必然的趨勢。

AI芯片,百家爭鳴,機遇伴隨挑戰,今天你爭我奪,明天就可能併購。隨著這些“xPU”的不斷推陳出新,26個字母使用殆盡。據我知道現在就各種XPU的,基本在網絡上基本從A-Z字母為開頭的X-PU都已經被涵蓋了:APU/BPU/CPU/DPU/EPU/FPU/GPU等處理器

交流六:目前在不同的場景下,用到什麼樣不同的算法?

張總表示:語言識別上,用的是基於時間序列的RNN的算法;而圖像數據上,更多的是三維的數據,所以用CNN算法居多.

1.RNN

RNN是循環神經網絡,因為很多相關的數據是基於時間的維度數據發生的推演,數據之間有特別重要的先後順序,所以循環神經網絡就是來解決這樣的問題的:

高交會見聞(一)—AI科普篇

高交會見聞(一)—AI科普篇

2.CNN

卷積神經網絡,卷積神經網絡是解決圖像數據,長寬高等方面的數據而採取的算法,具體會將某個圖像中的細分成非常多的圖片塊,然後再對每個塊分成長寬高進行描述,其中高是代表著圖表中顏色(RGB)。人們在發現CNN在卷積的時候,每一次都會丟失一部分信息,所以為了解決這個方法就引進來了pooling的方法。

高交會見聞(一)—AI科普篇

交流七:.問深度學習方面,目前制約深度學習的瓶頸的發展的是什麼?

張總表示:目前很多公司的算法工程是是更多的怎麼去調參,其實綜觀AI的發展史可知,

底部算法是才是制約AI發展的一個核心的關鍵。

另一個關鍵是目前深度學習,在商用落地方面還必須重要考慮的是功效的問題,只有功效的問題解決了,才能有更好的落地。

未來肯定是某個場景用特定的芯片,然後用級聯的方式做集成。並且不同的級聯方式,應用不同的模塊。所以未來,在一個集成方面,還必須考慮一個集成如果解決芯片中,芯片的連接的問題。

最後是是關於AI,對正常的問題處理起來都沒有大問題,現在的問題比較大的是對極端情況下,怎麼做算法跟常用的應用。比如對於光線比較暗的地方,怎麼去訓練模型?在自己訓練的模型中去擬合數據跑一個demo都是非常簡單的,但是真正難的是,怎麼將他商業化落地。

所以未來整個AI的發展也會是算法、功效交替迭代的過程。

最後給各位讀者提供下開發模型的大概流程,關於此部分有些內容已經上傳至知識星球,歡迎圍觀:

高交會見聞(一)—AI科普篇

高交會見聞(一)—AI科普篇

高交會見聞(一)—AI科普篇

高交會見聞(一)—AI科普篇


分享到:


相關文章: