瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?

概述

距機器學習平臺 PAI 2.0 發佈兩年後,阿里巴巴重磅發佈 PAI 3.0 版本。

瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?


先簡單介紹一下機器學習相關概念。


機器學習


瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?

機器學習分類

機器學習簡單來說就是,人教機器在我們積累的數據當中發現規律,然後能夠輔助我們來做一些預測和決策。


機器學習分類

機器學習籠統地講可以分為三類:

1)有監督學習(supervised learning),是指每個樣本都有對應的期望值,然後通過搭建模型,完成從輸入的特徵向量到目標值映射,典型的例子是迴歸和分類問題;

2)無監督學習(unsupervised learning),是指在所有的樣本中沒有任何目標值,我們期望從數據本身發現一些潛在的規律,比如說做一些簡單的聚類;

3)增強學習(Reinforcement learning)相對來說比較複雜,是指一個系統和外界環境不斷地交互,獲得外界反饋,然後決定自身的行為,達到長期目標的最優化,其中典型的案例就是阿法狗下圍棋,或者無人駕駛。


瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?

機器學習興起的因素


最近幾年,機器學習比以前更火了,主要是三大因素:

第一個因素是數據的因素。互聯網上每天生成海量的數據,有圖像、語音、視頻、還有各類傳感器產生的數據,例如各種定位信息、穿戴設備;非結構化的文本數據也是重要的組成部分。數據越多,深度學習越容易得到表現好的模型。

第二個因素是大規模分佈式高性能計算能力的提升。這些年來,GPU高性能計算、分佈式雲計算等計算平臺迅猛發展,讓大規模的數據挖掘和數據建模成為可能,也為深度學習的飛躍創造了物質基礎。

第三個因素是指算法上的創新。隨著數據和計算能力的提升,算法本身也有了很大的進展,尤其在深度學習方面,譬如從腦神經學上得到的靈感,在激活函數上進行了稀疏性的處理,等等。

基於上述三點,人工智能又迎來了它的第二個春天。人工智能將以更快的速度進入我們的生產和生活中來,成為我們的眼睛,我們的耳朵,幫助我們更快捷地獲取信息,輔助我們做出決策。機器學習平臺產品也因此而產生,加速迭代過程,助力技術的發展。


機器學習平臺:PAI 平臺


瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?

主流機器學習平臺


阿里雲機器學習平臺是構建在阿里雲 MaxCompute(原 ODPS)計算平臺之上,集數據處理、建模、離線預測、在線預測為一體的機器學習平臺。阿里雲機器學習封裝了阿里巴巴集團內成熟的算法,向機器學習用戶提供了更簡易的操作體驗。

PAI 3.0 推出了全新的算法模型市場,涵蓋電商、社交、廣告、金融等多個行業,數十種場景的算法模型。同時還新增了流式算法組件、圖神經網絡、增強學習組件等平臺工具。

作為機器學習平臺的內核,PAI 的智能計算引擎進行了全面升級,通過編譯技術優化通用計算引擎,訓練性能提升 400%——PAI 團隊研發了深度學習編譯器 TAO(Tensor Accelerator and Optimizer),以通用化、平臺化的方式有效解決上層 Workload 與底層硬件計算單元之間高效映射的問題。

此外,在深度學習優化分佈式引擎方面,PAI 3.0 可以實現單任務支持上千 worker 併發訓練,並支持 5k+ 超大規模異構計算集群。

PAI 希望實現「用更少的硬件,支持更多業務更快完成業務迭代」。為了完成這個目標,團隊有針對性地研發了 GPU 分時複用技術。整套技術實現遵循了數據驅動的思想,包括實時在線性能數據反饋通路、細粒度 GPU 資源複用、虛擬顯存以及基於歷史數據的資源預估策略這幾個關鍵模塊。

此外,PAI 3.0 還發布了大規模圖神經網絡,緩存機制效率提升 40%,算子速度提升 12 倍,系統端建圖時間從數小時降至 5 分鐘。


人工智能學習平臺已然成為巨頭公司的必爭之地,感興趣的朋友可以深入研究下,還是有很多東西的,後面會分享更多Linux方面內容,感興趣的朋友可以關注下!

瞭解機器學習,先看看阿里雲機器學習平臺---PAI v3.0?



分享到:


相關文章: