騰訊Angel亮相VLDB,攜全新Angel 2.0宣布加入LF深度學習基金會

北京時間8月27日,全球數據庫三大頂級會議之一——VLDB(Very Large Data Bases Conferences)在巴西里約熱內盧召開。騰訊AI開源項目Angel受邀參會,以workshop和展區的形式,向全球頂尖數據專家展示騰訊在大數據挖掘和數據庫管理的研究成果。

同時,Angel正式宣佈加入LF深度學習基金會,並將發佈達萬億級維度特性計算的Angel 2.0。結合基金會成熟的運營,全面升級的Angel 2.0將與國際開源社區繼續深入互動,致力於讓機器學習技術更易於上手研究及應用落地的目標。

騰訊Angel亮相VLDB,攜全新Angel 2.0宣佈加入LF深度學習基金會

來自TEG數據平臺部的Angel首席開發工程師肖品提到:“Angel作為一個分佈式機器學習平臺,能夠在萬億級的特徵維度條件下運行多種機器學習算法,這是開源系統在面對高維度的模型訓練時性能表現不佳現狀的一個的重大的突破,很高興Angel能以其在推薦領域的成熟表現,獲得Linux深度學習基金會的青睞。”

Angel項目網址:https://github.com/Angel-ML/angel

是騰訊首個AI開源項目,由TEG數據平臺部自主研發,正式開源於2017年6月。

它是一個基於參數服務器(ParameterServer)理念的高性能分佈式機器學習平臺,在騰訊內部廣泛應用於騰訊視頻推薦、微信內容推薦、廣點通點擊率預估等業務場景。

它採取將高維度大模型合理切分到多個參數服務器節點的核心設計,結合高效的模型更新接口、運算函數及靈活的同步協議,輕鬆實現機器學習算法的效率提升。Angel具有廣泛的適用性和穩定性,模型維度越高時,平臺便有越明顯的優勢。進入Angel2.0,憑藉參數服務器的支持,Angel可以輕鬆擴展到千億級維度特性。同時,通過全面優化的算法,Angel 2.0將pull/push子模型引入高維模型,在支持以高維度模型為代表的高性能數學庫上,展現出優異的性能。

在兼容方面,Angel基於 Java 和 Scala開發,通過Yarn進行調度運行,提供了豐富的優化方法和機器學習算法實現。配套PS Service,Angel支持Spark 或其它圖計算、深度學習框架。

而Angel 2.0在深度學習的支持上也做出重要優化,如對DeepFM,PNN,Wide&Deep,NFM等常見深度學習框架的全面兼容,以及支持用戶通過Json定義的網絡。

騰訊Angel亮相VLDB,攜全新Angel 2.0宣佈加入LF深度學習基金會

目前Angel在GitHub上擁有3500的Star數,超過900的Fork數及1000多Commits,在國內外開源社區一直處於活躍水平。來自小米、華為、新浪微博的工程師都曾參與Angel的開發,貢獻了高質量的代碼,還有海外人士志願參與Angel英文文檔建設,助力項目走向國際化。

加入LF深度學習基金會後,Angel將更加註重貢獻者的成長和社區的建設,在最新發布的Angel的技術憲章(Technical Charter)中,對項目的社區化管理作了明確的說明,未來該項目將由項目指導委員會 (TSC)規劃技術方向,並通過投票做出特性發布、工作流程、貢獻者晉升等重要決策。目前TSC成員由項目原始開發人員組成,參與重大優化或特性開發的貢獻者也有望成為項目的TSC成員。

對於此次Angel正式加入LF深度學習基金會,Linux深度學習基金TAC委員、騰訊開源辦公室代表朱曉龍表示:“Angel和Linux深度學習基金會的目標是一致的:讓機器學習及深度學習變得更易於實施和使用。加入Linux深度學習基金會運作後之後,Angel會更加註重社區互動,不斷積累用戶案例、擴充使用場景、積極探索與其它公司的合作,提供更為一致性、連續性的操作體驗,降低進入深度學習應用程序部署和發展的門檻。”

Angel是騰訊AI技術與國際AI研究的連接器。通過Angel,騰訊將建設一個能讓用戶快速、輕鬆建立有大規模計算能力的機器學習平臺,賦予國際AI社區更大的活力,助力中國,乃至世界AI技術的迭代與發展。

Angel 2.0 特性介紹:

1. 萬億級維度特性計算

a)基於參數服務器,Angel可以輕鬆擴展到萬億級維度的模型

b)針對稀疏大模型的場景, Angel對底層數數學庫進行了做了優化

c)Angel上的算法通過pull/push子模型, 輕鬆訓練萬億級維度的模型

2.高性能數學庫

a)無泛型設計, 採用Java基礎數據類型來加速計算

b)使用快速哈希方法,加速稀疏向量/矩陣運算

c)Long-Key索引和Compoent量向量/矩陣的引入, 使Angel支持超大模型

d)Execotor-Expression架構使其基礎運算高效且易於擴展

3.計算圖支持

a)基於層的輕量計算圖

b)自動計算梯度

c)易於添加層以擴展系統

d)開箱即用的特徵交叉層,有利於推薦系統算法開發

e)Angel和Spark on Angel共享統一的計算圖

4.深度學習支持

a)推薦系統中常見的深度學習算法,如Deep And Wide, DeepFM,PNN,PNN,NFM都已支持

b)用戶可以通過Json定義的網絡

騰訊開源管理辦公室職責說明:

騰訊開源辦公室負責制訂騰訊開源相關政策,培訓開發人員,確保合法合規,促進和建立開源治理規範,提供有關公司內外所有開源資源的宣傳和溝通,保障騰訊開源活動符合公司利益,以及國家、行業相關法律法規的要求,具體包括:

1. 制訂和完善騰訊開源治理的策略和規範;

2. 清楚地傳達公司內外的開源策略,在組織內培養開源文化;

3. 維護開源許可、開源專利、知識產權等合規審查和監督;

4. 促進商業產品和服務中開源的有效使用;

5. 確保代碼向開源社區的高質量和一定頻率發佈;

6. 與國內外開源社區合作,促進公司有效地回饋其他項目;

7. 開展“騰訊開源”品牌建設和媒體傳播。


分享到:


相關文章: