助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

許多大型企業都有結構化大數據,圍繞大數據,大型互聯網企業和初創企業“百家爭鳴”,各家同質應用競爭日益激烈,服務範圍涵蓋大數據應用、硬件、技術等,隨著數據爆炸性增長,為了幫助企業將數據能力與業務結合,提升效率、降低成本乃至最終提升盈利能力,業務部門亟需利用線上實時反饋數據輔助決策支持以提高服務水平,大數據的統一正成為使用傳統方法管理的難題。而Alluxio在大數據系統性能提升以及生態系統多組件整合的進程中扮演著重要角色。

8月11日,京東大數據聯合京東大學舉辦的“數說科技”第三期,以《Alluxio: 超大規模分佈式存儲的變革》為主題,邀請到了TalkingData、陌陌,與京東大數據團隊展開了針對Alluxio技術在三家的應用進行了分享探討,此次技術沙龍為“數說科技”活動首次全部面向外部開放報名名額,旨在讓技術無公司界限,所有相關人員都能得到技術分享並共同進步。

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

Alluxio大數據存儲系統源自於UC Berkeley AMPLab,目前由Alluxio公司在開源社區主導開發,它是世界上第一個以內存為中心的虛擬的分佈式存儲系統,並將多樣化的上層計算框架和底層存儲系統連接起來,統一數據訪問方式,為用戶提供了多級數據存儲策略,支持內存、SSD、機械盤在內的多種存儲介質。它能夠針對不同的計算框架與任務特點,分別配置數據源和存儲資源,將多樣化的上層計算框架和底層存儲系統進行連接,應用程序只需要連接到Alluxio就可以訪問存儲在任何底層存儲系統中的數據,實現在不同的計算框架間高速有效地實現數據共享和管理。此外,Alluxio提供的層次化存儲、統一命名空間、世系關係、靈活的文件API、網頁UI以及命令行工具等特性也方便了用戶在不同實際應用場景下的使用。

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

TalkingData ,不同用途達成多場景解決方案

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

TalkingData研發副總裁 閻志濤

TalkingData從2014年開始構建自己的大數據平臺,公司數據進行統一管理以方便進行數據探索,開發數據產品,目前每天處理新增數據超過20T。

初期TalkingData採用了更有發展前景、速度更快的Spark而非主流的Hive和MapReduce作為計算框架,但是,隨著數據的增加,Spark從磁盤去讀取最近期的數據進行計算再將結果寫回到磁盤的過程開始不能滿足實際情況,於是便引進了Alluxio。

Alluxio在TalkingData的最初使用場景是作為分佈式的緩存,在存放熱數據的過程中,解決了異構存儲問題,統一了文件存儲接口。這不僅開發簡單,讓數據更便於管理和維護,方便了未來存儲的擴充,還滿足了多個應用服務器可以通過Alluxio訪問HDFS,隔離了異構存儲的區別,使對外接口統一,解決並提升了數據計算性能問題,實現靈活的訪問控制。

京東,提升10倍查詢性能助力10億消費者

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

京東大數據平臺分佈式存儲負責人 毛寶龍

京東大數據平臺是一個開放、安全、智能的平臺。HDFS作為分佈式存儲,是大數據平臺的基礎,此外,京東大數據平臺提供了可視化管理和監控系統,可以方便、快捷地定位集群問題。目前,平臺上擁有超過4萬臺服務器,每天處理超過100萬任務,數據總量超過450個PB,而且以每天800TB+的規模進行增長。這些強大的數據、數據處理內容,幫助我們在豐富的場景下實現了諸多相關的智能應用。

目前,Alluxio 作為容錯可插拔的優化組件,應用於京東體系內諸多計算框架,利用Alluxio優秀的緩存能力為ADHOC和實時流計算框架提供很好的支撐,降低集群對於網絡消耗的依賴,同時,JDPresto on Alluxio已經在京東生產環境上線100臺節點,覆蓋從商城APP到微信手Q,到離線數據分析平臺,使查詢性能提升10倍以上,幫助京東千萬商家和10億消費者提供更加精準的營銷和用戶體驗,幫助大家多快好省。

另外,京東也為Alluxio社區做出了許多貢獻,京東大數據團隊深度參與了RBF 開源版本的開發,為DBMS、Quota、掛載點處理邏輯方面貢獻了很多補丁,完成了一些重要Bug的修復和測試。

陌陌,優化開銷 3~5 倍解決大規模輸入場景

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

陌陌數據基礎架構總監 金曉燁

Alluxio在陌陌大數據架構中作為緩存層存儲, 服務於 Spark, Tez, MR(Hive)全部計算引擎的 Ad-hoc 查詢加速, 並計劃在解決好數據安全與權限管理後, 推廣服務於核心 ETL 數據生產任務, 目前部署節點 879 臺, 單節點內存配置 72G, 總計提供 60T 的內存文件存儲服務。

使用 Alluxio 後相比線上綜合環境優化開銷 3~5 倍, 相較獨立 Spark 有1.5~3倍時間開銷優化。純RAM帶來提升和 HDD 沒有量級上提升, 可考慮用 Alluxio HDD 減少集群搭建成本。在某些小規模輸入場景下,Spark模式和Alluixo模式取得了相近甚至優於Alluxio模式的時間開銷, 這主要由於Spark具有自身的內存緩存管理機制。但是一旦緩存數據量超過了JVM的內存,Spark就不能保持相應的性能效果了,而Alluxio由於使用了堆外內存技術所以不受相應限制。

助力存儲成本優化TalkingData、京東、陌陌共同探討Alluxio的應用

綜上所述,Alluxio是第一個將大數據統一起來的存儲虛擬化技術,它的獨特之處在於底層存儲的集成是通過配置完成而不是通過ETL進行,並且數據駐留在它的源系統中,有效地消除了陳舊的數據。

在大數據時代,使用數據核心依賴的技術就是計算和存儲。Alluxio將更多的數據遷移到低成本的存儲中,並且提供快速本地訪問重要且頻繁使用的數據,從而允許企業優化存儲成本。所有的這些都是在可擴展的、安全和容錯的分佈式系統中實現的。作為領先的開源存儲相關的開源項目,相信Alluxio能夠在越來越多的公司的不同的場景中產生價值真正解決業務相關的問題。


分享到:


相關文章: