大數據平臺之初體驗 | 網易猛獁

一、一句話介紹

一站式大數據管理和應用開發平臺,具有敏捷易用,成熟穩定,安全可靠,開放靈活的特點。


二、平臺架構

三、產品功能

1、大規模數據存儲與計算

支持不同的存儲方案和計算方案,靈活滿足客戶的需求。支持 HDFS、Hbase、Kudu 等從 GB 到 PB 級別的存儲方案,支持 Hive 和 MapReduce 等批量計算、Spark 內存計算、Kylin 多維分析、Impala 和流式計算(開源 Spark Streaming 和自研 Sloth)等計算方案,靈活滿足客戶的各類場景。


2、數據集成

支持全量離線接入和關係型數據庫和日誌的增量實時/準實時接入。

全量離線接入:將業務數據從各類數據源(MySQL、Oracle、PostgreSQL、MongoDB等)離線導入數據倉庫以及其他相關大數據環境,適用於對數據導入實時性要求不高以及靜態數據源的場景,例如將某業務上個月的所有數據導入數據倉庫用於數據分析。



關係型數據庫和日誌的增量實時/準實時接入:分別使用了自研的NDC系統和DataStream,將業務庫中增量數據和APP日誌實時導入到大數據環境,延遲可控制在秒級,適用於對數據導入實時性要求高,且業務快速增長的場景。

3、數據應用開發

提供SQL開發、依賴配置與調度管理、交互式查詢等,提高開發效率

傳統軟件的開發過程中,有大量豐富的軟件保證開發、調試、發佈等步驟井然有序地進行。從業人員的高素質和這些管理過程的工具保證了線上應用的高質量。但目前大數據商用軟件領域,很少有足夠好用的IDE來幫助企業構建數據應用。猛獁提供了SQL開發、依賴配置與調度管理、交互式查詢等,協助管理開發過程,提高開發效率。

4、數據管理

提供元數據管理,標準化企業內部的元數據定義

元數據管理的主要目標是標準化企業內部的元數據定義。而隨著數據依存度逐年增加,追蹤數據流動,瞭解數據含義和血緣關係越發困難。猛獁通過數據地圖、數據字典、數據血緣三個方面保證企業的元數據標準。同時對主題、維度、指標進行一致性定義和管理解決了數據生產過程中的質量問題。


5、數據安全

通過認證、授權、審計三個方面來保證數據安全

平臺採用Kerberos做用戶級別的認證。基於加密方法建立用戶(和系統)識別自己的方法,對個人通信以安全的手段進行身份認證,用戶和服務器都能驗證對方的身份。針對角色授權數據訪問。對HDFS、Hive等實現了統一的,細粒度的數據權限控制。從數據角度,可以查看當前何種角色有何種權限。從角色角度,可以查看對哪些數據有何種權限。審計提供較直觀事件跟蹤,包括實時監測對系統敏感信息的訪問和操作行為,根據規則設定報警並及時阻斷違規操作,收集並記錄用戶行為。


6、實時流計算

支持實時的數據接入,SQL開發流式計算任務,降低開發門檻

使用SQL開發流式計算任務,兼容離線SQL,可實時分析用戶的訪問數據,展示流量變化和用戶分佈情況。具備高可用(分佈式),高吞吐(1000w/s),低延遲(毫秒級),精準計算(Exactly-once)等特點,用戶可在猛獁平臺上調試和提交流SQL任務,為用戶節省技術方面(開發、運維)的投入,幫助用戶專注於解決產品本身的流計算需求。


四、應用場景

1、數據倉庫


數據集成、數據處理、數據模型設計、數據分層主題設計、數據質量、數據生命週期管理、數據血緣、數據統計等。

2、數據營銷

將所有日誌,用戶行為數據在平臺上進行離線調度和分析,在上億用戶人群裡面,精確的找到目標人群,進行資源營銷策略。

獲取原文PDF,歡迎私信我【網易】關鍵詞。