一、一句話介紹
一站式大數據管理和應用開發平臺,具有敏捷易用,成熟穩定,安全可靠,開放靈活的特點。
二、平臺架構
三、產品功能
1、大規模數據存儲與計算
支持不同的存儲方案和計算方案,靈活滿足客戶的需求。支持 HDFS、Hbase、Kudu 等從 GB 到 PB 級別的存儲方案,支持 Hive 和 MapReduce 等批量計算、Spark 內存計算、Kylin 多維分析、Impala 和流式計算(開源 Spark Streaming 和自研 Sloth)等計算方案,靈活滿足客戶的各類場景。
2、數據集成
支持全量離線接入和關係型數據庫和日誌的增量實時/準實時接入。
全量離線接入:將業務數據從各類數據源(MySQL、Oracle、PostgreSQL、MongoDB等)離線導入數據倉庫以及其他相關大數據環境,適用於對數據導入實時性要求不高以及靜態數據源的場景,例如將某業務上個月的所有數據導入數據倉庫用於數據分析。
關係型數據庫和日誌的增量實時/準實時接入:分別使用了自研的NDC系統和DataStream,將業務庫中增量數據和APP日誌實時導入到大數據環境,延遲可控制在秒級,適用於對數據導入實時性要求高,且業務快速增長的場景。
3、數據應用開發
提供SQL開發、依賴配置與調度管理、交互式查詢等,提高開發效率
傳統軟件的開發過程中,有大量豐富的軟件保證開發、調試、發佈等步驟井然有序地進行。從業人員的高素質和這些管理過程的工具保證了線上應用的高質量。但目前大數據商用軟件領域,很少有足夠好用的IDE來幫助企業構建數據應用。猛獁提供了SQL開發、依賴配置與調度管理、交互式查詢等,協助管理開發過程,提高開發效率。
4、數據管理
提供元數據管理,標準化企業內部的元數據定義
元數據管理的主要目標是標準化企業內部的元數據定義。而隨著數據依存度逐年增加,追蹤數據流動,瞭解數據含義和血緣關係越發困難。猛獁通過數據地圖、數據字典、數據血緣三個方面保證企業的元數據標準。同時對主題、維度、指標進行一致性定義和管理解決了數據生產過程中的質量問題。
5、數據安全
通過認證、授權、審計三個方面來保證數據安全
平臺採用Kerberos做用戶級別的認證。基於加密方法建立用戶(和系統)識別自己的方法,對個人通信以安全的手段進行身份認證,用戶和服務器都能驗證對方的身份。針對角色授權數據訪問。對HDFS、Hive等實現了統一的,細粒度的數據權限控制。從數據角度,可以查看當前何種角色有何種權限。從角色角度,可以查看對哪些數據有何種權限。審計提供較直觀事件跟蹤,包括實時監測對系統敏感信息的訪問和操作行為,根據規則設定報警並及時阻斷違規操作,收集並記錄用戶行為。
6、實時流計算
支持實時的數據接入,SQL開發流式計算任務,降低開發門檻
使用SQL開發流式計算任務,兼容離線SQL,可實時分析用戶的訪問數據,展示流量變化和用戶分佈情況。具備高可用(分佈式),高吞吐(1000w/s),低延遲(毫秒級),精準計算(Exactly-once)等特點,用戶可在猛獁平臺上調試和提交流SQL任務,為用戶節省技術方面(開發、運維)的投入,幫助用戶專注於解決產品本身的流計算需求。
四、應用場景
1、數據倉庫
數據集成、數據處理、數據模型設計、數據分層主題設計、數據質量、數據生命週期管理、數據血緣、數據統計等。
2、數據營銷
將所有日誌,用戶行為數據在平臺上進行離線調度和分析,在上億用戶人群裡面,精確的找到目標人群,進行資源營銷策略。
獲取原文PDF,歡迎私信我【網易】關鍵詞。