12.14 美團點評基於 Apache Flink 的實時數倉平臺實踐

演講:魯昊 美團點評高級技術專家

更多大數據架構、實戰經驗,歡迎關注【大數據每日嗶嗶】,期待與你一起成長!

實時計算演進與業務實踐










基於Flink的實時數倉平臺


傳統數倉:(業務、日誌)數據存儲在 HDFS 上,一般分這幾層:ods/dwd/dws/dm,其中dm層的數據會導出到 olap、rds、kv數據庫中供業務方使用。ad-hoc查詢的數據來源一般來自 ods層或dw層,ad-hoc的查詢引擎為 hive/spark/presto。

實時數倉:也是基於分層的模型ods/dwd/dws/,業務數據和日誌數據,事實數據存儲在 kafka中,維度數據存儲在 Hbase/Tair 中,dm層的數據最終導出到 mq/olap/rds/kv中。ad-hoc 查詢基於 Flink 來做。(都是流動的數據)


在前兩者之間,還有一種準實時的數倉模型。準實時也就是不那麼實時
ods 層的數據放在 kafka 中,dws/dwd/dm 都是在 olap 中來做,基於olap的計算能力進一步加工。dim表存儲在 Hbase 中。ad-hoc查詢基於 olap 來做。






未來發展與思考