阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

前言

阿里巴巴智能服務事業部數據開發專家。大數據踐行者,致力於通過數據和算法的智能化來賦能商業與社會,擁有十餘年大數據一線實戰經驗,尤其對於智能化產品的大數據開發、架構和未來數據產品設計有豐富經驗及深入認識。對Hadoop離線數據開發技術、流計算實時開發技術、大數據開發優化以及大數據建模等有較為深入的研究。

阿里巴巴大數據開發專家撰寫,源於十餘年工作實踐,只講實用有效的“招式”;

庖丁解牛式講解離線和實時開發平臺架構、原理實現、開發示例,涵蓋查詢與優化、建模、數倉開發、流計算開發等核心技術。


阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

離線和實時大數據開發實戰內容,全篇內容分為三篇,共12章,由於內容實在是太多了,所以小編只把部分知識點截圖出來粗略的介紹一下,每個小節都有更加細化的內容。

第一篇為數據大圖和數據平臺大圖(第1章和第2章),主要站在全局的角度,基於數據、數據技術、數據相關從業者和角色、離線和實時數據平臺架構等給出整體和大圖形式的介紹。

第1章站在數據的全局角度,對數據流程以及流程中涉及的主要數據技術進行介紹,還介紹了主要的數據從業者角色和他們的日常工作內容,使讀者有個感性的認識。

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

第2章是本書的綱領性章節, 站在數據平臺的角度,對離線和實時數據平臺架構以及相關的各項技術進行介紹。同時給出數據技術的整體骨架,後續的各章將基於此骨架,具體詳述各項技術。

第二篇為離線數據開發:大數據開發的主戰場(第3~ 7章),離線數據是目前整個數據開發的根本和基礎,也是目前數據開發的主戰場。這-部分詳細介紹離線數據處理的各種技術。

第3章詳細介紹離線數據處理的技術基礎HadoopMapReduce和HDFS。本章主要從執行原理和過程方面介紹此項技術,是第4章和第5章的基礎。

第4章詳細介紹 Hive。Hive 是目前離線數據處理的主要工具和技術。本章主要介紹Hive的概念、原理、架構,並以執行圖解的方式詳細介紹其執行過程和機制。

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

第5章詳細介紹 Hive的優化技術,包括數據傾斜的概念、join 無關的優化技巧、join相關的優化技巧,尤其是大表及其join操作可能的優化方案等。

第6章詳細介紹數據的維度建模技術,包括維度建模的各種概念、維度表和事實表的設計以及大數據時代對維度建模的改良和優化等。

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

第7章主要以虛構的某全國連鎖零售超市FutureRetailer為例介紹邏輯數據倉庫的構建,包括數據倉庫的邏輯架構、分層、開發和命名規範等,還介紹了數據湖的新數據架構。

第三篇為實時數據開發:大數據開發的未來(第8~ 12章),主要介紹實時數據處理的各項技術,包括Storm、Spark Streaming、Flink、 Beam以及流計算SQL等。

第8章詳細介紹 分佈式流計算最早流行的Storm技術,包括原生Storm以及衍生的Trident框架。

第9章主要介紹 Spark生態的流數據處理解決方案Spark Streaming, 包括其基本原理介紹、基本API、可靠性、性能調優、數據傾斜和反壓機制等。寓第10章主要介紹流計算技術新貴Flink技術。Flink兼顧數據處理的延遲與吞吐量,而且具有流計算框架應該具有的諸多數據特性,因此被廣泛認可為下一代的流式處理引擎。

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

第11章主要介 紹Google力推的Beam技術。Beam 的設計目標就是統一離線批處理和實時流處理的編程範式,Beam抽象出數據處理的通用處理範式BeamModel,是流計算技術的核心和精華。

第12章主要結合 Flink SQL和阿里雲Stream SQL介紹流計算SQL,並以典型的幾種實時開發場景為例進行實時數據開發實戰。

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

實時數據平臺的整體架構大圖

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

主流流計算技術對比

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

專家點評

阿里機器學習算法大集結

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法


阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法


阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法


阿里十年大數據專家實踐經驗分享:離線和實時大數據分析和算法

阿里離線和實時大數據分析和算法技術文檔到此為止,小編已經全部整理完了,需要的小夥伴就可以轉發此文關注小編,私信小編“學習”來得到獲取方式吧~~~


分享到:


相關文章: