前言
本書是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法一HiveQL來彙總、查詢和分析存儲在Hadoop分佈式文件系統上的大數據集合。全書通過大量的實例,首先介紹如何在用戶環境下安裝和配置Hive,並對Hadoop和MapReduce進行詳盡闡述,最終演示Hive如何在Hadoop生態系統進行工作。
大多數數據倉庫應用程序都是使用關係數據庫進行實現的,並使用SQL作為查詢語言。Hive降低了將這些應用程序轉移到Hadoop系統上的難度。凡是會使用SQL語言的開發人員都可以很輕鬆地學習並使用Hive。如果沒有Hive,那麼這些用戶就必須學習新的語言和工具,然後才能應用到生產環境中。另外,相比其他工具,Hive更便於開發人員將基於SQL的應用程序轉移到Hadoop中。如果沒有Hive,那麼開發者將面臨-一個艱鉅的挑戰,如何將他們的SQL應用程序移植到Hadoop.上。
不過,Hive和其他基於SQL的環境還是有一些差異的。 如今,可供Hive用戶和Hadoop開發者使用的文檔並不多,所以我們決定撰寫這本書來填補這個缺口。我們將對Hive 進行全面詳實的介紹,主要適用於SQL專家,如數據庫設計人員和業務分析師。我們也談到了深人的技術細節,可以幫助Hadoop開發人員對Hive進行調優和定製。
本書適合對大數據感興趣的愛好者以及正在使用Hadoop系統的數據庫管理員閱讀使用。
目錄
基礎知識
基礎操作
數據類型和文件格式
HiveQL:數據定義
HiveQL:數據操作
HiveQL:查詢
HiveQL:視圖
HiveQL:索引
模式設計
調優
其他文件格式和壓縮方法
開發
函數
Streaming
自定義Hive文件和記錄格式
Hive的Thrift服務
存儲處理程序和NoSQL
安全
鎖
Hive和Oozie整合
Hive和亞馬遜網絡服務系統(AWS)
HCatalog
案例研究
大數據Hive學習導圖
由於篇幅限制,在這裡就不展開介紹了,有興趣的小夥伴可以關注小編,私信回覆【學習】來領取全套書籍內容,另有小編整理好的Hive學習資料贈送哦~
閱讀更多 python全棧工程師 的文章