03.01 Hive WordCount實現示例_技术 _ 頭條網

1. 啟動metastore服務

<code> ./hive --service metastore &/<code>

2. 建表

創建一個行表，用於存儲foobar.txt文件中的每行句子。

<code>create table tbl_line(line string) row format delimited fields terminated by '\\n';/<code>

3. 加載數據

將文件數據加載到hive表中。

<code>echo "Hadoop Common\\nHadoop Distributed File System\\nHadoop YARN\\nHadoop MapReduce " > /tmp/foobar.txt/<code>

<code>hive> load data local inpath '/tmp/foobar.txt' into table tbl_line;/<code>

加載的數據會放到Hadoop中/data/hive/warehouse/test.db目錄下，/data/hive/warehouse是hive-site.xml配置的hive.metastore.warehouse.dir值, test是數據庫名稱, tbl_line是表名。

4. HQL

根據MapReduce方式我們需要將每行句子拆分成獨立的單詞，然後對單詞彙總。

split(字符串，分割符) 函數：用於分割字符串, 返回一個數組explode(數組)函數：將數組中的每個元素展開成列

<code>hive> select split("hello world", " ") from tbl_line limit 1;OK["hello","world"]hive> select * from tbl_line;OKHadoop CommonHadoop Distributed File SystemHadoop YARNHadoop MapReduce# 將每行句子分割成每個單詞數組hive> select split(line, " ") from tbl_line;OK["Hadoop","Common"]["Hadoop","Distributed","File","System"]["Hadoop","YARN"]["Hadoop","MapReduce",""]hive> select explode(split(line, " ")) from tbl_line;OKHadoopCommonHadoopDistributedFileSystemHadoopYARNHadoopMapReduce/<code>

<code># 創建一個單詞表hive> create table tbl_word(word string);# 將每一行句子拆分成每個單詞插入到表中hive> insert into table tbl_word select explode(split(line, " ")) as word from tbl_line;hive> select * from tbl_word;OKHadoopCommonHadoopDistributedFileSystemHadoopYARNHadoopMapReducehive> select word, count(*) as count from tbl_word group by word order by count desc;/<code>

使用Hadoop MapReduce需要寫代碼，然後執行jar包。使用Hive只需要寫HQL就可以了。相比之下使用Hive SQL更簡便。

5. 異常

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient./hive --service metastore &Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat; 此異常是最常見的異常，這裡列舉出現此異常的幾個原因：有可能是hql語法有錯誤，確保語法是正確。hadoop 中lib/native有問題，把lib重命名成lib2，然後重啟hadoop，再執行hive sql就好了，相當於不使用原生庫了lib/native。不使用原生庫hadoop就會報警告 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable ，先不用管這個警告。

1. 啟動metastore服務

2. 建表

3. 加載數據

4. HQL

使用Hadoop MapReduce需要寫代碼，然後執行jar包。使用Hive只需要寫HQL就可以了。相比之下使用Hive SQL更簡便。

5. 異常

相關文章:

Hadoop數據倉庫框架-Hive v3.1.2系統架構

hive複雜結構之array,map,struct

三分鐘讀懂hadoop、hbase、hive、spark分佈式系統架構

Hive 熱門數據分析面試題解析

數倉就這麼難嗎？那你可能是缺這兩個：HBase+Hive

《大數據分析教程-Hive》

Hive SQL基本使用詳解

03.05 Hive SQL基本使用詳解

03.04 Hive 基礎知識大補

03.01 Hive JDBC操作

01.29 Hive 用戶指南 v1.0

01.29 2. HIVE 基本操作

優化 Hive ETL 任務(參數篇)

01.18 優化 Hive ETL 任務(參數篇)

大數據 Hive 筆記大全 收藏+轉發+關注

java JDBC連接Impala（impala使用一篇解決）

60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.24 60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.20 Hive 和 Impala的比較

11.24 美團 MySQL 數據實時同步到 Hive 的架構與實踐

Hive 自定UDF函數，生成 32 位隨機數

Hadoop 生態之 MapReduce 及 Hive 簡介

hive的窗口函數

hive 基礎SQL

hive on spark,spark sql 對比測試結果相差很大

知道hive的這些ddl和dml操作語句，離從一個小白變大神就不遠了

【HIVE】不會Java也能操作Hadoop，常用HQL語句，收藏就是賺了。

【HIVE】程序員不會大數據Hadoop？你會SQL語句就學會一半了。

hive日期函數

Apache Hive 聯邦查詢（Query Federation）

Hive 體系

基於 Hive UDF 的機器學習算法工具 Apache Hivemall 薦

一個數據倉庫時代開始——Hive

09.03 我自己總結的Pandas數據分析庫的使用技巧（簡潔）

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等，都要認真學習

了解hive的默認資料庫：default資料庫

hive分桶表創建表導入數據和刪除數據操作

hive的分桶概念和數據導入

執行hive存儲過程的hplsql的下載和安裝

SQL使得Hive和SparkSQL使用存儲過程

執行Hive存儲過程的hplsql命令行使用方法

hadoop上gz壓縮格式文件加載到hive表：數據分析87篇

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

大數據 Hive 筆記大全收藏+轉發+關注

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪