Hadoop數據倉庫框架Hive快速入門-導入數據的幾種方式技术頭條網

Hadoop數據倉庫框架Hive快速入門-導入數據的幾種方式

2020-04-19 09:47:03 軟件架構

一、使用Insert...Values語句寫入數據

之前主要使用的是關係數據庫，那麼寫入數據最先想到的就是Insert語句了，在Hive中也可以使用Insert語句來寫入數據。假設需要向usr表中寫入5條數據，可以執行下面的步驟。

獲取更多Hadoop、HDFS、HBase、MapReduce、YARN、Hive等等技術內容，可訪問Hadoop大數據技術專欄。

1. 創建表usr

create table if not exists usr(id bigint, name string, age int);

2. 插入數據記錄

insert into usr values(1, 'Rickie', 20);

正常可以看到下面的結果輸出，說明在執行insert...values語句時，底層是在執行MapReduce作業。

hive> insert into usr values(1, 'Rickie', 20);

Query ID = root_20200417224331_a548ce6c-11a9-43ab-b69d-72e25ccf61a6

Total jobs = 3

Launching Job 1 out of 3

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

set mapreduce.job.reduces=<number>

2020-04-17 22:43:34,859 INFO [657c332f-62f7-4e48-a39a-c3566fc973ad main] client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032

2020-04-17 22:43:35,431 INFO [657c332f-62f7-4e48-a39a-c3566fc973ad main] client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032

Starting Job = job_1587134165758_0001, Tracking URL = http://centos-103:8088/proxy/application_1587134165758_0001/

Kill Command = /usr/local/hadoop/hadoop-3.1.2/bin/mapred job -kill job_1587134165758_0001

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

2020-04-17 22:44:22,737 Stage-1 map = 0%, reduce = 0%

2020-04-17 22:44:34,910 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 2.4 sec

2020-04-17 22:44:47,879 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 4.47 sec

MapReduce Total cumulative CPU time: 4 seconds 470 msec

Ended Job = job_1587134165758_0001

Stage-4 is selected by condition resolver.

Stage-3 is filtered out by condition resolver.

Stage-5 is filtered out by condition resolver.

Moving data to directory hdfs://centos-103:9000/user/hive/warehouse/hivedb.db/usr/.hive-staging_hive_2020-04-17_22-43-31_459_2394264050809447103-1/-ext-10000

Loading data to table hivedb.usr

MapReduce Jobs Launched:

Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 4.47 sec HDFS Read: 16630 HDFS Write: 273 SUCCESS

Total MapReduce CPU Time Spent: 4 seconds 470 msec

Time taken: 78.64 seconds

訪問Spring Cloud技術專欄，瞭解更多的技術細節和項目代碼。

3. 查看數據

此時，在windows上使用HDFS的WebUI，通過 Utilities-->Browse the file system 進入到 /user/hive/warehouse/hivedb.db/usr 目錄下，可以看到數據庫文件：000000_0。

可以進一步查看文件中的內容，就是前面通過insert...values命令插入的數據記錄。

再次執行insert語句，然後使用select語句，可以輕鬆查看到寫入的內容：

hive> insert into usr values(1, 'Rickie', 20),

> (2, 'Bill gates', 55),

> (3, 'Jack ma', 50);

select * from usr;

再次進入webUI，刷新瀏覽器，會看到目錄變成了如下這樣：

每次執行Insert語句（底層執行MapReduce任務）都會生成獨立的數據文件。對於HDFS來說，優勢是存儲少量大文件，不是存儲大量小文件。

獲取更多Elasticsearch設計細節和演示項目源代碼，可訪問Elasticsearch 7.x 技術專欄。

二、使用Load語句寫入數據

除了使用insert語句以外，還可以通過load語句來將文件系統的數據寫入到數據庫表中。刪除剛才創建的表，然後使用下面的語句重新創建：

create table if not exists usr(id bigint, name string, age int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';

上面最重要的一句就是ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'，說明表的字段由符號“|”進行分隔。

然後準備要導入的文件：usr.data。

1|李先森|18

2|馬大大|66

3|不靠譜先生|78

6|黑娃6|36

因為usr.data中包含有中文，確保文件格式是utf-8（GB2312導入後會有亂碼）。

在vim中直接進行轉換文件編碼，比如將一個文件轉換成utf-8格式，命令如下：

:set fileencoding=utf-8

查看文件編碼file命令

file data/usr.data

然後執行下面的命令進行導入：

load data local inpath '/root/data/usr.data' into table usr;

你會發現使用load語句寫入數據比insert語句要快許多倍，因為Hive並不對scheme進行校驗，僅僅是將數據文件挪到HDFS系統上，也沒有執行MapReduce作業。所以從導入數據的角度而言，使用load要優於使用insert...values。

三、使用Insert ... Select語句寫入數據

使用insert...select語句將數據從usr錶轉移到person表：

insert into table person select * from usr;

注意：insert...select語句底層也會執行一個MapReduce作業，速度會比較慢。

至此，關於Hive讀時模式（schema on read），以及使用命令行對Hive進行數據導入的介紹就到這裡了。

四、查看Hive的執行計劃：

hive> explain insert into usr values(1, 'Rickie', 22);

Hive的執行要轉化成若干步map-reduce的過程，而且可能要在多個節點間通信，所以即便很少的數據可能也是費了半天勁才執行出來的。也就是說Hive是為了處理大數據的，對於小數據的處理並不是優勢。

分享到:

閱讀更多 軟件架構 的文章

關鍵字: Hadoop HDFS Hive

Hadoop數據倉庫框架Hive快速入門-導入數據的幾種方式

一、使用Insert...Values語句寫入數據

二、使用Load語句寫入數據

三、使用Insert ... Select語句寫入數據

四、查看Hive的執行計劃：

相關文章:

乾貨：數據倉庫、OLAP和 數據挖掘、統計分析的關係和區別分析

Apache Doris 百度自研的交互式 SQL 數據倉庫--集群安裝

inmon & kimball 數據倉庫&數據集市（2）應用

亞馬遜的 Snowflake 數據倉庫，比阿里OceanBase強悍嗎？

數據倉庫-拉鍊表

10.17 數據庫的升級版：數據倉庫

「深度好文」辨析BI、數據倉庫、數據湖和數據中臺內涵及差異點

數據倉庫-parquet分區取代hive分區

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

乾貨：數據倉庫、OLAP和數據挖掘、統計分析的關係和區別分析

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？