01.29 2. HIVE 基本操作

2020-01-29 18:46:00 洛鴻0920

2.1 create table

2.1.1 總述

l CREATE TABLE 創建一個指定名字的表。如果相同名字的表已經存在，則拋出異常；用戶可以用 IF NOT EXIST 選項來忽略這個異常。

l EXTERNAL 關鍵字可以讓用戶創建一個外部表，在建表的同時指定一個指向實際數據的路徑（LOCATION），Hive 創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建

外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。在刪除表的時候，內部

表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據。

l LIKE 允許用戶複製現有的表結構，但是不復制數據。 l 用戶在建表的時候可以自定義 SerDe 或者使用自帶的 SerDe。如果沒有指定 ROW

FORMAT 或者 ROW FORMAT DELIMITED，將會使用自帶的 SerDe。在建表的時候，用戶還

需要為表指定列，用戶在指定表的列的同時也會指定自定義的 SerDe，Hive 通過 SerDe

確定表的具體的列的數據。

l 如果文件數據是純文本，可以使用 STORED AS TEXTFILE。如果數據需要壓縮，使用 STORED AS SEQUENCE 。

l 有分區的表可以在創建的時候使用 PARTITIONED BY 語句。一個表可以擁有一個或者多個分區，每一個分區單獨存在一個目錄下。而且，表和分區都可以對某個列進行

CLUSTERED BY 操作，將若干個列放入一個桶（bucket）中。也可以利用 SORT BY 對數據進行排序。這樣可以為特定應用提高性能。

l 表名和列名不區分大小寫，SerDe 和屬性名區分大小寫。表和列的註釋是字符串。

目前在 hive 中常用的數據類型有:

BIGINT – 主要用於狀態,類別,數量的字段, 如

status/option/type/quantity

DOUBLE – 主要用於金額的字段, 如 fee/price/bid

STRING – 除上述之外的字段基本都使用 String, 尤其是 id 和日期時間這

樣的字段

2.1.3 基本例子

1、如果一個表已經存在，可以使用 if not exists

2、 create table xiaojun(id int,cont string) row format delimited fields terminated

by '\\005' stored as textfile;

terminated by：關於來源的文本數據的字段間隔符

如果要將自定義間隔符的文件讀入一個表，需要通過創建表的語句來指明輸入文件間隔符，

然後 load data 到這個表。

4、Alibaba 數據庫常用間隔符的讀取

我們的常用間隔符一般是 Ascii 碼 5，Ascii 碼 7 等。在 hive 中 Ascii 碼 5 用'\\005'表示，

Ascii 碼 7 用'\\007'表示，依此類推。

5、裝載數據

查看一下：Hadoop fs -ls

LOAD DATA INPATH '/user/admin/xiaojun/a.txt' OVERWRITE INTO TABLE xiaojun;

6、如果使用 external 建表和普通建表區別

A、指定一個位置，而不使用默認的位置。如：

create EXTERNAL table xiaojun(id int,cont string) row format delimited fields

terminated by '\\005' stored as textfile location '/user/admin/xiaojun/';

B、對於使用 create table external 建表完成後，再 drop 掉表，表中的數據還在文件系統

中。如：

hive> create EXTERNAL table xiaojun(id int,cont string) row format delimited

fields terminated by '\\005' stored as textfile;

hive> LOAD DATA INPATH '/user/admin/xiaojun' OVERWRITE INTO TABLE xiaojun;

hive> drop table xiaojun;

[admin@hadoop1 bin]$ ./hadoop fs -ls

hdfs://hadoop1:7000/user/hive/warehouse/xiaojun

Found 1 items

使用普通的建表 DROP 後則找不到

2.1.4 創建分區

HIVE 的分區通過在創建表時啟用 partition by 實現，用來 partition 的維度並不是實

際數據的某一列，具體分區的標誌是由插入內容時給定的。當要查詢某一分區的內容時可以

採用 where 語句，形似 where tablename.partition_key > a 來實現。

創建含分區的表。

命令原型：

CREATE TABLE page_view(viewTime INT, userid BIGINT,

page_url STRING, referrer_url STRING,

ip STRING COMMENT 'IP Address of the User')

COMMENT 'This is the page view table'

PARTITIONED BY(dt STRING, country STRING)

CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\\001'

外部表和內部表內部表由hive管理，外部表是hdfs管理，內部表存儲在hive/warehouse下，外部表存儲是在創建時用戶設置的，drop時，兩個表的元數據都會被刪除，外部表的表數據不被刪除，目錄文件還在。

6、如果使用external建表和普通建表區別A、指定一個位置，而不使用默認的位置。如：create EXTERNAL table xiaojun(id int,cont string) row format delimited fields terminated by '\\005' stored as textfile location '/user/admin/xiaojun/';B、對於使用create table external建表完成後，再drop掉表，表中的數據還在文件系統中。如：hive>create EXTERNAL table xiaojun(id int,cont string) row formatdelimited fields terminated by '\\005' stored as textfile; hive> LOADDATA INPATH '/user/admin/xiaojun' OVERWRITE INTO TABLE xiaojun; hive> drop table xiaojun; [admin@hadoop1bin]$ ./hadoop fs -ls hdfs://hadoop1:7000/user/hive/warehouse/xiaojunFound 1 items使用普通的建表DROP後則找不到版權聲明：

COLLECTION ITEMS TERMINATED BY '\\002'

MAP KEYS TERMINATED BY '\\003'

STORED AS SEQUENCEFILE;

查看錶名，部分匹配

SHOW TABLES 'page.*';

SHOW TABLES '.*view';

查看某表的所有 Partition，如果沒有就報錯：

SHOW PARTITIONS page_view;

查看某表結構：

DESCRIBE invites;

看分區內容

SELECT a.foo FROM invites a WHERE a.ds='2008-08-15';

查看有限行內容，同 Greenplum，用 limit 關鍵詞

SELECT a.foo FROM invites a limit 3;

查看錶分區定義

DESCRIBE EXTENDED page_view PARTITION (ds='2008-08-08');

2.5 Load

HIVE 裝載數據沒有做任何轉換加載到表中的數據只是進入相應的配置單元表的位置移

動數據文件。純加載操作複製/移動操作。

3.1 語法

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename

[PARTITION (partcol1=val1, partcol2=val2 ...)]

Load 操作只是單純的複製/移動操作，將數據文件移動到 Hive 表對應的位置。

• filepath 可以是： o 相對路徑，例如：project/data1

hdfs://namenode:9000/user/hive/project/data1

• 加載的目標可以是一個表或者分區。如果表包含分區，必須指定每一個分區的分區名。

• filepath 可以引用一個文件（這種情況下，Hive 會將文件移動到表所對應的目錄中）或者是一個目錄（在這種情況下，Hive 會將目錄中的所有

文件移動至表所對應的目錄中）。

• 如果指定了 LOCAL，那麼： o load 命令會去查找本地文件系統中的 filepath。如果發現是相對

路徑，則路徑會被解釋為相對於當前用戶的當前路徑。用戶也可以

為本地文件指定一個完整的 URI，比如：

file:///user/hive/project/data1.

o load 命令會將 filepath 中的文件複製到目標文件系統中。目標文件系統由表的位置屬性決定。被複制的數據文件移動到表的數據

對應的位置。

• 如果沒有指定 LOCAL 關鍵字，如果 filepath 指向的是一個完整的 URI，hive 會直接使用這個 URI。否則：

o 如果沒有指定 schema 或者 authority，Hive 會使用在 hadoop 配置文件中定義的 schema 和 authority，fs.default.name 指定

了 Namenode 的 URI。

o 如果路徑不是絕對的，Hive 相對於 /user/ 進行解釋。 o Hive 會將 filepath 中指定的文件內容移動到 table （或者

partition）所指定的路徑中。

• 如果使用了 OVERWRITE 關鍵字，則目標表（或者分區）中的內容（如果有）會被刪除，然後再將 filepath 指向的文件/目錄中的內容添加到表/

分區中。

• 如果目標表（分區）已經有一個文件，並且文件名和 filepath 中的文件名衝突，那麼現有的文件會被新文件所替代。

從本地導入數據到表格並追加原表

LOAD DATA LOCAL INPATH `/tmp/pv_2008-06-08_us.txt` INTO TABLE c02

PARTITION(date='2008-06-08', country='US')

從本地導入數據到表格並追加記錄

LOAD DATA LOCAL INPATH './examples/files/kv1.txt' INTO TABLE pokes;

從 hdfs 導入數據到表格並覆蓋原表

LOAD DATA INPATH

'/user/admin/SqlldrDat/CnClickstat/20101101/18/clickstat_gp_fatdt0/0'

INTO table c02_clickstat_fatdt1 OVERWRITE PARTITION (dt='20101201');

關於來源的文本數據的字段間隔符

如果要將自定義間隔符的文件讀入一個表，需要通過創建表的語句來指明輸入文件間隔符，

然後 load data 到這個表就 ok 了。

2.6 Insert

2.6.1 Inserting data into Hive Tables from queries

Insert 時，from 子句既可以放在 select 子句後，也可以放在 insert 子句前，下面兩句是

等價的

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar,

count(*) WHERE a.foo > 0 GROUP BY a.bar;

hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(*) FROM invites

a WHERE a.foo > 0 GROUP BY a.bar;

hive 沒有直接插入一條數據的 sql ，不過可以通過其他方法實現：假設有一張表 B 至少有一條數據，我們想向表 A（int，string）中插入一條數據，可以用下面的方法實現： from B insert table A select 1，'abc' limit 1；我覺得 hive 好像不能夠插入一個記錄，因為每次你寫 insert 語句的時候都是要將整個表的值overwrite。我想這個應該是與 hive 的 storage layer 是有關係的，因為它的存儲層是 HDFS，插入一個數據要全表掃描，還不如用整個表的替換來的快些。

mysql 也可以從一個表中查詢數據插入到另一個表中，也可以一條數據的插入

Hive 不支持一條一條的用 insert 語句進行插入操作，也不支持 update 的操作。數據是以 load的方式，加載到建立好的表中。數據一旦導入，則不可修改。要麼 drop 掉整個表，要麼建立新的表，導入新的數據。

分享到:

閱讀更多 洛鴻0920 的文章

關鍵字: Hadoop HDFS Hive

mysql的安裝--DBA--01

01 10分鐘全面搞定Anaconda的安裝和使用（windows環境）

01 百度paddlepaddle（windows安裝CPU,GPU）

01.新手入門vue之Hello World

Python動態交互系列(01)，不用改代碼，點點按鈕就可以完成

Flink實戰：01.創建項目結構

C++ 11 學習筆記(01)

雲計算學習體系-1.2-計算機網絡基礎-01-計算機網絡概述

單片機C心得【01】

Vue 01 —— Vue 入門小案例~記事本

阿里巴巴 29 個屌炸天的開源Java項目

Python 和 Java 基礎對比 01 -- 第一個程序“Hello World”

01.HTML：h p a標籤

03.04 React 01 -- 後端人員 React 知識點掃盲

自學Python-01 環境搭建

某教程學習筆記（一）：2、Linux基礎(Kali Linux 2020.01)

Vue入門指南-01 創建vue實例

01.Bootstrap

雷神眾測漏洞週報 2020.01.20-2020.02.02

01.數據結構

Python 之 MySql 每日一練 01

Python 算法 01--二分查找

bat-入門系列-01-變量

bat-windows共享文件夾-01-查看及創建共享

R語言實戰（第2版）：第三章圖形初階(01)

12.01 經驗之談 01: 泛談django開發小站

Visual Studio插件(01)

Flutter 你需要知道的那些事 01

TensorFlow 2.0 教程 01:基本圖形分類

Flutter 即學即用系列博客——01 環境搭建

29. 使用普通屬性而不是GET和SET方法

MySQL學習筆記No.01

Linux-Ubuntu常用快捷鍵-01

HotCRC未公開發布的高版本窮舉輸入規則(V3.01)

深入淺出gRPC：01 gRPC 入門及服務端創建和調用原理

吳恩達深度學習筆記(29)-神經網絡訓練的方差和偏差分析

算法設計系列-01

TX1-01:ubuntu常用命令on Jetson TX2

思科CCNP CCIE-29-BGP全互聯配置及詳解

Registry Cleaner Plus 2018破解版(win10註冊表清理工具）v3.01

Python指南：01 Python關鍵要素

6.29 社交零售快訊

01-MyBatis發展歷史及特點（面試常問跟Hibernate的區別在哪？）

linux基礎學習-01-計算機硬體組成與基本原理

01-MySQL優化系列之-掌握MySQL底層結構

【Zabbix】01、Zabbix 基礎

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"