大數據 Hive 筆記大全收藏+轉發+關注

2020-01-04 19:05:11 JackYang1993

Apache Hive

一、概述

數據倉庫：英文名稱為Data Warehouse，可簡寫為DW或DWH。數據倉庫，是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。

Apache Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，並提供簡單的類sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive定義了簡單的類 SQL查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。Hive 沒有專門的數據格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允許用戶指定數據格式。

Note

ETL：大數據中的一個專業術語， E: Extract（抽取） T：Transfer（轉換） L：Load（加載）

ETL指的是從數據源到數據倉庫的處理過程, E：將數據源中的數據按照一些規則提取出來關鍵某些數據，T：將數據做一些簡單格式轉換，存放在數據倉庫的臨時表中，L：將臨時表中的數據按照業務需求裝載到數據倉庫的業務表中；

適用場景

Hive 構建在基於靜態批處理的Hadoop 之上，Hadoop 通常都有較高的延遲並且在作業提交和調度的時候需要大量的開銷。因此，Hive 並不能夠在大規模數據集上實現低延遲快速的查詢，例如，Hive 在幾百MB 的數據集上執行查詢一般有分鐘級的時間延遲。因此，Hive 並不適合那些需要低延遲的應用，例如，聯機事務處理（OLTP）。Hive 查詢操作過程嚴格遵守Hadoop MapReduce 的作業執行模型，Hive將用戶的HiveQL 語句通過解釋器轉換為MapReduce 作業提交到Hadoop 集群上，Hadoop 監控作業執行過程，然後返回作業執行結果給用戶。Hive並非為聯機事務處理而設計，Hive並不提供實時的查詢和基於行級的數據更新操作。Hive的最佳使用場合是大數據集的批處理作業，例如，網絡日誌分析。

特點

Hive 是一種底層封裝了Hadoop 的數據倉庫處理工具，使用類SQL 的HiveQL 語言實現數據查詢，所有Hive 的數據都存儲在Hadoop 兼容的文件系統例如（HDFS） Hive 在加載數據過程中不會對數據進行任何的修改，只是將數據移動到HDFS 中Hive 設定的目錄下，因此，Hive 不支持對數據的改寫和添加，所有的數據都是在加載的時候確定的。

支持索引，加快數據查詢
不同的存儲類型，例如，純文本文件、HBase 中的文件。
將元數據保存在關係數據庫中，大大減少了在查詢過程中執行語義檢查的時間。
可以直接使用存儲在Hadoop 文件系統中的數據。
內置大量用戶函數UDF 來操作時間、字符串和其他的數據挖掘工具，支持用戶擴展UDF 函數來完成內置函數無法實現的操作。
類SQL 的查詢方式，將SQL 查詢轉換為MapReduce 的job 在Hadoop集群上執行。

數據類型

首先Hive沒有專門的數據存儲格式，也沒有為數據建立索引，用戶可以非常自由的組織 Hive 中的表，只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符，Hive 就可以解析數據。其次Hive 中所有的數據都存儲在 HDFS 中，Hive 中包含以下數據模型：表(Table，也稱為內部表)，外部表(External Table)，分區(Partition)，分桶表(Bucket)

二、環境搭建

準備工作

MySQL DB（Hive使用關係型數據庫存放元數據，減少語義檢查查詢，需要開啟遠程訪問支持）則使用windows的mysql數據庫服務 (省略)mysql –u root –proot
use mysql;
update user set host = '%' where host = 'localhost'
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
FLUSH PRIVILEGES;
exit;
Hadoop（HDFS & Yarn集群）服務健康[root@HadoopNode00 ~]# start-dfs.sh
Starting namenodes on [HadoopNode00]
HadoopNode00: starting namenode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-namenode-HadoopNode00.out
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-datanode-HadoopNode00.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-secondarynamenode-HadoopNode00.out
[root@HadoopNode00 ~]#
[root@HadoopNode00 ~]#
[root@HadoopNode00 ~]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.0/logs/yarn-root-resourcemanager-HadoopNode00.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.6.0/logs/yarn-root-nodemanager-HadoopNode00.out
[root@HadoopNode00 ~]# jps
1858 DataNode
1765 NameNode
2618 Jps
2204 ResourceManager
2046 SecondaryNameNode
2302 NodeManager
JDK8.0 以上

安裝

上傳安裝包

解壓縮安裝

<code>[root@HadoopNode00 ~]# tar -zxf apache-hive-1.2.1-bin.tar.gz -C /usr/<code>

配置

新建hive-site.xml

<code>[root@HadoopNode00 conf]# vi hive-site.xml

<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL/<name>
        <value>jdbc:mysql://192.168.197.1:3306/hive/<value>
    /<property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName/<name>
        <value>com.mysql.jdbc.Driver/<value>
    /<property>
    <property>
        <name>javax.jdo.option.ConnectionUserName/<name>
        <value>root/<value>
    /<property>
     <property>
        <name>javax.jdo.option.ConnectionPassword/<name>
        <value>1234/<value>
     /<property>
/<configuration>/<code>

注意：

hive數據庫的編碼格式需要定義為拉丁

添加MySQL驅動jar包

注意版本匹配

<code>[root@HadoopNode00 apache-hive-1.2.1-bin]# mv /root/mysql-connector-java-5.1.6.jar /usr/apache-hive-1.2.1-bin/lib//<code>

替換Hadoop jline的低版本jar包

<code>[root@HadoopNode00 ~]# cp /usr/apache-hive-1.2.1-bin/lib/jline-2.12.jar /home/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib/
[root@HadoopNode00 ~]# rm -rf /home/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib/jline-0.9.94.jar/<code>

啟動Hive服務

單用戶訪問

在一個服務窗口，同時啟動Hive Server和Hive Client；只能允許當前的Hive Client操作Hive Server

<code>[root@HadoopNode00 ~]# cd /usr/apache-hive-1.2.1-bin/
[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/hive
Logging initialized using configuration in jar:file:/usr/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> show databases;
OK
default
Time taken: 0.669 seconds, Fetched: 1 row(s)
hive> use default;
OK
Time taken: 0.028 seconds
hive> show tables;
OK
Time taken: 0.024 seconds/<code>

多用戶訪問

首先啟動HiveServer，可以在另外窗口啟動多個Hive Client操作

<code>[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/hiveserver2

[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/beeline -u jdbc:hive2://localhost:10000
Connecting to jdbc:hive2://localhost:10000
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1 by Apache Hive
0: jdbc:hive2://localhost:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default     |
+----------------+--+
1 row selected (1.07 seconds)
0: jdbc:hive2://localhost:10000> use default;
No rows affected (0.052 seconds)
0: jdbc:hive2://localhost:10000> show tables;
+-----------+--+ 

| tab_name  |
+-----------+--+
+-----------+--+
No rows selected (0.037 seconds)
0: jdbc:hive2://localhost:10000>/<code>

注意：

啟動Hive Server後會在MySQL中創建29張和元數據存儲相關的表

Hive會在HDFS中創建數據倉庫目錄，用以存放數據

三、數據庫和表相關操作

數據庫

創建數據庫

完整語法

<code>CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];/<code>

如：

<code>第一種寫法：
hive> create database if not exists baizhi;
OK
Time taken: 0.159 seconds

自動在hdfs創建數據庫的數據存放目錄： /user/hive/warehouse/baizhi.db

第二種寫法：
hive> 

   > create database test3;
OK

第三種完整寫法：
hive> create database if not exists test2 comment 'test2 database' location '/user/test2' with dbproperties('author'='gaozhy','company'='baizhiedu');
OK/<code>

刪除數據庫

完整語法

<code>DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];/<code>

默認是：RESTRICT 不允許刪除數據庫有表的庫

Cascade 刪除數據庫時級聯刪除表

如：

<code>hive> drop schema if exists test3 restrict;
Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/test3.db' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
OK
Time taken: 0.178 seconds
hive> drop database test2 cascade;
Moved: 'hdfs://HadoopNode00:9000/user/test2' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
OK
Time taken: 0.101 seconds/<code>

查看數據庫

完整語法

<code>(DESC|DESCRIBE) (DATABASE|SCHEMA) database_name ;/<code>

如：

<code>hive> desc database baizhi;
OK
baizhi      hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db  root   USER
Time taken: 0.037 seconds, Fetched: 1 row(s)/<code>

修改數據庫

完整語法

<code>ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=property_value, ...);
ALTER (DATABASE|SCHEMA) database_name SET OWNER [USER|ROLE] user_or_role;/<code>

如：

<code>hive> desc database baizhi;
OK
baizhi          hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db  zs      USER
Time taken: 0.049 seconds, Fetched: 1 row(s)
hive> alter database baizhi set owner user root;
OK
Time taken: 0.026 seconds
hive> desc database baizhi;
OK
baizhi          hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db  root    USER
Time taken: 0.016 seconds, Fetched: 1 row(s)
/<code>

切換數據庫

完整語法

<code>hive> select current_database();
OK
default
Time taken: 0.585 seconds, Fetched: 1 row(s)
hive> use baizhi;
OK
Time taken: 0.021 seconds
hive> select current_database();
OK
baizhi
/<code>

展示數據庫列表

完整語法

<code>hive> show databases;
/<code>

Hive表中的數據類型

數據類型（primitive，array，map，struct）

Primitive(原始類型)：整數：TINYINT、SMALLINT、INT、BIGINT （等價於Byte、Short、Int、Long存值範圍）布爾：BOOLEAN小數：FLOAT、DOUBLE字符：STRING、CHAR、VARCHAR二進制：BINARY時間類型：TIMESTAMP、DATE
Array（數組類型）：ARRAY < data_type >
Map（key-value類型）：MAP < primitive_type, data_type >
Struct（結構體類型）：STRUCT <data>

Hive默認使用的分隔符

分隔符描述\\n對於文本來說，每一行都是一條記錄。因此\\n可以分割記錄。^A(Ctrl+a)用於分割字段（列），在create table中可以使用\\001表示。^B(Ctrl+b)用於分割array或者是struct中的元素或者用於map結構中的k-v對的分隔符，在create table中可以使用\\002表示。^C(Ctrl+c)用於Map中k-v的分隔符，在create table中可以使用\\003表示。

分隔符在vi模式下，使用Ctrl +v + Ctrl + A|B|C

Hive表的使用

創建表的語法

標準語法

類似於DB的創建表的語法

<code>hive> create table t_user(id int, name varchar(50),sex boolean,birthday date);
OK
Time taken: 0.161 seconds
hive> show tables;
OK
t_user
/<code>

裝載數據

<code># 1. 準備數據文件，按照hive表的格式要求 準備數據
1^Azs^Atrue^A2018-01-01
2^Als^Afalse^A1998-07-07

# 2. hive指令將數據文件的內容裝載到Hive Table中  [本地文件系統]
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_user.txt' into table t_user;
Loading data to table baizhi.t_user
Table baizhi.t_user stats: [numFiles=1, totalSize=43]
OK
Time taken: 0.299 seconds

# 3. hive指令將數據文件的內容追加裝載到Hive Table中  [HDFS文件系統]
hive > load data inpath 'hdfs://HadoopNode00:9000/t_user.txt' into table t_user; 

Loading data to table baizhi.t_user
Table baizhi.t_user stats: [numFiles=2, totalSize=86]
OK
Time taken: 0.233 seconds
hive> select * from t_user;
OK
1    zs   true  2018-01-01
2    ls   false  1998-07-07
3    zs   true  2018-01-01
4    ls   false  1998-07-07

# 4. hive指令將數據文件的內容覆蓋裝載到Hive Table中  [HDFS文件系統]
hive> load data inpath 'hdfs://HadoopNode00:9000/t_user.txt'  overwrite into table t_user;
Loading data to table baizhi.t_user
Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user/t_user.txt' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user/t_user_copy_1.txt' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
Table baizhi.t_user stats: [numFiles=1, numRows=0, totalSize=43, rawDataSize=0]
OK
Time taken: 0.274 seconds/<code>

總結：

hive默認創建的表是一個內部表，數據文件在裝載時會移動拷貝到數據倉庫的表的存儲目錄；

hive表裝載數據時，可以是本地文件系統(local)中數據或者HDFS

hive表裝載數據時，默認採用的是追加（append）; 如果需要覆蓋表的原始內容，在需要在裝載表的時候指定overwrite

數組類型的使用

<code># 1. 創建表
hive> create table t_person(id int,name string,hobbies array<string>);
OK
Time taken: 0.063 seconds 



# 2. 準備數據文件
1^Azs^ATV^BLOL^BMUSIC
2^Als^ASPORT^BDrink

# 3. 裝載數據
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_person.txt' into table t_person;
Loading data to table baizhi.t_person
Table baizhi.t_person stats: [numFiles=1, totalSize=35]
OK
Time taken: 0.197 seconds
hive> select * from t_person;
OK
1       zs      ["TV","LOL","MUSIC"]
2       ls      ["SPORT","Drink"]
Time taken: 0.053 seconds, Fetched: 2 row(s)
/<string>/<code>

結構化類型的使用

<code># 1. 創建表
hive> create table t_location(id tinyint,name string,address struct<string>);
OK
Time taken: 0.064 seconds

# 2. 準備數據文件
1^A三里屯^A中國^B北京朝陽
2^A五道口^A中國^B北京海淀

# 3. 裝載數據
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_location.log' into table t_location;
Loading data to table baizhi.t_location
Table baizhi.t_location stats: [numFiles=1, totalSize=64]
OK
Time taken: 0.218 seconds
hive> select * from t_location;
OK
1    三里屯  {"country":"中國","city":"北京朝陽"}
2    五道口  {"country":"中國","city":"北京海淀"}
Time taken: 0.063 seconds, Fetched: 2 row(s)/<string>/<code>

注意：

struct type數據本質上由Json格式組織和管理；

Map類型的使用

<code># 1. 創建表
hive> create table t_product(id int,name varchar(50),tag map<string>);
OK
Time taken: 0.063 seconds


# 2. 準備數據文件
1^Aiphone11^Amemory^C256GB^Bsize^C5.8
2^Ahuawei mate30^Asize^C6.1

# 3. 加載數據
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_product.txt' into table t_product;
Loading data to table baizhi.t_product
Table baizhi.t_product stats: [numFiles=2, totalSize=107]
OK
Time taken: 0.194 seconds
hive> select * from t_product;
OK
1    iphone11     {"memory":"256GB"}
2    huawei mate30  {"size":"6.1"}
1    iphone11     {"memory":"256GB","size":"5.8"}
2    huawei mate30  {"size":"6.1"}
Time taken: 0.076 seconds, Fetched: 4 row(s)/<string>/<code>

自定義分隔符

字段分隔符

<code># 1. 自定義字段的分隔符  空格
hive> create table tt_user(id int,name varchar(32),sex boolean,birth date) row format delimited fields terminated by ' ' lines terminated by '\\n';
OK
Time taken: 0.123 seconds


# 2. 準備數據文件
1 zs true 2018-01-01 

2 ls false 2020-01-02
3 ww false 2020-01-01

# 3. 裝載數據時
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/tt_user.txt' into table tt_user;
Loading data to table baizhi.tt_user
Table baizhi.tt_user stats: [numFiles=1, totalSize=65]
OK
Time taken: 0.228 seconds
hive> select * from tt_user;
OK
1    zs   true  2018-01-01
2    ls   false  2020-01-02
3    ww   false  2020-01-01
Time taken: 0.05 seconds, Fetched: 3 row(s)/<code>

數組分隔符

<code># 1. 自定義字段和集合元素的分隔符  空格
hive> create table t_order(id int,name varchar(32),num int,price double,tags array<string>,user_id int)row format delimited fields terminated by ' ' collection items terminated by '>' lines terminated by '\\n';
OK
Time taken: 0.108 seconds

# 2. 準備數據文件
[root@HadoopNode00 data]# vi t_order.txt
1 iphone11 2 4999.0 貴>好用>香 101
2 huaweimate30 1 3999.0 國產>麒麟 102


# 3. 裝載數據時
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_order.txt' into table t_order;
Loading data to table baizhi.t_order
Table baizhi.t_order stats: [numFiles=1, totalSize=81]
OK
Time taken: 0.223 seconds
hive> select * from t_order;
OK
1    iphone11    2    4999.0  ["貴","好用","香"]   101
2    huaweimate30  1    3999.0  ["國產","麒麟"] 102
Time taken: 0.04 seconds, Fetched: 2 row(s)/<string>/<code>

map分隔符

map keys terminated by '分隔符'

基於正則表達式數據裝載

<code># 1. 樣例數據
192.168.197.1 - - [20/Dec/2019:22:12:42 +0800] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
192.168.197.1 - - [20/Dec/2019:22:12:42 +0800] "GET /favicon.ico HTTP/1.1" 404 571 "http://hadoopnode00/" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"

# 2. 正則表達式
^(\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}).*\\[(.*)\\]\\s"(\\w+)\\s(.*)\\sHTTP\\/1.1"\\s(\\d{3})\\s.*$

# 3. 實踐
hive> create table t_log(ip string,access_time string,method string,uri string,code smallint) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES("input.regex"="^(\\\\d{1,3}\\\\.\\\\d{1,3}\\\\.\\\\d{1,3}\\\\.\\\\d{1,3}).*\\\\[(.*)\\\\]\\\\s\"(\\\\w+)\\\\s(.*)\\\\sHTTP\\\\/1.1\"\\\\s(\\\\d{3})\\\\s.*$")
   > ;
OK
Time taken: 0.085 seconds
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/nginx.log' into table t_log;
Loading data to table baizhi.t_log
Table baizhi.t_log stats: [numFiles=1, totalSize=416]
OK
Time taken: 0.195 seconds
hive> select * from t_log;
OK
192.168.197.1  20/Dec/2019:22:12:42 +0800    GET   /    200
192.168.197.1  20/Dec/2019:22:12:42 +0800    GET   /favicon.ico  404
Time taken: 0.035 seconds, Fetched: 2 row(s)/<code>

基於Json文件數據裝載

<code>[root@HadoopNode00 json]# vi user1.json
{"id":1,"name":"zs","sex":true,"birthday":"1998-12-12"}
{"id":2,"name":"ls","sex":true,"birthday":"1990-12-12"}

[root@HadoopNode00 json]# vi user2.json
{"id":3,"name":"ww","sex":false,"birthday":"1995-07-08"}
{"id":4,"name":"zl","sex":false}


# 2. 創建hive表
hive> create table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot validate serde: org.apache.hive.hcatalog.data.JsonSerDe
hive> ADD JAR /usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar ;
Added [/usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar] to class path 

Added resources: [/usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar]
hive> create table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';
OK
Time taken: 0.138 seconds


# 3. 數據裝載
hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/json'  overwrite into table t_user_json;
Loading data to table baizhi.t_user_json
Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user_json/user1.json' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user_json/user2.json' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/Current
Table baizhi.t_user_json stats: [numFiles=2, numRows=0, totalSize=202, rawDataSize=0]
OK
Time taken: 0.239 seconds
hive> select * from t_user_json;
OK
1    zs   true  1998-12-12
2    ls   true  1990-12-12
3    ww   false  1995-07-08
4    zl   false  NULL/<code>

四、Hive表分類

在Hive表分為了管理表（內部表）、外部表、分區表、分桶表、臨時表（依然與會話，hive客戶端如何創建一個臨時表，在會話結束時，自動刪除）；

刪除表

<code>DROP TABLE [IF EXISTS] table_name [PURGE];/<code>

可選關鍵字purge,

添加則刪除表的元數據+表中內容

不添加只刪除表的元數據，而表中的內容會移動到HDFS的.trash/current垃圾數據存放目錄；

管理（內部）表

管理表會控制數據的生命週期，不能進行多團隊數據共享分析處理；

<code>0: jdbc:hive2://localhost:10000> drop table t_location;
No rows affected (0.885 seconds)
0: jdbc:hive2://localhost:10000> drop table t_user_json;
No rows affected (0.15 seconds)/<code>

外部表

<code># 1. 創建外部表的語法
ADD JAR /usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar ;
0: jdbc:hive2://localhost:10000> create external table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';
No rows affected (0.294 seconds)

# 2. 裝載數據 

0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/json' into table t_user_json;
INFO  : Loading data to table baizhi.t_user_json from file:/usr/apache-hive-1.2.1-bin/data/json
INFO  : Table baizhi.t_user_json stats: [numFiles=2, totalSize=202]
No rows affected (0.543 seconds)
0: jdbc:hive2://localhost:10000> drop table t_user_json purge;
No rows affected (0.139 seconds)/<code>

注意：

在刪除外部表時，僅僅刪除的是表的元數據（metadata），而不會刪除外部表控制的數據；

臨時表

臨時表關鍵字：temporary

生命週期依賴於會話

<code>0: jdbc:hive2://localhost:10000> create temporary table ttt_user(id int,name string);
No rows affected (0.132 seconds)
0: jdbc:hive2://localhost:10000> show tables;
+------------+--+
|  tab_name  |
+------------+--+
| t_log    |
| t_order   |
| t_person  |
| t_product  |
| t_user   |
| tt_user   |
| ttt_user  |
+------------+--+
7 rows selected (0.492 seconds)/<code>

分區表

外部表或者內部表都可以在創建時指定分區,這樣的就構成了分區表；分區就是數據分片思想，將一個大數據集按照規則劃分為若干個小數據集，這樣在進行數據加載或者處理時會有比較好處理性能；優化策略

<code># 1. 創建分區表
0: jdbc:hive2://localhost:10000> create table ttt_user(id int,name varchar(32),sex boolean,birth date) partitioned by(country String,state String) row format delimited fields terminated by ' ' lines terminated by '\\n';
No rows affected (0.087 seconds)

# 2. 準備數據
1 zs true 2020-01-01
2 ls false 1990-01-01
3 ww false 2001-01-01

# 3. 裝載數據
0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/ttt_user.txt' into table ttt_user partition(country='china',state='sh');


0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/ttt_user.txt' into table ttt_user partition(country='china',state='bj');


# 4. 如何使用分區表
0: jdbc:hive2://localhost:10000> select * from ttt_user where country='china' and state='bj';
+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+
| ttt_user.id  | ttt_user.name  | ttt_user.sex  | ttt_user.birth  | ttt_user.country  | ttt_user.state  |
+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+
| 1       | zs       | true      | 2020-01-01    | china       | bj        |
| 2       | ls       | false     | 1990-01-01    | china       | bj        |
| 3       | ww       | false     | 2001-01-01    | china       | bj        |
+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+
/<code>

分區表:

hive優化方案，按照分區查詢時只需要加載分區內的數據，而不需要加載整個表的內容；

使用分區偽列+分區內容進行數據加載

分桶表

分桶表指將數據集分解成容易組織管理若干個部分的技術；解決數據傾斜問題，已經大表和大表的JOIN，高效數據取樣；

<code># 1. 創建分桶表
0: jdbc:hive2://localhost:10000> create table t_bucket(id int,name string) clustered by (id) into 3 buckets;
No rows affected (0.141 seconds)


# 2. 注意 分桶表在裝載數據時不能使用load
# 3. 特殊設置
# 強制使用分桶表
set hive.enforce.bucketing = true;
# 設置reducer 任務數量 = 桶的數量
set mapred.reduce.tasks = 3;

# 4. 臨時表 首先將數據加載臨時表中
create temporary table t_bucket_tmp(id int,name string);
load data local inpath '/usr/apache-hive-1.2.1-bin/data/bucketTmp.txt' into table t_bucket_tmp;

# 5. 將臨時表中的數據轉換到分桶表中
insert into t_bucket select * from t_bucket_tmp cluster by id;/<code>

分區表的其它操作

<code>0: jdbc:hive2://localhost:10000> alter table ttt_user drop partition(country='china',state='sh');
INFO  : Dropped the partition country=china/state=sh
No rows affected (0.224 seconds)
0: jdbc:hive2://localhost:10000> alter table ttt_user add partition(country='china',state='sh');
No rows affected (0.167 seconds)
0: jdbc:hive2://localhost:10000> show partitions ttt_user;
+-------------------------+--+
|     partition     |
+-------------------------+--+
| country=china/state=bj  |
| country=china/state=sh  |
+-------------------------+--+
2 rows selected (0.113 seconds)/<code>

截斷表

<code>0: jdbc:hive2://localhost:10000> select * from  t_user; 

+------------+--------------+-------------+------------------+--+
| t_user.id  | t_user.name  | t_user.sex  | t_user.birthday  |
+------------+--------------+-------------+------------------+--+
| 3          | zs           | true        | 2018-01-01       |
| 4          | ls           | false       | 1998-07-07       |
+------------+--------------+-------------+------------------+--+
2 rows selected (0.134 seconds)
0: jdbc:hive2://localhost:10000> truncate table t_user;
No rows affected (0.107 seconds)
0: jdbc:hive2://localhost:10000> select * from  t_user;
+------------+--------------+-------------+------------------+--+
| t_user.id  | t_user.name  | t_user.sex  | t_user.birthday  |
+------------+--------------+-------------+------------------+--+
+------------+--------------+-------------+------------------+--+
/<code>

五、HiveOnJdbc

導入Hive JDBC驅動

<code><dependency>
  <groupid>org.apache.hadoop/<groupid>
  <artifactid>hadoop-client/<artifactid>
  <version>2.6.0/<version>
/<dependency>
<dependency>
  <groupid>org.apache.hive/<groupid>
  <artifactid>hive-jdbc/<artifactid>
  <version>1.1.0/<version>
/<dependency>/<code>

Hive驅動類

<code>org.apache.hive.jdbc.HiveDriver/<code>

應用程序

<code>package com.baizhi;

import java.sql.*;

public class HiveOnJdbc {
  public static void main(String[] args) throws ClassNotFoundException, SQLException {
    Class.forName("org.apache.hive.jdbc.HiveDriver");

    Connection connection = DriverManager.getConnection("jdbc:hive2://HadoopNode00:10000/baizhi"); 


    String sql = "select * from ttt_user where country=? and state=?";

    PreparedStatement pstm = connection.prepareStatement(sql);

    pstm.setString(1, "china");
    pstm.setString(2, "bj");

    ResultSet resultSet = pstm.executeQuery();

    while (resultSet.next()) {
      int id = resultSet.getInt("id");
      String name = resultSet.getString(2);
      Boolean sex = resultSet.getBoolean("sex");
      Date birth = resultSet.getDate("birth");
      System.out.println(id + "\\t" + name + "\\t" + sex + "\\t" + birth);
     }

    resultSet.close();
    pstm.close();
    connection.close();
   }
}/<code>

六、Hive SQL操作

回顧

<code>DB SQL查詢語法

select 字段列表 from 表名 where 過濾條件 group by 分組字段 having 分組後過濾 order by 排序字段 asc | desc limit 限制結果的返回條數；/<code>

Hive SQL完整語法

<code>SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]  # 計算結果全局有序（全局只有一個Reducer）
[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list asc|desc]]  # 分區鍵 id.hashCode% numReduceTask 
[LIMIT number]/<code>

注意：

order by col_list asc|desc: 全局排序，只有一個Reducer任務；

DISTRIBUTE BY col_list: shuffle進行分區時，分區鍵；根據指定的字段值進行分區shuffle

SORT BY col_list: 對分區進行局部排序字段

CLUSTER BY col_list: 如果DISTRIBUTE BY col_list + SORT BY col_list, 簡寫寫法；

<code># 1. 分組 + 分區後過濾
0: jdbc:hive2://localhost:10000> select sex,count(sex) from ttt_user where country='china' and state='bj' group by sex having sex= false;

# 2. 分組 + 結果集全局排序
0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex order by num desc;

# 3. 分組 + cluster by使用
0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex cluster by sex;

# 4. 分組 + distribute by  + sort by 
0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex distribute by sex sort by sex desc;

# 5. limit使用
0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex distribute by sex sort by sex desc limit 1;/<code>

表連接查詢

內連接（[inner] join）

左表和右表符合條件的數據進行連接操作，合為一張大表；

<code># 員工數據
1,zs,true,18,A
2,ls,false,20,B
3,ww,false,25,A
4,zl,false,30,B
5,tq,true,21,C

# 部門數據
A,研發部 

B,市場部
C,銷售部
D,後勤部

0: jdbc:hive2://localhost:10000> create table t_employee(id int,name varchar(32),sex boolean,age tinyint,dept string) row format delimited fields terminated by ',' lines terminated by '\\n';
No rows affected (0.11 seconds)
0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/employee.txt' into table t_employee;
INFO  : Loading data to table baizhi.t_employee from file:/usr/apache-hive-1.2.1-bin/data/employee.txt
INFO  : Table baizhi.t_employee stats: [numFiles=1, totalSize=78]
No rows affected (0.286 seconds)
0: jdbc:hive2://localhost:10000> select * from t_employee;
+----------------+------------------+-----------------+-----------------+------------------+--+
| t_employee.id  | t_employee.name  | t_employee.sex  | t_employee.age  | t_employee.dept  |
+----------------+------------------+-----------------+-----------------+------------------+--+
| 1        | zs        | true       | 18        | A         |
| 2        | ls        | false      | 20        | B         |
| 3        | ww        | false      | 25        | A         |
| 4        | zl        | false      | 30        | B         |
| 5        | tq        | true       | 21        | C         |
+----------------+------------------+-----------------+-----------------+------------------+--+


0: jdbc:hive2://localhost:10000> create table t_dept(deptId string,name string) row format delimited fields terminated by ',' lines terminated by '\\n';
No rows affected (0.094 seconds)
0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/dept.txt' into table t_dept;
INFO  : Loading data to table baizhi.t_dept from file:/usr/apache-hive-1.2.1-bin/data/dept.txt
INFO  : Table baizhi.t_dept stats: [numFiles=1, totalSize=48]
No rows affected (0.253 seconds)
0: jdbc:hive2://localhost:10000> select * from t_dept;
+----------------+--------------+--+
| t_dept.deptid  | t_dept.name  |
+----------------+--------------+--+
| A        | 研發部      |
| B        | 市場部      |
| C        | 銷售部      |
| D        | 後勤部      |
+----------------+--------------+--+


0: jdbc:hive2://localhost:10000> select * from t_employee t1 inner join t_dept t2 on t1.dept = t2.deptId;
+--------+----------+---------+---------+----------+------------+----------+--+
| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |
+--------+----------+---------+---------+----------+------------+----------+--+
| 1    | zs    | true   | 18    | A     | A      | 研發部    |
| 2    | ls    | false  | 20    | B     | B      | 市場部    |
| 3    | ww    | false  | 25    | A     | A      | 研發部    |
| 4    | zl    | false  | 30    | B     | B      | 市場部    | 

| 5    | tq    | true   | 21    | C     | C      | 銷售部    |
+--------+----------+---------+---------+----------+------------+----------+--+/<code>

外連接（left | right outer join）

<code>0: jdbc:hive2://localhost:10000> select * from t_employee t1 left outer join t_dept t2 on t1.dept = t2.deptId;
+--------+----------+---------+---------+----------+------------+----------+--+
| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |
+--------+----------+---------+---------+----------+------------+----------+--+
| 1    | zs    | true   | 18    | A     | A      | 研發部    |
| 2    | ls    | false  | 20    | B     | B      | 市場部    |
| 3    | ww    | false  | 25    | A     | A      | 研發部    |
| 4    | zl    | false  | 30    | B     | B      | 市場部    |
| 5    | tq    | true   | 21    | C     | C      | 銷售部    |
+--------+----------+---------+---------+----------+------------+----------+--+



0: jdbc:hive2://localhost:10000> select * from t_employee t1 right outer join t_dept t2 on t1.dept = t2.deptId;
+--------+----------+---------+---------+----------+------------+----------+--+
| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |
+--------+----------+---------+---------+----------+------------+----------+--+
| 1    | zs    | true   | 18    | A     | A      | 研發部    |
| 3    | ww    | false  | 25    | A     | A      | 研發部    |
| 2    | ls    | false  | 20    | B     | B      | 市場部    |
| 4    | zl    | false  | 30    | B     | B      | 市場部    |
| 5    | tq    | true   | 21    | C     | C      | 銷售部    |
| NULL  | NULL   | NULL   | NULL   | NULL   | D      | 後勤部    |
+--------+----------+---------+---------+----------+------------+----------+--+
/<code>

左半開連接（left semi join）

左半開連接會返回左表的數據，前提是記錄需要滿足右表on的判定條件；

<code>0: jdbc:hive2://localhost:10000> select * from t_employee t1 left semi join t_dept t2 on t1.dept = t2.deptId;
INFO  : Execution completed successfully 

INFO  : MapredLocal task succeeded
INFO  : Number of reduce tasks is set to 0 since there's no reduce operator
WARN  : Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
INFO  : number of splits:1
INFO  : Submitting tokens for job: job_1577964101376_0017
INFO  : The url to track the job: http://HadoopNode00:8088/proxy/application_1577964101376_0017/
INFO  : Starting Job = job_1577964101376_0017, Tracking URL = http://HadoopNode00:8088/proxy/application_1577964101376_0017/
INFO  : Kill Command = /home/hadoop/hadoop-2.6.0/bin/hadoop job  -kill job_1577964101376_0017
INFO  : Hadoop job information for Stage-3: number of mappers: 1; number of reducers: 0
INFO  : 2020-01-03 23:02:56,491 Stage-3 map = 0%,  reduce = 0%
INFO  : 2020-01-03 23:03:02,696 Stage-3 map = 100%,  reduce = 0%, Cumulative CPU 2.83 sec
INFO  : MapReduce Total cumulative CPU time: 2 seconds 830 msec
INFO  : Ended Job = job_1577964101376_0017
+--------+----------+---------+---------+----------+--+
| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  |
+--------+----------+---------+---------+----------+--+
| 1    | zs    | true   | 18    | A     |
| 2    | ls    | false  | 20    | B     |
| 3    | ww    | false  | 25    | A     |
| 4    | zl    | false  | 30    | B     |
| 5    | tq    | true   | 21    | C     |
+--------+----------+---------+---------+----------+--+/<code>

map-side join

map端連接，hive優化表連接查詢方法（小表和大表Join）；

注意：

map端連接只適用於內連接和左外連接；
hive 0.70版本之前，select /*+mapjoin(小表別名)*/ .....
hive 0.70版本之後，要求set hive.auto.convert.join=true；, 自動join優化，要求小表需要寫在join關鍵字之前，因為Hive Join從左向右連接操作；

<code>0: jdbc:hive2://localhost:10000> select /*+mapjoin(t2)*/ * from t_employee t1 left outer join t_dept t2 on t1.dept = t2.deptId;
 


0: jdbc:hive2://localhost:10000> set hive.auto.convert.join=true;

0: jdbc:hive2://localhost:10000> select * from t_dept t2 left outer join t_employee t1 on t1.dept = t2.deptId;/<code>

Full Outer Join

全外連接左邊右表符合條件結果進行連接，保留左表和右表不符合條件的結果

笛卡爾乘積連接

左表和右表交叉連接左表5條數據右表6條數據，連接後會產生30條記錄

七、Hive 和HBase整合

要求

HDFS
ZooKeeper
HBase集群運行正常

準備HBase BigTable

<code>hbase(main):002:0> create 'baizhi2:t_user','cf1'
0 row(s) in 2.4760 seconds
hbase(main):001:0> put 'baizhi2:t_user','user101','cf1:name','zs'
0 row(s) in 0.3800 seconds

hbase(main):002:0> put 'baizhi2:t_user','user101','cf1:age',18
0 row(s) in 0.0180 seconds

hbase(main):003:0> put 'baizhi2:t_user','user102','cf1:name','ls' 

0 row(s) in 0.0060 seconds

hbase(main):004:0> put 'baizhi2:t_user','user102','cf1:age',20
0 row(s) in 0.0180 seconds

hbase(main):005:0> scan 'baizhi2:t_user'
ROW                     COLUMN+CELL
 user101                  column=cf1:age, timestamp=1578068239429, value=18
 user101                  column=cf1:name, timestamp=1578068227481, value=zs
 user102                  column=cf1:age, timestamp=1578068289077, value=20
 user102                  column=cf1:name, timestamp=1578068278698, value=ls
2 row(s) in 0.0420 seconds/<code>

創建Hive Table並關聯HBase

<code>create external table t_hbase_user(id string,name string,age int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties('hbase.columns.mapping'=':key,cf1:name,cf1:age') tblproperties('hbase.table.name'='baizhi2:t_user');


0: jdbc:hive2://localhost:10000> select * from t_hbase_user;
+------------------+--------------------+-------------------+--+
| t_hbase_user.id  | t_hbase_user.name  | t_hbase_user.age  |
+------------------+--------------------+-------------------+--+
| user101      | zs         | 18         |
| user102      | ls         | 20         |
+------------------+--------------------+-------------------+--+
2 rows selected (1.142 seconds)/<code>

<code>create external table t_hbase_user(id string,name string,age int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties('hbase.columns.mapping'=':key,cf1:name,cf1:age') tblproperties('hbase.table.name'='baizhi2:t_user');


0: jdbc:hive2://localhost:10000> select * from t_hbase_user;
+------------------+--------------------+-------------------+--+
| t_hbase_user.id  | t_hbase_user.name  | t_hbase_user.age  |
+------------------+--------------------+-------------------+--+
| user101      | zs         | 18         |
| user102      | ls         | 20         |
+------------------+--------------------+-------------------+--+
2 rows selected (1.142 seconds)/<code>

分享到:

閱讀更多 JackYang1993 的文章

關鍵字: MapReduce Hive 數據庫

Hadoop數據倉庫框架-Hive v3.1.2系統架構

hive複雜結構之array,map,struct

三分鐘讀懂hadoop、hbase、hive、spark分佈式系統架構

Hive 熱門數據分析面試題解析

數倉就這麼難嗎？那你可能是缺這兩個：HBase+Hive

《大數據分析教程-Hive》

Hive SQL基本使用詳解

03.05 Hive SQL基本使用詳解

03.04 Hive 基礎知識大補

03.01 Hive JDBC操作

03.01 Hive WordCount實現示例

01.29 Hive 用戶指南 v1.0

01.29 2. HIVE 基本操作

優化 Hive ETL 任務(參數篇)

01.18 優化 Hive ETL 任務(參數篇)

java JDBC連接Impala（impala使用一篇解決）

60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.24 60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

12.20 Hive 和 Impala的比較

11.24 美團 MySQL 數據實時同步到 Hive 的架構與實踐

Hive 自定UDF函數，生成 32 位隨機數

Hadoop 生態之 MapReduce 及 Hive 簡介

hive的窗口函數

hive 基礎SQL

hive on spark,spark sql 對比測試結果相差很大

知道hive的這些ddl和dml操作語句，離從一個小白變大神就不遠了

【HIVE】不會Java也能操作Hadoop，常用HQL語句，收藏就是賺了。

【HIVE】程序員不會大數據Hadoop？你會SQL語句就學會一半了。

hive日期函數

Apache Hive 聯邦查詢（Query Federation）

Hive 體系

基於 Hive UDF 的機器學習算法工具 Apache Hivemall 薦

一個數據倉庫時代開始——Hive

09.03 我自己總結的Pandas數據分析庫的使用技巧（簡潔）

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等，都要認真學習

了解hive的默認資料庫：default資料庫

hive分桶表創建表導入數據和刪除數據操作

hive的分桶概念和數據導入

執行hive存儲過程的hplsql的下載和安裝

SQL使得Hive和SparkSQL使用存儲過程

執行Hive存儲過程的hplsql命令行使用方法

hadoop上gz壓縮格式文件加載到hive表：數據分析87篇

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？

大數據 Hive 筆記大全 收藏+轉發+關注

Apache Hive

一、概述

適用場景

特點

數據類型

二、環境搭建

準備工作

安裝

上傳安裝包

解壓縮安裝

配置

新建hive-site.xml

添加MySQL驅動jar包

替換Hadoop jline的低版本jar包

啟動Hive服務

單用戶訪問

多用戶訪問

三、數據庫和表相關操作

數據庫

創建數據庫

刪除數據庫

查看數據庫

修改數據庫

切換數據庫

展示數據庫列表

Hive表中的數據類型

Hive默認使用的分隔符

Hive表的使用

創建表的語法

數組類型的使用

結構化類型的使用

Map類型的使用

自定義分隔符

字段分隔符

數組分隔符

map分隔符

基於正則表達式數據裝載

基於Json文件數據裝載

四、Hive表分類

刪除表

管理（內部）表

外部表

臨時表

分區表

分桶表

分區表的其它操作

截斷表

五、HiveOnJdbc

導入Hive JDBC驅動

Hive驅動類

應用程序

六、Hive SQL操作

Hive SQL完整語法

表連接查詢

內連接（[inner] join）

外連接（left | right outer join）

左半開連接（left semi join）

map-side join

Full Outer Join

笛卡爾乘積連接

七、Hive 和HBase整合

要求

準備HBase BigTable

創建Hive Table並關聯HBase

相關文章:

Hadoop數據倉庫框架-Hive v3.1.2系統架構

hive複雜結構之array,map,struct

三分鐘讀懂hadoop、hbase、hive、spark分佈式系統架構

Hive 熱門數據分析面試題解析

數倉就這麼難嗎？那你可能是缺這兩個：HBase+Hive

《大數據分析教程-Hive》

Hive SQL基本使用詳解

03.05 Hive SQL基本使用詳解

03.04 Hive 基礎知識大補

03.01 Hive JDBC操作

03.01 Hive WordCount實現示例

01.29 Hive 用戶指南 v1.0

01.29 2. HIVE 基本操作

優化 Hive ETL 任務(參數篇)

大數據 Hive 筆記大全收藏+轉發+關注