Hive究竟是什么？

2018-08-28 21:22:11 大數據開發工程師

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析Facebook公司最早完成并开源了hive框架，可以将sql语句直接翻译成MapReduce程序。Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射成一张表，并提供类似SQL的查询功能。Hive相当于一个客户端。

1. Hive框架的作用：

（1）可以让不懂java的数据分析人员使用hadoop进行数据分析；

（2）MapReduce开发非常繁琐复杂，使用hive可以提高效率。

（3）统一的元数据管理，可与impala/spark共享元数据。

2. Hive基础：

（1）使用HQL作为查询接口；使用MapReduce进行计算；数据存储在HDFS上；运行在Yarn上。

（2）Hive比较灵活和可扩展性，支持UDF和多种文件格式。

（3）Hive适合离线数据分析（批量处理、延时要求很大）。

2. SQL on Hadoop框架：

Hive是一种最常见、使用最为广泛的SQL on Hadoop框架。还包括几个其他常见的sql on hadoop框架：

1. Presto：

最早由Facebook开源，国内京东使用比较广泛。

2. Drill：

3. impala：

由Cloudera公司提供，基于内存的。hive是基于硬盘的。

4. Spark SQL：

3. Hive架构：

Hive可以作为ETL工具（有一个常见的开源ETL工具，kettle）、报表工具和数据分析工具。Hive可以访问HBase数据。Hive没有专门的数据存储格式。

Hive 体系结构

（1）客户端：CLI：

Hive的使用场景中，99%的情况使用CLI，JDBC比较少用（因为Hive主要是用作离线分析的）。

（2）元数据MetaStore（企业一般使用MySQL；为了避免单点故障，搭建HA、主从结构）：存储数据库、表名、字段等。Spark、Impala也有自己的MetaStore，并且可以和Hive的MetaStore共享。

（3）驱动器Driver：

解析器、编译器、优化器、执行器。

（4）使用MapReduce计算

（5）数据存储在HDFS上。

需要大数据学习资料的小伙伴可以加群：862879153，群内有免费的大数据实时交易监控系统，推荐系统理论，用户行为分析等等项目实战学习资料领取。

由于Hive只是一个客户端，在安装时，我们可以在Hadoop集群中，选择一台安装Hive。Hive没有集群的概念，但是可以搭建Server/Client端。

今天的Hive就聊到这里啦，需要学习怎么安装Hive，麻烦大家自行百度了哈，小编与百度已达成长期合作，有问题请百度一下，如果百度不到的话，也可以加群跟大牛一起学习。哈哈，最后，祝大家工作顺利！

分享到:

閱讀更多 大數據開發工程師 的文章

關鍵字: SQL MapReduce 数据文件

Hadoop数据仓库框架-Hive v3.1.2系统架构

hive复杂结构之array,map,struct

三分钟读懂hadoop、hbase、hive、spark分布式系统架构

Hive 热门数据分析面试题解析

数仓就这么难吗？那你可能是缺这两个：HBase+Hive

《大数据分析教程-Hive》

Hive SQL基本使用详解

03.05 Hive SQL基本使用详解

03.04 Hive 基础知识大补

03.01 Hive JDBC操作

03.01 Hive WordCount实现示例

01.29 Hive 用户指南 v1.0

01.29 2. HIVE 基本操作

优化 Hive ETL 任务(参数篇)

01.18 优化 Hive ETL 任务(参数篇)

大数据 Hive 笔记大全收藏+转发+关注

java JDBC连接Impala（impala使用一篇解决）

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

12.24 60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

12.20 Hive 和 Impala的比较

11.24 美团 MySQL 数据实时同步到 Hive 的架构与实践

Hive 自定UDF函数，生成 32 位随机数

Hadoop 生态之 MapReduce 及 Hive 简介

hive的窗口函数

hive 基础SQL

hive on spark,spark sql 对比测试结果相差很大

知道hive的这些ddl和dml操作语句，离从一个小白变大神就不远了

【HIVE】不会Java也能操作Hadoop，常用HQL语句，收藏就是赚了。

【HIVE】程序员不会大数据Hadoop？你会SQL语句就学会一半了。

hive日期函数

Apache Hive 联邦查询（Query Federation）

Hive 体系

基于 Hive UDF 的机器学习算法工具 Apache Hivemall 荐

一个数据仓库时代开始——Hive

09.03 我自己总结的Pandas数据分析库的使用技巧（简洁）

Hadoop、Hive、Zookeeper、Pig、HBase和Mahout等，都要认真学习

了解hive的默认数据库：default数据库

hive分桶表创建表导入数据和删除数据操作

执行hive存储过程的hplsql的下载和安装

SQL使得Hive和SparkSQL使用存储过程

执行Hive存储过程的hplsql命令行使用方法

hadoop上gz压缩格式文件加载到hive表：数据分析87篇