数据仓库-parquet分区取代hive分区_技术 _ 頭條網

最近升级组件发现了一些问题记录一下，spark升级到2.3.0 ，hadoop升级到3.1.0。之前一直使用hive的外部分区表来管理数据，但是升级后发现Hive已经无法使用。

如图：

问题在于： spark 只支持Hive 1.2.1 ，然而Hive 1.2.1却不支持Hadoop3.0.1,比较蛋痛了。于是舍弃hive 使用parquet分区，内容如下文。

Parquet Files

1.分区发现

使用下面的目录划分，可以自动识别字段：

path└── to └── table ├── gender=male │ ├── ... │ │ │ ├── country=US │ │ └── data.parquet │ ├── country=CN │ │ └── data.parquet │ └── ... └── gender=female ├── ... │ ├── country=US │ └── data.parquet ├── country=CN │ └── data.parquet

使用SparkSession.read.parquet 或 SparkSession.read.load读取path/to/table目录。spark抽取到分区信息。

root|-- name: string (nullable = true)|-- age: long (nullable = true)|-- gender: string (nullable = true)|-- country: string (nullable = true)

使用spark.sql.sources.partitionColumnTypeInference.enabled（默认为true）关闭列的字段类型推断。

2.分区测试：

目录结构:

data/parquet/partition/age=10/parquet 文件

def main(args: Array[String]) { System.setProperty("hadoop.home.dir","C://hadoop" ) Logger.getLogger("org.apache.spark").setLevel(Level.ERROR); Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR); val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local") val sc = new SparkContext(conf) implicit val sqlContext = new SQLContext(sc) import sqlContext.implicits._ sc.setLogLevel("ERROR") val df = sqlContext.read.parquet(s"data/parquet/partiton") df.printSchema()输出

root

|-- t1: string (nullable = true)

|-- t2: string (nullable = true)

|-- age: integer (nullable = true)

输出age字段，可解决问题。

Parquet Files

1.分区发现

2.分区测试：

相關文章:

MapReduce的shuffle过程详解（分片、分区、合并、归并，）

AVRO vs Parquet-该选哪一个？

干货：数据仓库、OLAP和 数据挖掘、统计分析的关系和区别分析

Apache Doris 百度自研的交互式 SQL 数据仓库--集群安装

inmon & kimball 数据仓库&数据集市（2）应用

亚马逊的 Snowflake 数据仓库，比阿里OceanBase强悍吗？

Linux 下如何挂载并读写 NTFS 分区

数据仓库-拉链表

大数据系列：Spark 常用数据格式介绍CSV、JSON、Avro、Parquet

10.17 数据库的升级版：数据仓库

「深度好文」辨析BI、数据仓库、数据湖和数据中台内涵及差异点

阿里大牛实战归纳——Kafka架构原理

Zookeeper 在 Kafka 中的作用

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

干货：数据仓库、OLAP和数据挖掘、统计分析的关系和区别分析

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪