超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

那么如何将mysql数据导入到hive里呢,kettle里有自带方法,可以通过表输入和表输出来实现,不过自带的方法载入数据极其缓慢,不推荐使用这种方法。

1、hive建表

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

注意hive表使用“^”作为分隔符,这个可以更具实际情况来。

2、mysql到hdfs输出

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

转换

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

内容这儿可以选择相应分隔符来对数据分隔操作,头部一定要去掉,不然导入hdfs时会将表头的字段名一起导入,还有编码最好是换成utf-8保证中文的使用

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

字段这儿要先获取字段,然后先关字段要选择对应格式,比如我这儿id是001,就要选为#格式,不然会使最后hive导入的id这儿为null,日期也是。

3、将hdfs文件导入到hive数据库里

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

超详细教程,kettle ETL mysql到hadoop hive数据抽取,值得收藏

左边为原始目录也就是存放hdfs文件的地址,后面是hive数据库文件目录的地址,如果需要直接替换hive里面的内容在设置里勾选替换就可以了。

----------------------------------本文结束---------------------------------


分享到:


相關文章: