如何解决在Hive中加载预分区数据以供Sparklyr使用
我是蜂巢的新手,希望能得到一些帮助。我正在遵循instruction here,将我的hdfs分区数据带到使用sparklyr进行分析。根据说明,我需要先将数据加载到配置单元表中。
我的数据按年份和月份划分:
/user/rstudio-user/mydata/year=2010/month=1
/user/rstudio-user/mydata/year=2010/month=2
...
/user/rstudio-user/mydata/year=2020/month=1
...
/* and so on for every single month from 2010 to 2020 */
每个目录中都有多个实木复合地板文件:
/user/rstudio-user/mydata/year=2010/month=1/file_part1.parquet
/user/rstudio-user/mydata/year=2010/month=1/file_part2.parquet
...
我很难将数据加载到Hive表中。我假设我需要手动指定每个目录。这是我尝试过的:
CREATE EXTERNAL TABLE IF NOT EXISTS mydata
(prefix string,key string,value float,time timestamp)
PARTITIONED BY
(year int,month int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
LOAD DATA INPATH '/user/rstudio-user/mydata/year=2010/month=1' INTO TABLE mydata PARTITION (year='2020',month='1');
除了指定每年和每月之外,还有其他更好的方法吗?任何帮助深表感谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。