如何解决spark sql读取带有文本分区的镶木地板表时出错
1、背景:
我有一个 hive 外部表 A,它在创建时以文本格式创建。 分区的HDFS数据也是text+gz。
表 A 被数以千计的 sql.files 使用。 可以使用表A的所有5年历史分区。
目前我们有更好的存储格式镶木地板。降低转换成本 我打算将表 A 更改为镶木地板表,新分区的镶木地板+gz 数据和旧分区的 text+gz 数据。 业务可以通过sparksql和hivesql读取A表的任意分区。
2、验证流程:
2.1、创建表 enter image description here
2.2、添加分区
20210702 路径为 text+gz
20210703 路径是 parquet+gz
3、错误: enter image description here
4、期望:
有没有办法,比如参数配置,可以解决这个问题。
我做了什么: https://issues.apache.org/jira/browse/SPARK-24965 根据报错中报的stack信息,我在源码中没有看到关于hive表元数据和分区元数据的sparksql。
5、配置环境: hdp2.7.3 sparksql2.3 hive1.2
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。