如何解决SparkSession.catalog.clearCache可以从hdfs中删除数据吗?
由于我们已从CDH迁移到HDP(火花2.2到2.3),因此我遇到了一些数据删除问题。正在从hdfs位置读取表,并在运行一段时间的spark作业读取并处理这些表后,将抛出未找到表异常,当我们检查位置是否所有记录均消失时。在读取该表之前,在我的spark(Java)代码中看到了调用clearCache()的过程。可以删除那些文件吗?如果是,该如何解决?
解决方法
我认为,您应该看一下source code- Spark有自己的缓存用户数据的实现,在通过CacheManager管理此缓存时,他们从不会删除它们。看看
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。