如何解决是什么导致 Hadoop 服务器以及一般情况下中的数据表“损坏”?
今天我和我的同事发现我们无法访问 Hadoop 服务器上的表 - 我们无法在 Hive SQL 中对表执行查询或将表提取到我们的 RStudio 服务器。
我们的数据管理人员说有时会发生这种情况,表格会“损坏”。
是纯粹随机的(杂散宇宙射线?)还是工程或用户相关的问题要归咎于损坏的表?
解决方法
虽然这个问题很笼统,但损坏的原因可能因不同的用例而异。我遇到的一些原因是,
-
由于对数据库执行的任何操作,Hive Metastore DB 中表的元数据被覆盖、编辑或丢失。这本质上意味着,我们无法对特定或一组表执行任何查询。
-
HDFS 中 Hive 表的实际数据已损坏。虽然达到这个值的可能性非常低(由于集群中的数据副本),但如果表文件的 128 MB 块被损坏,则数据无法读取仍然有可能。这将导致查询返回部分数据或不返回数据。这可能是特定于硬件的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。