如何解决根据大小读取火花数据帧mb / gb
在这种情况下请帮助我, 我想基于大小(mb / gb)而不是行数读取spark数据帧。假设我在数据库中还为用户留了500 MB的空间,并且用户想要插入700 MB的更多数据,那么我如何从Jdbc驱动程序中识别表大小,以及如何从700Mb spark数据帧中仅读取500 MB数据
解决方法
限制程序中的数据大小是不正确的。您应该捕获异常并将其显示给用户。由用户决定是否要增加数据库大小或从数据库中删除不需要的数据。
对于上述问题,火花有一个称为大小估计器的东西。我以前没用过。但是您可能无法获得确切的数据大小,因为它是估计量
import org.apache.spark.util.SizeEstimator
SizeEstimator.estimate(df)
有关更多信息,请参阅this。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。