如何解决在colab上生成/保存的整个数据集当馈送到model.fit时出现RAM错误,而使用数据生成器时却没有,为什么?最佳做法是什么?
对于此DL项目,我正在生成灰度“图像”,它们实际上是numpy(超过50000个,每个约3000个像素)。首先,我在计算机上生成它们并将它们加载到我安装在colab上的驱动器中。我使用了数据生成器来获取保存的图像/ numpy,然后使用tf.data.Dataset.from_generator将其输入到model.fit中。由于需要对数据集进行混洗,因此使用此方法的速度非常慢。据我了解,colab在驱动器上获取大量数据的速度可能非常慢。
然后我切换到直接在colab上生成图像,并将其保存在一个大数组(nb图像,高度图像,宽度图像)中,并且仍然使用生成器将其输入到model.fit中,它的工作速度要快得多。然后,我尝试删除数据生成器,因为我认为保留它没有意义,因为所有数据都保存在colab /笔记本中,并将整个数据提供给model.fit,但这总会给我“您的会话”使用完所有可用的RAM后崩溃”错误(我不知为什么从来没有像以前那样选择升级内存的方法。)
所以我想知道,为什么我会收到此错误,因为我不明白为什么数据生成器会更好地工作。我应该继续使用数据生成器,还是有另一种方法可以使数据生成器更健壮/更快或更“看起来”更好?
提前谢谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。