如何解决使用kaggle内核进行模型训练
我一直在使用Kaggle在GPU上工作。我发现,每当我再次训练模型时,我在验证数据上的准确性都会发生变化。我没有得到一致的结果。是因为我正在访问GPU吗?
解决方法
两个网络的初始权重通常是随机的,并且随机性会导致变化。这意味着第二次训练将导致稍有不同的解决方案。为了确保精确的可重复性,您需要做两件事:i)确定代码,ii)随机数生成器(RNG)的种子相同。
随机数生成器是特定于库的。对于numpy
和tensorflow
,您可以在程序的开头(!)进行如下设置:
np.random.seed(1337)
tf.random.set_seed(1337)
这意味着反复训练网络应该会给您相同的结果。要获得其他示例,您必须以不同的方式初始化RNG。
对于某些优化程序,非确定性方面很重要。例如,Adam
以前只是Tensorflow / CUDA中某些以前的版本,这意味着无论您多么努力,都无法重现相同的执行。
也就是说,如果您的代码执行CUDNN或CUDA优化的方法,当然也会引起细微的差异。然后,在版本之间进行切换也可能会导致细微的差异。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。