如何解决torch.no_grad影响模型的准确性
我收到一个错误“ CUDA内存不足”,然后将torch.no_grad()函数添加到了我的代码中。这会影响我的准确性吗?
for iters in range(args.iterations):
with torch.no_grad():
encoded,encoder_h_1,encoder_h_2,encoder_h_3 = encoder(
res,encoder_h_3)
with torch.no_grad():
code = binarizer(encoded)
with torch.no_grad():
output,decoder_h_1,decoder_h_2,decoder_h_3,decoder_h_4 = decoder(
code,decoder_h_4)
res = res - output.detach()
codes.append(code.data.cpu().numpy())
torch.cuda.empty_cache()
print('Iter: {:02d}; Loss: {:.06f}'.format(iters,res.data.abs().mean()))
解决方法
torch.no_grad()
仅禁用对以后计算梯度所需的所有计算的跟踪。
在纯推理模式下,它不会对准确性产生任何影响,因为那里不需要渐变。当然,在训练期间您不能使用它,因为我们需要渐变来训练和优化。
通常,如果您要进行推断,则总是希望将网络设置为评估模式并禁用渐变。这样可以节省运行时间和内存消耗,并且不会影响准确性。
回答类似的问题,解释eval()
和no_grad()
https://discuss.pytorch.org/t/model-eval-vs-with-torch-no-grad/19615/2
torch.no_grad()
基本上跳过了权重上的梯度计算。这意味着您不会更改指定图层中的任何权重。如果您是训练过的预训练模型,则可以在除完全连接的层或分类器层之外的所有层上使用torch.no_grad()
。
如果您要从头训练网络,这不是一件好事。您应该考虑减少培训次数或应用torch.no_grad()
部分培训。下面是一个示例。
for iters in range(args.iterations):
if iters % 2 == 0:
with torch.no_grad():
encoded,encoder_h_1,encoder_h_2,encoder_h_3 = encoder(
res,encoder_h_3)
else:
with torch.no_grad():
encoded,encoder_h_3)
这是一个简短的示例。这可能会使您的训练时间更长一些,但是您将能够在不减少层数的情况下训练网络。重要的是,您不应在每次迭代或每次更新时都更新所有图层。网络的某些部分应以指定的频率进行更新。 注意:这是实验方法
,根据PyTorch文档:
当您确定不会调用Tensor.backward()时,禁用梯度计算对于推断很有用。它将减少原本需要require_grad = True的计算的内存消耗。
因此,这取决于您打算做什么。如果您要训练模型,则可以,这会影响您的准确性。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。