首先,我从方法论的角度意识到为什么你的损失函数必须依赖于神经网络的输出.这个问题来自于我在尝试更好地理解Keras和Tensorflow时所做的实验.考虑以下:
input_1 = Input((5,))
hidden_a = Dense(2)(input_1)
output = Dense(1)(hidden_a)
m3 = Model(input_1, output)
def myLoss (y_true, y_pred):
return K.sum(hidden_a) # (A)
#return K.sum(hidden_a) + 0*K.sum(y_pred) # (B)
m3.compile(optimizer='adam', loss=myLoss)
x = np.random.random(size=(10,5))
y = np.random.random(size=(10,1))
m3.fit(x,y, epochs=25)
此代码导致:
ValueError: An operation has `None` for gradient. Please make sure that all of your ops have a gradient defined (i.e. are differentiable). Common ops without gradient: K.argmax, K.round, K.eval.
但是如果你将A行替换为B行,它就会运行,尽管事实上没有任何数字改变.
前一种情况似乎应该对我来说完全没问题.计算图很明确,一切都应该在损失方面是可区分的.但似乎Keras要求y_pred以某种方式处于损失函数中,无论它是否有任何影响.
谢谢!
解决方法:
事实证明这有点棘手.实际上,Keras不需要y_pred处于丢失函数中.但是,它需要在损失函数中引用所有可训练变量.
当您调用m3.fit()时,Keras将在您的损失函数和图层的可训练权重之间执行渐变计算.如果您的loss函数没有引用trainable_variables集合中的相同元素,则某些渐变计算操作将无法实现.
那怎么避免呢?好吧,即使没有做任何事情,你也可以参考y_pred.或者您可以冻结不会受优化程序影响的图层(因为您无论如何都不计算它们的损失)
所以在你的情况下,你只需要冻结你的输出层:
output = Dense(1, trainable = False)(hidden_a)
原文地址:https://codeday.me/bug/20190522/1152806.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。