输出中的节点数晚于神经网络中的类数

如何解决输出中的节点数晚于神经网络中的类数

在时尚mnist数据集上训练神经网络时，我决定在我的输出层中拥有比数据集中的类数更多的节点数。
数据集有10个类，而我训练我的网络在输出层中有15个节点。我还使用了softmax。
现在令人惊讶的是，这给了我97％的准确度，非常好。

这使我想到了一个问题，那额外的5个节点甚至意味着什么，它们在这里做什么？
为什么当标签范围（0-9）不等于节点数（15）时，softmax能否正常工作？
最后，总的来说，在分类任务中，输出层中的节点数比类数多是什么意思？

我了解节点数少于类数的影响，并且经验法则是使用节点数=类数。但是，我从未见过有人使用更多的节点，我想了解为什么/为什么不这样做。

我正在附加一些代码，以便可以复制结果。这是使用Tensorflow 2.3完成的

import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.mnist

(training_images,training_labels),(test_images,test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),tf.keras.layers.Dense(256,activation=tf.nn.relu),tf.keras.layers.Dense(15,activation=tf.nn.softmax)])

model.compile(optimizer = 'adam',loss = 'sparse_categorical_crossentropy',metrics = ['accuracy'])

model.fit(training_images,training_labels,epochs=5)

model.evaluate(test_images,test_labels)

解决方法

能够使用这种配置的唯一原因是因为您将损失函数指定为sparse_categorical_crossentropy。

让我们了解更多输出节点在正向传播中的作用。
考虑一个具有两层的神经网络。
第一层-6个神经元（隐藏层）
第二层-4个神经元（输出层）

您拥有形状为（100 * 12）的数据集X，即12个功能和100行。
您有形状为（100，）的标签y，其中包含两个唯一值0和1。
因此，从本质上讲，这是一个二进制分类问题，但是我们将在输出层中使用4个神经元。

将每个神经元视为逻辑回归单元。因此，每个神经元将具有12个权重（w1，w2，.....，w12）
为什么？ -因为您有12个功能。

每个神经元将输出一个由a给出的项。我将分两步给出a的计算。
z = w1 x1 + w2 x2 + ........ + w12 * x12 + w0＃w0为偏差
a =激活（z）

因此，您的第一层将为数据集中的每一行输出6个值。因此，现在您有了一个100 * 6的特征矩阵。

这将传递到第二层，并重复相同的过程。

因此，从本质上讲，即使您的神经元数比实际类数多，您也可以完成正向传播步骤。

现在让我们看看反向传播。

要使反向传播存在，您必须能够计算出loss_value。
我们将举一个小例子：
y_true在问题中有两个标签，而y_pred在最后一层中有4个单位，因此有4个概率值。

y_true = [0,1]
y_pred = [[0.03,0.90,0.02,0.05],[0.15,0.8,0.03]]
# Using 'auto'/'sum_over_batch_size' reduction type.
scce = tf.keras.losses.SparseCategoricalCrossentropy()
scce(y_true,y_pred).numpy() # 3.7092905

如何计算：（log（0.03）+ log（0.02））/ 2

因此从本质上讲，我们可以计算损耗，因此也可以计算其梯度。

因此，使用反向传播也没有问题。

因此，我们的模型可以很好地训练并达到90％的精度。

最后一个问题，这些额外的神经元代表什么。即（神经元2和神经元3）。
Ans-它们分别表示示例属于2类和3类的概率。但是，由于标签不包含2类和3类的值，因此它们在计算损失值时将为零。

注意-如果您将y_label编码为一次热编码，并使用categorical_crossentropy作为损失，则会遇到错误。

输出中的节点数晚于神经网络中的类数

如何解决输出中的节点数晚于神经网络中的类数

解决方法

相关推荐