关于代价函数的两个假设

反向传播算法的目标是计算代价函数 $C$ 对神经网络中出现的所有权重 $w$ 和偏置 $b$ 的偏导数 $\frac{\partial C}{\partial w}$ 和 $\frac{\partial C}{\partial b}$ 。为了使反向传播工作，我们需要对代价函数的结构做两个主要假设。在进行假设之前，在脑海中有一个代价函数的实例是很有用的。我们将会使用上一章讲到的平方代价函数作为例子。上一章的平方代价函数具有以下形式：

$\begin{eqnarray} C = \frac{1}{2n} \sum_x \|y(x)-a^L(x)\|^2, \tag{26}\end{eqnarray}$

其中 $n$ 是训练样本总数；求和符号表示对每个独立训练样本 $x$ 求和； $y=y(x)$ 是对应的希望输出； $L$ 是神经网络层数； $a^L=a^L(x)$ 是输入为 $x$ 时激活函数的输出向量。

那么，为了能够使用反向传播算法，我们需要对代价函数 $C$ 进行怎样的假设呢？第一条假设是代价函数能够被写成 $C=\frac{1}{n} \sum_x C_x$ 的形式，其中 $C_x$ 是每个独立训练样本 $x$ 的代价函数。在代价函数为平方代价函数的情况下，一个训练样本的代价是 $C_x =\frac{1}{2} \|y-a^L \|^2$ 。该假设对于本书中涉及到的其它所有代价函数都成立。

我们需要上述假设的原因是，反向传播实际上是对单个训练数据计算偏导数 $\frac{\partial C_x}{\partial w}$ 和 $\frac{\partial C_x}{\partial b}$ 。然后通过对所有训练样本求平均值获得 $\frac{\partial C}{\partial w}$ 和 $\frac{\partial C}{\partial b}$ 。事实上，有了这个假设，我们可以认为训练样本 $x$ 是固定的，然后把代价 $C_x$ 去掉下标表示为 $C$ 。最终我们会重新把 $x$ 加回公式，但目前为了简便我们将它隐去。

我们对代价函数做的第二条假设是它可以写成关于神经网络输出结果的函数：

平方代价函数满足该要求，因为单一训练样本 $x$ 的二次代价可以表示为：

$\begin{eqnarray} C = \frac{1}{2} \|y-a^L\|^2 = \frac{1}{2} \sum_j (y_j-a^L_j)^2, \tag{27}\end{eqnarray}$

这是一个关于输出激活值的函数。显然，该代价函数也依赖于期望的输出 $y$ ，所以你可能疑惑为什么我们不把代价视为关于 $y$ 的函数。记住，输入的训练样本 $x$ 是固定的，因此期望的输出 $y$ 也是固定的。需要注意，我们不能通过改变权值或偏置来修改它，换句话说，它不是神经网络所学习的东西。所以把 $C$ 视为只关于输出 $a^L$ 的函数是有道理的。在该函数中 $y$ 只是帮助定义函数的参数。

关于代价函数的两个假设

关于代价函数的两个假设

results matching ""

No results matching ""