tao-to-python
diff --git a/‎Chapter7/md/Chapter7 Neural Networks.md
Lines changed: 2 additions & 2 deletions b/‎Chapter7/md/Chapter7 Neural Networks.md
Lines changed: 2 additions & 2 deletions
diff --git a/‎photo/Chapter7/2018100401.png
32.3 KB b/‎photo/Chapter7/2018100401.png
32.3 KB
@@ -315,10 +315,10 @@ x^{(ℓ)}=\theta(s^{(ℓ)})
 $$
 如果权重都为$0$，那么$s^{(ℓ)} =0$，对于$\theta(x)=\text{tanh}(x),\theta(0)=0$，所以$x^{(ℓ)}=\theta(s^{(ℓ)})=0$，这说明除了第$0$层的节点，每一个节点大小均为$0$。再看反向传播的公式
 $$
-\frac{∂ e}{ w_{ij}^{(ℓ)}}=x_i^{^{(ℓ-1)}}\delta _j^{{(ℓ)}}\\
+\frac{∂ e}{ ∂w_{ij}^{(ℓ)}}=x_i^{^{(ℓ-1)}}\delta _j^{{(ℓ)}}\\
 \delta _j^{{(ℓ)}}=\theta^{'}(s_j^{(ℓ)})\sum_{k=1}^{d^{(ℓ+1)}}w_{jk}^{(ℓ+1)}\delta _k^{{(ℓ+1)}}
 $$
-由于权重均为$0$，所以$\delta _j^{{(ℓ)}}=0,\frac{∂ e}{ w_{ij}^{(ℓ)}}$。结合以上两点可得，如果初始权重均为$0$，那么梯度均为$0$，从而更新量为$0$，从而更新之后每个节点依旧为$0$，这样就无法训练数据了，所以每个节点的初始值不能都取$0$
+由于权重均为$0$，所以$\delta _j^{{(ℓ)}}=0,\frac{∂ e}{∂ w_{ij}^{(ℓ)}}$。结合以上两点可得，如果初始权重均为$0$，那么梯度均为$0$，从而更新量为$0$，从而更新之后每个节点依旧为$0$，这样就无法训练数据了，所以每个节点的初始值不能都取$0$