为什么神经网络在考虑梯度下降的时候，网络参数的初始值不能设定为全0，而是要采用随机初始化思想？

Question

其中涉及的权重对称问题怎么理解？

关注者

86

被浏览

43,327

看了很多优秀的回答，我这里强行总结一下，如有不对之处，还请指出。

简而言之就是：

当每层的W一样时，检测的特征也一样，网络经过前向传播和反向传播后，每层的W值更新后大小还是一致，因此检测的特征也还是一样。

每层的W一样，会使得多层的效果和一层的效果是一致的，因为提取的特征是重复的，即出现模型退化问题。

所以神经网络参数的初始值不能全相同，初始值全设为0即使一个特例，自然初始化是无效的。

王赟 Maigo 2022 年度新知答主 · Accepted Answer

设想你在爬山，但身处直线形的山谷中，两边是对称的山峰。

由于对称性，你所在之处的梯度只能沿着山谷的方向，不会指向山峰；你走了一步之后，情况依然不变。

结果就是你只能收敛到山谷中的一个极大值，而走不到山峰上去。