为什么神经网络在考虑梯度下降的时候,网络参数的初始值不能设定为全0,而是要采用随机初始化思想?

其中涉及的权重对称问题怎么理解?
关注者
86
被浏览
43,327

9 个回答

设想你在爬山,但身处直线形的山谷中,两边是对称的山峰。

由于对称性,你所在之处的梯度只能沿着山谷的方向,不会指向山峰;你走了一步之后,情况依然不变。

结果就是你只能收敛到山谷中的一个极大值,而走不到山峰上去。

看了很多优秀的回答,我这里强行总结一下,如有不对之处,还请指出。

简而言之就是:

当每层的W一样时,检测的特征也一样,网络经过前向传播和反向传播后,每层的W值更新后大小还是一致,因此检测的特征也还是一样。

每层的W一样,会使得多层的效果和一层的效果是一致的,因为提取的特征是重复的,即出现模型退化问题。

所以神经网络参数的初始值不能全相同,初始值全设为0即使一个特例,自然初始化是无效的。