Xavier Initialization和Kaiming Initialization

2019-12-31

在训练网络的时候,一个好的初始化权重肯定是很重要的,它决定了你后续训练的效果,以及收敛的速度.

下面就进入正题:
早期的参数初始化方法普遍是将数据和参数normalize为高斯分布（均值0方差1），但随着神经网络深度的增加，这方法并不能解决梯度消失问题。
Figure 1: XavierInitialisation.pdf

Xavier初始化的作者，Xavier Glorot，在Understanding the difficulty of training deep feedforward neural networks论文中提出一个洞见：激活值的方差是逐层递减的，这导致反向传播中的梯度也逐层递减。要解决梯度消失，就要避免激活值方差的衰减，最理想的情况是，每层的输出值（激活值）保持高斯分布。

如果初始化值很小，那么随着层数的传递，方差就会趋于0，此时输入值也变得越来越小，在sigmoid上就是在0附近，接近于线性，失去了非线性.(sigmoid在0附件的时候,等似于y=x,这时候就接近线性)
如果初始值很大，那么随着层数的传递，方差会迅速增加，此时输入值变得很大，而sigmoid在大输入值写倒数趋近于0，反向传播时会遇到梯度消失的问题.

因此，他提出了Xavier初始化：bias初始化为0，为Normalize后的参数乘以一个rescale系数：1/\sqrt n，n是输入参数的个数。

而Xavier初始化的问题在于，它只适用于线性激活函数，但实际上，对于深层神经网络来说，线性激活函数是没有价值，神经网络需要非线性激活函数来构建复杂的非线性系统。今天的神经网络普遍使用relu激活函数。

aiming初始化的发明人kaiming he，在Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification论文中提出了针对relu的kaiming初始化。

因为relu会抛弃掉小于0的值，对于一个均值为0的data来说，这就相当于砍掉了一半的值，这样一来，均值就会变大，前面Xavier初始化公式中E(x)=mean=0的情况就不成立了。根据新公式的推导，最终得到新的rescale系数：2/\sqrt

def _initialize_weights(self):
  # y是0,1，2,3序号，m是AlexNet里面的一个个卷积或者BN层，或者全连接层
  for y,m in enumerate(nn.module()):
    # 用来判断一个函数是否是一个已知的类型，类似 type()。
    # 如果是卷积的话，(number of filters, kernel size, stride, pad)
    if  isinstance(m,nn.Conv2d):
      # W*H*channel,还有一个在卷积层到全连接层的时候的尺寸是:batch_size*W*H*outchannel.n是总的参数的个数
      n=m.kernel_size[0]*m.kernel_size[1]*m.outchannels
      #outchannels是这一层输出的feature map的个数,也就是有outchannels个卷积核,
      #所有遍历这些卷积核进行初始化,让其满足高斯正态分布
      for i in range(m.outchannels):
        m.weight.data[i].normal_(0,math.sqrt(2=./n))
      if m.bias is not None:
        m.bias.data.zero_()

    elif  isinstance(m,nn.BatchNorm2d):
      m.weight.data.fill_(1)
      m.bias.data.zero_()
    # 如果是全连接层的话，将权重设置为均值为0，标准差为0.01的高斯随机数
    elif isinstance(m,nn.Linear):
      m.weight.data.normal_(0,0.01)
      m.bias.data.zero_()