解释一下为为什么使用 instance normalization可以消除说话人信息，保留说话人内容-526互联

在content encoder中使用instance normalization，可以起到去除说话者信息的作用。首先来看一下instance normalization的原理，一般会对输入语音做conv1d得到feature map，有几个conv1d filter就会得到几个feature map，可以将这个过程理解为每一个filter都在提取声音的一个特征，通俗一点假设，第一个filter是检测高频分量的多少，第二个filter是检测低频分量的多少，那很显然男女生说话时高频和低频的成分是不同的。有了这个假设前提现在来看下instance normalization做了什么，它对每一种feature map求均值和方差（对每个样本，假如有256个通道，就是256个样本），从而将它们变换成零均值单位方差的数值分布，从数值上消除了各个filter所提取特征的差异，可以简单的理解为消除了各个说话者之间的特征差异，进而保证了最终只输出和content相关的信息