小波变换WAVENET原始音频的生成模型-526互联

小波变换WAVENET原始音频的生成模型

摘要

本文介绍了WaveNet，一种用于生成原始音频波形的深度神经网络。该模型是完全概率和自回归的，每个音频样本的预测分布以所有先前的样本为条件；尽管如此，还是证明了它可以在每秒数万个音频样本的数据上有效地训练。当应用于文本到语音时，它会产生最先进的表现，人类听众认为它比英语和普通话的最佳参数和连接系统听起来更自然。单个WaveNet可以以相同的保真度捕捉许多不同扬声器的特性，并可以通过限制扬声器身份在它们之间切换。当被训练为音乐模型时，发现它会产生新颖且往往高度逼真的音乐片段。还表明，它可以作为一个判别模型，为音素识别返回有希望的结果。

1简介

这项工作探索了原始音频生成技术，其灵感来自神经自回归生成模型的最新进展，该模型对图像（van den Oord et al.，2016a；b）和文本（Jozefowicz et al.，2016）等复杂分布进行建模。将神经架构作为条件分布的产物，对像素或单词上的联合概率进行建模，产生了最先进的生成。值得注意的是，这些架构能够对数千个随机变量的分布进行建模（例如，PixelRNN中的64×64像素（van den Oord等人，2016a））。本文所解决的问题是，类似的方法是否能够成功生成宽带原始音频波形，这些波形是具有非常高的时间分辨率的信号，每秒至少16000个样本（见图1）。

图1：生成的语音的一秒钟。

本文介绍了WaveNet，一种基于PixelCNN（van den Oord et al.，2016a；b）架构的音频生成模型。这项工作的主要贡献如下：

•表明，WaveNets可以生成具有主观自然度的原始语音信号，这在文本到语音（TTS）领域是前所未有的，由人工评分者进行评估。

•为了处理原始音频生成所需的长程时间依赖性，开发了基于扩张因果卷积的新架构，该架构表现出非常大的感受野。

•表明，当以说话者身份为条件时，可以使用单个模型来生成不同的声音。

•在小型语音识别数据集上测试时，相同的架构显示出强大的结果，并且在用于生成音乐等其他音频模式时也很有前景。

相信，WaveNets为处理许多依赖音频生成的应用程序（例如TTS、音乐、语音增强、语音转换、源分离）提供了一个通用且灵活的框架。

2小波

在本文中，介绍了一种直接在原始音频波形上操作的新的生成模型。

波形x＝{x1，…，xT}的联合概率被分解为条件概率的乘积，如下所示：

因此，每个音频样本xt以所有先前时间步长的样本为条件。

类似于PixelCNNs（van den Oord et al.，2016a；b），条件概率分布由卷积层堆栈建模。网络中没有池化层，模型的输出与输入具有相同的时间维度。该模型输出具有softmax层的下一个值xt上的分类分布，并对其进行优化以最大化数据相对于参数的对数似然性。由于对数似然性是可处理的，在验证集上调整超参数，可以很容易地测量模型是否过拟合或拟合不足。

2.1扩张因果卷积

图2：因果卷积层堆栈的可视化。

WaveNet的主要组成部分是因果卷积。通过使用因果卷积，确保模型不会违反对数据建模的顺序：模型在时间步长t发出的预测p（xt+1|x1，…，xt）不能依赖于未来时间步长xt+1，xt+2，…中的任何一个，xT，如图2所示。对于图像，因果卷积的等价物是掩码卷积（van den Oord et al.，2016a），它可以通过构造掩码张量并在应用之前，将该掩码与卷积核进行元素乘法来实现。对于音频等一维数据，可以通过将正常卷积的输出偏移几个时间步长来更容易地实现。

在训练时，可以并行地对所有时间步长进行条件预测，因为基本事实x的所有时间步长都是已知的。当使用模型生成时，预测是顺序的：在预测每个样本后，将其反馈到网络中以预测下一个样本。

由于具有因果卷积的模型没有递归连接，因此它们通常比RNN训练得更快，尤其是当应用于超长序列时。因果卷积的一个问题是，它们需要许多层或大的滤波器来增加感受野。例如，在图2中，感受野只有5（=#层+滤波器长度-1）。在本文中，使用扩张卷积来将感受野增加几个数量级，而不会大大增加计算成本。

扩张卷积（也称为trou，或带孔卷积）是一种卷积，其中滤波器通过以特定步长跳过输入值而应用于大于其长度的区域。它相当于与从原始滤波器导出的更大滤波器的卷积，通过用零对其进行扩展，但效率明显更高。扩张卷积有效地允许网络在比普通卷积更粗糙的尺度上操作。这类似于池化或跨步卷积，但这里的输出与输入大小相同。作为一种特殊情况，扩张卷积与扩张1产生标准卷积。图3描述了扩张1、2、4和8的扩张因果卷积。扩展卷积先前已用于各种上下文，例如信号处理（Holschneider等人，1989；Dutilleux，1989）和图像分割（Chen等人，2015；Yu&Koltun，2016）。

图3：膨胀因果卷积层堆栈的可视化。

堆叠的扩张卷积使网络能够在只有几层的情况下具有非常大的感受野，同时保持整个网络的输入分辨率以及计算效率。

在本文中，膨胀对于每一层都加倍，直到达到极限，然后重复：例如1，2，4，512，1，2，4，512，1，2，4，512

这种配置背后的直觉是双重的。首先，扩张因子呈指数级增加导致感受野随深度呈指数级增长（Yu&Koltun，2016）。例如每个1、2、4、，512块具有大小为1024的感受野，可以被视为1×1024卷积的更有效和更具鉴别性（非线性）的对应物。其次，堆叠这些块进一步增加了模型容量和感受野大小。

2.2 SOFTMAX分布

对单个音频样本上的条件分布p（xt|x1，…，xt−1）进行建模的一种方法是使用混合模型，例如混合密度网络（Bishop，1994）或条件高斯尺度混合的混合（MCGSM）（Theis&Bethge，2015）。然而，van den Oord等人（2016a）表明，即使数据隐含连续（图像像素强度或音频样本值也是如此），softmax分布也会更好地工作。其中一个原因是，分类分布更灵活，更容易对任意分布建模，因为它不对其形状进行假设。

由于原始音频通常存储为16位整数值的序列（每个时间步长一个），因此softmax层需要每个时间步长输出65536个概率来对所有可能的值进行建模。

为了使其更易于处理，首先对数据应用µ律压扩变换（ITU-T，1988），然后将其量化为256个可能的值：

其中−1＜xt＜1且µ=255。这种非线性量化比简单的线性量化方案产生明显更好的重建。特别是对于语音，发现量化后的重建信号听起来与原始信号非常相似。

2.3门控激活单元

使用与门控PixelCNN相同的门控激活单元（van den Oord等人，2016b）：

其中，*表示卷积算子，表示逐元素乘法算子，σ（·）是S形函数，k是层索引，f和g分别表示滤波器和门，W是可学习的卷积滤波器。在最初的实验中，观察到这种非线性在建模音频信号方面明显优于校正的线性激活函数（Nair&Hinton，2010）。

2.4剩余连接和跳过连接

图4：剩余块和整个体系结构的概述。

残差（He et al.，2015）和参数化跳跃连接都在整个网络中使用，以加快收敛速度，并能够训练更深层次的模型。在图4中，展示了的模型的残差块，它在网络中被多次堆叠。

2.5条件小波

给定附加输入h，WaveNets可以对给定该输入的音频的条件分布p（x|h）进行建模。等式（1）现在变为

通过在其他输入变量上调节模型，可以指导WaveNet的生成，以产生具有所需特性的音频。例如，在多扬声器设置中，可以通过将扬声器标识作为额外输入提供给模型来选择扬声器。类似地，对于TTS，需要提供关于文本的信息作为额外的输入。

以两种不同的方式将模型条件化为其他输入：全局条件化和局部条件化。全局条件反射的特征在于影响所有时间步长上的输出分布的单个潜在表示h，例如嵌入TTS模型中的扬声器。方程（2）中的激活函数现在变为：

其中V*，k是可学习的线性投影，向量VT*，kh在时间维度上广播。

对于局部条件，有第二个时间序列ht，可能具有比音频信号更低的采样频率，例如TTS模型中的语言特征。首先使用转置卷积网络（学习上采样）来变换这个时间序列，该网络将它映射到具有与音频信号相同分辨率的新时间序列y=f（h），然后在激活单元中如下使用：

其中Vf，k*y现在是1×1的卷积。作为转置卷积网络的替代方案，也可以使用Vf，k*h并在时间上重复这些值。在实验中发现这种方法的效果稍差。

2.6上下文堆栈

已经提到了几种不同的方法来增加WaveNet的感受野大小：增加扩张阶段的数量，使用更多的层、更大的滤波器、更多的扩张因子，或者它们的组合。一种互补的方法是使用一个单独的、较小的上下文堆栈，该堆栈处理音频信号的长部分，并本地调节一个较大的WaveNet，该WaveNet只处理音频信号（在末尾裁剪）的较小部分。可以使用具有不同长度和数量的隐藏单元的多个上下文堆栈。具有较大感受野的堆叠每层具有较少的单位。上下文堆栈还可以具有以较低频率运行的池化层。这将计算需求保持在合理的水平，并与直觉一致，即在更长的时间尺度上建模时间相关性需要更少的能力。

3实验

为了衡量WaveNet的音频建模性能，在三个不同的任务上对其进行了评估：多传感器语音生成（不以文本为条件）、TTS和音乐音频建模。在随附的网页上提供了从WaveNet中提取的用于这些实验的样本：

https://www.deepmind.com/blog/wavenet-generative-model-raw-audio/.

3.1多扬声器语音生成

在第一个实验中，观察了自由形式的语音生成（不以文本为条件）。使用了CSTR语音克隆工具包（VCTK）（Yamagishi，2012）中的英语多说话者语料库，并将WaveNet仅限制在说话者身上。通过将说话者ID以一个热向量的形式提供给模型来应用条件调节。该数据集由109位不同演讲者44小时的数据组成。

因为该模型不以文本为条件，它以流畅的方式生成了不存在但像人类语言的单词，语调听起来很逼真。这类似于语言或图像的生成模型，样本乍一看很逼真，但仔细观察显然是不自然的。缺乏远距离连贯性的部分原因是该模型的感受野大小有限（约300毫秒），这意味着它只能记住最后产生的2-3个音素。

单个WaveNet能够通过将其限制在扬声器的onehot编码上，对任何扬声器的语音进行建模。这证实了它足够强大，可以在单个模型中从数据集中捕获所有109个说话者的特征。观察到，与仅在单个扬声器上进行训练相比，添加扬声器可以获得更好的验证集性能。这表明WaveNet的内部表示在多个发言人之间是共享的。

最后，观察到，除了声音本身，该模型还吸收了音频中的其他特征。例如，它还模仿了扬声器的声学和录音质量，以及呼吸和嘴巴的动作。

3.2文本到速度

在第二个实验中，观察了TTS。使用了与谷歌北美英语和普通话TTS系统相同的单扬声器语音数据库。北美英语数据集包含24.6小时的语音数据，普通话

数据集包含34.8小时；两位演讲者都是专业女性。

用于TTS任务的WaveNets是以从输入文本中导出的语言特征为局部条件的。除了语言特征外，还训练了以对数基频（log F0）值为条件的WaveNets。根据语言特征预测log F0值和电话持续时间的外部模型也针对每种语言进行了训练。WaveNets的感受野大小为240毫秒。作为基于示例和基于模型的语音合成基线，建立了隐马尔可夫模型（HMM）驱动的单元选择级联（Gonzavo et al.，2016）和基于长短期记忆递归神经网络（LSTM-RNN）的统计参数（Zen et al.，2016:）语音合成器。由于使用相同的数据集和语言特征来训练基线和WaveNets，因此可以对这些语音合成器进行公平的比较。

为了评估WaveNets在TTS任务中的性能，进行了主观配对比较测试和平均意见得分（MOS）测试。在配对比较测试中，在听了每对样本后，受试者被要求选择他们喜欢的样本，尽管如果他们没有任何偏好，他们可以选择“中性”。在MOS测试中，在听了每个刺激后，受试者被要求用五分的Likert量表评分（1分：坏，2分：差，3分：一般，4分：好，5分：优秀）对刺激的自然度进行评分。有关详细信息，请参阅附录B。

图5显示了主观配对比较测试结果的选择（完整表格见附录B）。从结果可以看出，WaveNet在两种语言中都优于基线统计参数和级联语音合成器。

以语言特征为条件的WaveNet可以合成具有自然分段质量的语音样本，但有时由于强调句子中的错误单词而具有不自然的韵律。这可能是由于F0轮廓的长期依赖性：WaveNet的感受野大小为240毫秒，不足以捕捉这种长期依赖性。以语言特征和F0值为条件的WaveNet没有这个问题：外部F0预测模型以较低的频率（200 Hz）运行，因此它可以学习F0轮廓中存在的长程依赖性。

表1显示了MOS测试结果。从表中可以看出，WaveNets在4.0以上的自然度中实现了5级MOS，明显优于基线系统。

在这些训练数据集和测试句子中，它们是有史以来报告的最高MOS值。

从最佳合成语音到自然语音的MOS差距在美国英语中从0.69下降到0.34（51%），在普通话中从0.42下降到0.13（69%）。

表1：来自基于LSTM RNN的统计参数、HMM驱动的单元选择级联和所提出的基于WaveNet的语音合成器、8位µ-律编码的自然语音和16位线性脉冲编码调制（PCM）自然语音的语音样本的主观5尺度平均意见得分。WaveNet显著改善了以前的技术状态，将自然语音和以前最好的模型之间的差距缩小了50%以上。

3.3音乐

对于第三组实验，训练WaveNets对两个音乐数据集进行建模：

图5：语音样本在（顶部）两个基线、（中间）两个WaveNet和（底部）最佳基线和WaveNet之间的主观偏好得分（%）。请注意，LSTM和Concat对应于基于LSTM RNN的统计参数和HMM驱动的单元选择级联基线合成器，WaveNet（L）和WaveNet（L+F）对应于仅以语言特征为条件的WaveNet，以及以语言特征和log F0值为条件的。

•MagnaTagATune数据集（Law&Von Ahn，2009），包含约200小时的音乐音频。每个29秒的剪辑都有188个标签的注释，这些标签描述了音乐的流派、乐器、节奏、音量和情绪。

•YouTube钢琴数据集，由从YouTube视频中获得的约60小时钢琴独奏音乐组成。因为它被限制在一个单一的仪器上，所以建模要容易得多。

尽管很难对这些模型进行定量评估，但通过听取它们产生的样本，可以进行主观评估。发现，扩大感受野对于获得听起来像音乐的样本至关重要。即使有几秒钟的感受野，这些模型也没有实现长距离的一致性，这导致了流派、乐器、音量和音质的秒到秒的变化。尽管如此，即使是由无条件的模型制作的样品，也往往是和谐和美观的。

特别感兴趣的是条件音乐模型，其可以在给定一组指定例如流派或乐器的标签的情况下生成音乐。类似于条件语音模型，插入依赖于与每个训练片段相关联的标签的二进制矢量表示的偏差。

这使得在采样时可以通过输入对样本的期望特性进行编码的二进制矢量来控制模型输出的各个方面。已经在MagnaTagATune数据集上训练了这样的模型；尽管与数据集捆绑在一起的标签数据相对嘈杂，并且有很多遗漏，但在通过合并类似的标签并删除那些关联片段太少的标签来清理后，发现这种方法相当有效。

3.4语音识别

尽管WaveNet是作为一个生成模型设计的，但它可以直接适用于语音识别等判别音频任务。传统上，语音识别研究主要集中在使用对数mel滤波器组能量或mel频率倒谱系数（MFCC），但最近一直在转向原始音频（Palaz等人，2013；Tuske等人，2014；Hoshen等人，2015；Sainath等人，2015）。递归神经网络——如LSTM RNN（Hochreiter&Schmidhuber，1997）一直是这些新的语音分类管道中的关键组成部分，因为它们允许构建具有长范围上下文的模型。

通过WaveNets，已经证明，扩张卷积层允许感受野以比使用LSTM单元更便宜的方式生长更长。

作为最后一个实验，在TIMIT（Garofolo等人，1993）数据集上研究了WaveNets的语音识别。对于这项任务，在扩展卷积之后添加了一个平均池化层，该层将激活聚合到跨越10毫秒的较粗帧（160×下采样）。池化层之后是一些非因果卷积。用两个损失项训练WaveNet，一个用于预测下一个样本，另一个用于对帧进行分类，该模型比单次损失更好地推广，并在测试集上实现了18.8的PER，据所知，这是从TIMIT上直接在原始音频上训练的模型中获得的最佳分数。

4结论

本文介绍了WaveNet，一种直接在波形级别操作的音频数据深度生成模型。

WaveNets是自回归的，并将因果滤波器与扩张卷积相结合，以允许其感受野随深度呈指数增长，这对于模拟音频信号中的长程时间依赖性很重要。已经展示了WaveNets如何以全局方式（例如说话者身份）或局部方式（例如语言特征）以其他输入为条件。

当应用于TTS时，WaveNets产生的样本在主观自然度方面优于当前最好的TTS系统。最后，WaveNets在音乐音频建模和语音识别中显示出了非常有前景的结果。

datawhale diffuser模型音频

电路频率模型音频

wavenet笔记graph

transformers模型音频hugging

stability模型音频stable

模型文本音频whisper

音频