论文翻译:GESPER: A UNIFIED FRAMEWORK FOR GENERAL SPEECH RESTORATION

发布时间 2023-08-01 16:37:33作者: 稚心!

摘要

  本文描述了-腾讯团队提交给ICASSP 2023语音信号改善(SSI)挑战赛的实时通用语音恢复(Gesper)系统。该系统采用两阶段结构,首先进行语音恢复,然后进行语音增强。我们首次提出了一种基于复杂频谱映射的生成对抗网络(CSM-GAN)作为语音恢复模块。针对噪声抑制和去噪,提出了带宽并行处理的增强模块。在ICASSP 2023 SSI挑战赛盲测集上,所提出的Gesper系统达到了3.27 P .804总体平均意见得分(MOS)和3.35 P .835总体意见得分(MOS),在track 1和track 2中均排名第一,且满足实时条件。

前言

  实时通信(RTC)系统,如电话会议系统、智能手机和电话,已经成为个人生活和工作中的必需品。然而,由于声捕获、噪声/混响破坏和网络拥塞的影响,当前RTC系统的语音质量仍然不足。ICASSP 2023 SSI挑战赛[1]侧重于提高RTC系统中的语音信号质量,涉及解决各种复杂声学条件下语音的噪声、着色、不连续、响度和混响等问题。
  在本文中,我们提出了一个统一的通用语音恢复两阶段框架,即Gesper,它执行“恢复和增强”,以解决SSI挑战中的复杂问题。考虑到降噪方法对退化语音信号的过度抑制可能会大大增加恢复所需语音信号的难度,我们首先采用CSM-GAN作为恢复模块进行语音失真恢复、窄带带宽扩展(BWE)以及初步去噪和去噪。此外,由于恢复模块的输出中可能仍然存在残留的噪声成分和伪影,为了进一步提高语音信号的质量,在第二阶段采用了全宽带并行处理的增强模块[2]。

方法

  如图1所示,我们提出的Gesper系统由恢复模块和增强模块组成。对输入的时域音频波形进行实时声级调整后,对修改后的音频波形进行短时傅立叶变换(STFT),得到复频谱。然后将复杂频谱的实部和虚部馈送到两阶段架构中:1)恢复模块首先执行语音失真恢复,并使用生成对抗网络进行初步去噪和去噪;2)增强模块基于恢复模块生成的相对高质量的语音复杂频谱,进一步消除残余噪声成分和伪影。每个模块将在以下两部分中详细描述。

2.1. 恢复模块

  在语音相关领域,已有很多时域生成模型[3]、梅尔域生成模型[4]等。然而,时域生成模型较差的高频表示和mel域生成模型对相位信息的充分利用使得它们都不适合该挑战的复杂场景。因此,我们首次利用语音增强和语音合成的最新进展,提出了CSM-GAN作为我们的恢复模块。
  CSM-GAN的生成器是一个基于谱映射的复数UNet。其编码器包含2个卷积密集层和3个卷积层,解码器包含相应的转置卷积层和转置卷积密集层。在编码器和解码器之间,有堆叠的时间卷积网络块用于时间建模。为了减少参数的数量和计算量,我们将全频带复数频谱分成3个子频带,然后在信道维度上进行拼接,最后交给生成器处理。鉴别器采用了多分辨率频率鉴别器[5]和我们提出的多波段鉴别器,克服了不同子波段动态范围大的问题。

2.2. 增强模块

  为了保持性能和减少计算量,我们在增强模块中进行了全带宽并行处理。更具体地说,我们将全带宽复数频谱分为两组特征:宽带语音的复杂频谱和通过带分裂包含全带信息的32个等效矩形带宽(ERB)带。随后,引入宽带TaylorEnhancer [6] (TaEr)和基于全频带掩膜的UNet (FBM UNet)[7],分别对宽带复频谱和ERB波段进行并行处理。TaEr具有优越的宽带噪声抑制能力,专注于宽带语音增强,而FBM UNet具有全频段处理复杂度低的优势。然后通过带合并操作将两个子网的输出集成到增强的全频带复杂频谱中。

实验

3.1. 实验设置

  我们从DNS挑战数据集[8]和我们的私有数据集中选择不同采样率的子集作为我们的干净集和噪声集。基于图像法生成房间脉冲响应(RIRs)。我们对devset和腾讯会议积累的问题音频进行了分析,并针对着色、不连续、响度、噪声、混响等问题的具体案例,模拟了一个1500小时的数据集,如图2所示。
  我们用20毫秒的窗口长度和10毫秒的帧移位应用汉宁窗口。Gesper的总参数数为12.1 M,在英特尔酷睿i5四核CPU(时钟频率为2.4 GHz)的单线程下,其实时因子(RTF)为0.37。

3.2. SSI挑战盲源测试集的评估

  表1显示了SSI挑战盲测集上多维主观测试的部分结果。可以看到,相对于噪声信号,Gesper在所有指标上都产生了显著的改进。这表明我们提出的Gesper系统有效地解决了影响语音信号质量的噪声、着色、不连续、响度和混响等问题。

结论

  本文介绍了我们对ICASSP 2023 SSI挑战赛的提交。我们提出的两阶段框架Gesper在解决噪声、着色、不连续、响度和混响等降低语音质量的挑战方面取得了令人印象深刻的成果。提出的实时系统在ICASSP 2023 SSI挑战赛的轨道1和2中排名第一。