论文翻译：SSI-Net: A MULTI-STAGE SPEECH SIGNAL IMPROVEMENT SYSTEM FOR ICASSP 2023-526互联

摘要

　　ICASSP 2023语音信号改善(SSI)挑战赛的重点是提高实时通信(RTC)系统的语音信号质量。本文介绍了提交ICASSP 2023 SSI挑战赛的语音信号改进网络(SSI-Net)，该网络满足实时条件。提出的SSI-Net具有多阶段体系结构。在语音恢复的第一阶段，我们提出了时域恢复生成对抗网络(TRGAN)。在第二个增强阶段，我们采用了一种轻量级的多尺度时间频率卷积网络(MTFAA-Net)，称为MTFAA-Lite来增强全频段语音。在SSI挑战盲测试集的主观测试中，我们提出的SSI-Net产生了0.835的总体平均意见得分(MOS)为3.190，0.804的总体MOS为3.178，最终在轨道1和2中排名第三。

前言

　　最近，RTC系统在广泛的远程通信和协作中越来越受欢迎。尽管高质量的语音信号对RTC系统至关重要，但当前的RTC系统仍然存在严重限制其语音质量的问题，包括环境噪声/混响、数据包丢失、带宽限制和衰减，仅举几例。ICASSP 2023 SSI挑战[1]集中解决语音中的噪声、着色、不连续、响度和混响问题，以提高RTC系统的语音信号质量。

　　针对上述复杂的任务，本文提出了多阶段框架SSI-Net。增强方法对损坏语音信号的过度抑制可能导致语音信号不可恢复。为了避免这个问题，我们在语音恢复和初步去噪/去噪的第一恢复阶段提出了TRGAN。此外，恢复阶段的输出仍然可能包含残余噪声和伪影。因此，为了进一步提高语音信号的质量，在第二阶段使用全频带语音增强模型MTFAA-Net来去除这些残余噪声和伪影。最终，我们提交的实时系统SSI-Net在轨道1和2中排名第三。

方法

　　图1显示了我们的多级框架SSI-Net由恢复阶段和增强阶段组成。TRGAN负责语音恢复和恢复阶段的初步去噪/混响。在这一阶段对原始输入波形进行处理后，我们将首先得到一个相对高质量的波形。通过短时傅立叶变换(STFT)将恢复的波形转换为复谱图，然后将复谱图馈送到MTFAA-Lite。之后，以MTFAA-Lite为主要组成的增强阶段将去除噪声和伪影，进一步提高语音质量。最终，MTFAA-Net的输出通过逆STFT (iSTFT)来产生最终的预测。下面将对这些部分进行详细的描述。

2.1. TRGAN

　　先前的工作[2]针对的是Mel域生成模型对语音信号的改进。然而，梅尔域模型忽略了相位信息的利用，限制了其性能的上界。时域模型是语音生成模型的另一种常见范式，它直接使用波形作为输入，隐式地考虑了相位信息，在语音恢复的某些领域取得了优异的效果[3,4]。因此，我们提出TRGAN在时域内实现语音信号的恢复。

TRGAN的生成器采用编码器-解码器架构。编码器由一维卷积层和残差卷积层[4]组成，具有残差结构，负责对语音波形进行下采样。相应地，解码器通过残差卷积层和一维转置卷积层对编码器输出的特征进行上采样。

　　我们利用伪正交镜像滤波器组(PQMF)[5]对生成器的输入波形进行子带分解，并对其输出进行信号重构，从而减少了参数的数量和计算量。在鉴别器方面，我们提出了多波段鉴别器，并将其与之前提出的多分辨率频域鉴别器[6]相结合，可以很好地生成不同的频率分量。

2.2. MTFAA-Lite

　　随着近年来语音增强技术的飞速发展，语音增强方法逐渐从宽带语音增强扩展到全频段语音增强。MTFAA-Net[7]是目前最先进的全频带语音增强方法，具有多尺度时频处理和流轴向注意力，在ICASSP 2022深度噪声抑制(DNS)挑战赛中取得了令人印象深刻的成果[8]。为了平衡性能和计算复杂度，我们对MTFAA-Net进行了简化，得到了用于增强阶段的MTFAA-Lite。具体来说，我们保留了MTFAA-Net中的频率下采样、频率上采样和T-F卷积模块，同时去掉了轴向自注意中具有高时间复杂度的T-attention。

实验

3.1 训练设置

　　我们从DNS Challenge数据集[8]中选择部分48kHz音频作为clean集和noise集。我们基于RT60的图像方法生成了100,000个房间脉冲响应(RIRs)[9]。在分析了来自SSI挑战开发集的音频后，我们以统计比例制作了具有诸如颜色，不连续，响度，噪音和混响等问题的音频，总共1500小时。训练集和验证集从这个1500小时的数据集中分开。

　　我们最终使用了总参数量为5.23M的SSI-Net，它的实时因子(RTF)在2.4 GHz的Intel Core i5四核CPU上为0.36。