论文翻译:PCEN-Per-Channel Energy Normalization: Why and How

发布时间 2023-07-27 16:05:13作者: 稚心!

摘要:

  在自动语音识别和声学事件检测的背景下,一种名为其次,我们描述了PCEN中每个分量的渐近状态:时间积分、增益控制和动态范围压缩。最后,给出了PCEN参数与待抑制噪声、待增强信号的时间特性、时频表示的选择相适应的实用建议。由于它将大量真实世界的声景转换为加性高斯白噪声(AWGN), PCEN是一种计算效率高的前端,用于异构环境中声学事件的鲁棒检测和分类。

前言:

  在许多声音分类任务中,包括自动语音识别(ASR)[1]、声学事件检测(AED)[2]和生物声学物种分类[3],频率的转变是各类间变异的主要因素。将听觉滤波器调整到感知梅尔尺度提供了一种时间频率表示,称为梅尔-频率谱图,其中任何周期性音频信号的频率转置都成为垂直平移[4]。在单一源存在的情况下,该特性允许时频域中的卷积算子[5],如卷积神经网络[1]和时频散射[6],提取基音轮廓作为频谱时间模式,而不考虑其基频,这一特性被称为等方差[7],[8]。
  此外,在真实世界的音频记录中,特别是在户外,通常会有多个源[9]。即使将分类任务缩小到仅识别最显著的源(之后称为前景),背景噪声的存在也不利于mel-frequency轴上的等方差[10]。事实上,一方面,类内的可变性导致前景的频率变换,而背景不受影响。另一方面,只有当前景和背景碰巧同时调换时,才可能出现等方差。这两个假设之间的矛盾阻碍了学习卷积核在不同基频的声学相似事件中的泛化性。为了使它们协调一致,背景必须来自一个沿mel-frequency轴平稳的随机过程[11]。事实上,如果训练集中的背景噪声是加性的、白的和高斯的(AWGN),那么深度神经网络对对抗加性扰动的鲁棒性在理论上是最优的[12]。然而,在没有任何进一步处理的情况下,现实声学场景的mel-frequency谱图E(t, f)中的幅度通常是稀疏的,并且在mel图的时间t和频率f上具有强相关性[13],因此不能用AWGN近似。
  其中α,ε,r和δ是非负常数。DRC减少了前景响度的变化,而AGC旨在抑制静态背景噪声。由此产生的表示已被证明可以提高远场ASR[15]、AED[16]、关键词识别[14]、[17]和音乐中的声乐活动检测[18]的性能。然而,本文旨在通过经验展示PCEN如何在各种声学条件下高斯化和白化梅尔频率幅度谱,通过理论和实践的结合来表征其各种参数的影响,并提供具体的指导方针,在给定的应用环境中设置它们以优化性能,从而解决这一差距。

为什么pcen有效: 一个统计分析

  图1比较了logmelspec和PCEN在复杂声学场景中的作用:PCEN增强了chirped(吱喳而鸣)事件,将背景噪声转换为没有远程相互作用的光谱时间纹理。为了在各种声学条件下证明这一特性,我们对城市、城郊和农村录音样本进行了logmelspec和PCEN输出的比较统计分析。
  图1所示: 由鸟鸣、昆虫鸣叫和过往车辆组成的声景。梅尔频率谱图(a)的对数变换将所有振幅映射到类似分贝的尺度,而每通道能量归一化(b)增强瞬态事件(鸟叫声),同时丢弃静止噪声(昆虫)以及响度的缓慢变化(车辆)。数据由BirdV提供,mel频谱图和PCEN采用默认librosa 0.6.1参数计算,T = 60 ms(见第四节)。

A. 数据集

  SONYC数据集由66个10秒的录音组成,这些录音来自几个月来部署在纽约市的51个传感器[19],涵盖22个城市声音类别:汽车喇叭声、人群声、手提钻声等。因此,SONYC数据集总计为22 × 3 × 10 = 660秒的音频(7.3M个系数)。
  DCASE 2013场景分类(SC)数据集由佩戴双耳麦克风的人在英国伦敦附近的各种城市周边地点(室内和室外)进行记录[20]。它由100个半分钟的录音组成,来自10个不同的声景类别(露天市场,餐馆,巴士等),总计100×30 = 3000秒的音频(33M系数)。
  BirdVox项目在美国纽约州伊萨卡附近使用9个声学传感器来监测鸟类迁徙[21]。在完整的BirdV ox数据中的7k小时音频中,我们手动策划了15个一分钟的录音;结果子集为15 × 60 = 900秒的音频(10M系数)。

B. 震级的高斯

  图2显示了mel-frequency谱图系数矩阵中所有幅度的直方图,经过对数变换或PCEN。我们观察到,对于三个数据集中的每一个,logmelspec的大小都呈现偏态分布,向左(BirdV ox)或向右(SONYC, DCASE 2013 SC)。用适应的Box-Cox幂变换代替对数[22]原则上可以改善正态性,但其两个参数(偏移量和指数)的最大似然推断不足以用于实时应用。此外,我们在实践中发现,对数和自适应Box-Cox都会导致细尾分布。相反,PCEN成功地使幅度分布更接近高斯分布,偏度和峰度都可以忽略不计。
  图2所示。logmelspec (a)和PCEN (c)后mel-frequency谱图中的震级分布,在三个声学场景数据集上估计:SONYC(左);DCASE 2013 SC(中);和BirdV ox(右)。每个分布都缩放到零均值和单位方差,并使用500个直方图箱进行离散,范围在- 4到4之间。为了便于比较,虚线表示标准正态分布。详情见小节II-B。
  夏皮罗-威尔克正态性检验表明,有统计上显著的证据表明,对数变换会使谱图幅度分布高斯化(在所有三个数据集上p < 0.005)。同时,同样的检验不能拒绝PCEN震级分布正态性的零假设。

C.频段去相关的谱图白化

  图3显示了跨频率通道的梅尔频率谱图系数的协方差矩阵。虽然对数变换在非相邻波段之间存在很强的互相关关系,但PCEN的协方差矩阵接近恒等,表明噪声被“白化”了。
  图3所示。在三个声学场景数据集上估计的对数变换后的频率通道协方差矩阵(a)和PCEN (b): SONYC(左);DCASE 2013(中);和BirdV ox(右)。深色表示绝对值的协方差较大。详情见小节II-C。

PCEN是如何工作的:一个渐近分析

PCEN的能力,以高斯化和白化的录音背景是其三个组成部分的操作的结果:时间积分,自适应增益控制和动态范围压缩。在本节中,我们的目的是通过渐近分析来阐明这三种操作的参数空间。

A. Temporal integration(时间整合)

  用φ t滤波E(t, f)中的每个子带f,目的是估计f处背景噪声的强度,同时保持前景事件强度不变。假设f处前景的调幅比背景的调幅快,则应选择T高于前景调幅的典型周期,低于背景调幅的典型周期。调频(FM)也是如此:PCEN增强了mel频谱图中的啁啾事件,这些事件从一个子带f移动到下一个子带的时间比T短,同时衰减较慢的FM。因此,T是背景平稳状态和前景瞬态状态之间的过渡阈值。PCEN的原始实现[14]将φ T (T)定义为一阶IIR滤波器,其对E(T, f)的响应为:
  其中,0 < s < 1为相关自回归过程(AR(1))的权重,τ为离散化时间步长(“跳长”),单位为秒。
  命题III.1。式2中定义的自回归滤波器φ T是增益为0 dB的低通滤波器,在3 dB处的截止频率ωc = 2πτ T = arccos(1−s2 2(1−s)),在ωc附近的旁瓣衰减为10 dB / 10。
图4给出了φ T在不同T值下的频率响应:

B.自适应增益控制(AGC)

平滑的mel-frequency谱图M(t, f)估计每个频带f(其中背景被定义为比t慢的AM)中的平稳背景噪声水平,并用于适应以下等式分母中的增益水平:
  其中0 < α < 1。ε > 0)为指数。AGC软阈值)。这一阶段类似于均值方差重整化[23]、相对光谱(RASTA)[24]和倒谱均值归一化[25]。参数ε区分了两种状态:沉默(M(t, f) 》ε)和活动(M(t, f) 》ε)。将E(t, f)乘以某个常数C导致G(t, f)在无噪声状态下大约乘以C,在有源状态下乘以C1−α。对于单位舍入阶的ε和接近于1的α,证明了AGC在准静止频段是非膨胀的,在有源频段是强压缩的。
  图5说明了特征m7→(M + ε)−α对命题III.2中描述的渐近域的经验拟合。在活性状态下,使α更接近于1。到0)导致更多(回应)。更少的)背景噪声抵消。在ε = 0, α = 1的极限情况下,下面的命题证明了谱均衡并不影响G,因为它对分子E的影响被AGC用M补偿了。
  命题III.3。设h(t)为某声环境或录音设备的脉冲响应。如果f < 1 T时|bh|(f) = 0,且在可听范围内的每个f时|bh|(f) > 0,则G对于h对底层波形的滤波是不变的。来自[26]的这一结果使得PCEN适用于遥感应用,其中声学模型需要对环境吸收特性的变化具有鲁棒性,也适用于传感器技术[5],[27]。

C.动态范围压缩(DRC):

  PCEN的最后阶段是将正偏置δ加到G(t, f)上,然后对和逐点求幂:
  式中0 < r < 1。δ > 1)为指数。软阈值)的动态范围压缩。
  参数δ区分了两种状态:安静(G 》δ)和大(G ?δ) AGC后。对于M(t, f) 》ε乘以E(t, f)乘以某个常数C,导致G(t, f)在安静状态下乘以C1−α,在嘈杂状态下乘以Cr(1−α)。因此,对于较小的r值,DRC更强。
  命题iii.4。PCEN渐近等价于:(i) rδ (r−1)G对G 《δ和to (ii) G 》δ。
  DRC类似于语音恢复中的谱减法[28]。图6说明了特征G 7→(G+δ)r−δ r对命题III.4中描述的渐近状态的经验拟合。

实用的建议

A. Setting parameters T and s

  如第III-A节所讨论的,时间常数T(与无量纲参数s直接相关)应大于调频前景事件从一个子带f移动到另一个相邻子带所花费的时间。对于mel(fmin)和mel(fmax)之间N个波段的mel频率谱图,AED中PCEN的经验法则是
  其中c是感兴趣的事件的典型chirp率,单位为每秒梅尔数;K是一个常数,取决于环境的混响特性。如果将梅尔频谱图替换为常数Q变换,则经验法则简单地变为T × c × Q = K,其中c(表示p。Q)以八度(resp)表示。八度每秒)。K在干燥环境中约为1,在生物声学事件检测等高混响环境中约为10以上[29],[30]。
  在公式5中,T的最优值不仅取决于感兴趣的物理现象(通过啁啾率c和混响常数K),还取决于mel-frequency谱图参数化的选择(通过N、fmin和fmax)。因此,在超参数优化的情况下,时频表示分辨率的任何变化都应该反映在T的更新上,T又通过下式更新s。
提案四。在离散速率τ−1时,式2定义的自回归滤波器φ T的权值s为:

B. Setting parameters ε and α

  根据[14],我们通过经验发现T和α是最重要的参数。虽然α = 1导致平稳背景的最佳消除(见Prop。III.3),它可能使震级分布向右偏斜。将α值设置为1以下可以减少偏度,使背景更接近AWGN。然而,我们发现ε只要设置在单位舍入以下就没有影响。

C. Setting parameters δ and r

  δ和r的影响在前景时频区比在背景时频区更明显。刚果民主共和国阈值δ> 1集之间的权衡改善前景色到背景色的平均比率(δ在高噪声应用程序→+∞)和减少方差的响度前景事件(δ→1)。此外,如果前台源瞬变时间尺度T和d在距离传感器的能量E (T, f)正比于1 d2:因此,在一个固定的背景噪音水平(T, f),一个有1 G∼d2和PCEN∼1 d2r。我们建议室内应用(d ~ 10 m) r = 12,室外应用(d ~ 100 m) r = 14。

D. Open source implementation of PCEN in librosa

  我们在librosa v0.6.1中发布了PCEN的开源实现[31],其默认参数与[14]相同:T = 400 ms(即s≈0.025,τ = 23 ms), ε = 10−6,α = 0.98, δ = 2, r = 12。而这些默认值最适合室内应用程序(例如ASR智能家居),bioacoustic事件检测区分本身速度调节的前景(T)较低,较高的偏态的背景大小(降低α),声音背景(δ),和更遥远的来源(r)较低。因此,我们采用以下设置鸟检测工作:T = 60 ms与Q = 50和τ= 1.5毫秒,ε= 10−6,α= 0.8,δ= 10,r = 0.25。对幅度直方图(图2)和协方差矩阵(图3)的检查表明,这样的设置导致子带的高斯化和去相关化成功。

结论

  与主成分分析(PCA)等批量学习去相关过程不同,PCEN可以实时实现并分布在传感器之间[19];此外,它还保留了沿mel-frequency轴的谐波模式的局域结构[32]。虽然它取决于可能与频率相关的五个参数(T, α, ε, r和δ),但本文表明,这些参数中的每一个都具有可解释的目的,并给出了理想状态下PCEN方程的渐近逼近:安静与活跃(ε),平稳与瞬态(T),安静与响亮(δ)。在ASR和AED的深度学习背景下,我们的研究结果可以为PCEN的可训练版本产生适应性良好的初始值[14],以及对所有学习参数的事后解释。