伯克利提出超轻量级声码器SqueezeWave: Mini身材, Maxi速率

三、SqueezeWave的改进措施

通过对WaveGlow的分析发现最主要的计算量来自于输入音频波形的形状（长度）。WaveGlow的输出维度为（L＝2000，Cg ＝ 8）这会从三个方面带来非常高的计算复杂度：WaveGlow是一维卷积，其计算复杂度随L线性增长；为了提高梅尔谱的时域分辨率需要对其进行上采样，由于上采样是由现有样本简单插值而成的意味着in＿layer中其中绝大部分计算是没有必要的；在WN函数中，8通道的输入被映射到了256到512维中间维度，虽然增加了模型容量但是在输出时又被压缩为8通道，中间维度的信息将会不可避免的丢失。

为了改进这些计算复杂的细节，研究人员将输入音频变形为较小的时域长度和较多的通道上来，同时保持WN函数中的通道尺寸。下面是两种改进的细节。当L＝64时，时域长度与梅尔谱相同无需上采样，而L＝128时，梅尔谱仅需要进行最邻近采样，这样进一步减少了cond＿layer的计算开销。fig2深度可分离卷积减小计算量。

此外，研究人员还利用深度可分离卷积代替了in＿layer中的一维卷积，用于处理1D音频信号。一维卷积将输入转换为，其中卷积核的尺寸为，计算量为MACs．利用深度可分离卷积可以将计算量减小为：
当K＝3，Cout ＝ 512时候，这种方法可以减小近三倍的计算量。

除此之外，由于时域长度减小不再需要利用膨胀卷积增加感受野，所以都用常规卷积进行代替更加适合硬件计算；将res＿skip＿layer的两支输出分支合并，减小了最终的输出通道数目。在下图中可以看到SqueezeWave的改进：

四、实验结果

为了验证模型的性能，研究人员将本文提出的SqueezeWave（SW）与WaveGlow和基准进行了比较，下表中SW－128L代表L＝128的模型：

可以看到SW系列模型的计算量相较于WaveGlow大幅下降，而性能却能保持较高的水平。

为了验证在边缘设备的性能，上表还比较了在Macbook Pro和树莓派上的结果，可以看到甚至在树莓派上都可以达到5．2k－21k／s的样本生成速度。其中SW128S已经能够生成实时并且高质量的音频结果了。

关于我门

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

伯克利提出超轻量级声码器SqueezeWave: Mini身材, Maxi速率

相关推荐