三、SqueezeWave的改进措施
通过对WaveGlow的分析发现最主要的计算量来自于输入音频波形的形状(长度)。WaveGlow的输出维度为(L=2000,Cg = 8)这会从三个方面带来非常高的计算复杂度:WaveGlow是一维卷积,其计算复杂度随L线性增长;为了提高梅尔谱的时域分辨率需要对其进行上采样,由于上采样是由现有样本简单插值而成的意味着in_layer中其中绝大部分计算是没有必要的;在WN函数中,8通道的输入被映射到了256到512维中间维度,虽然增加了模型容量但是在输出时又被压缩为8通道,中间维度的信息将会不可避免的丢失。
为了改进这些计算复杂的细节,研究人员将输入音频变形为较小的时域长度和较多的通道上来,同时保持WN函数中的通道尺寸。下面是两种改进的细节。当L=64时,时域长度与梅尔谱相同无需上采样,而L=128时,梅尔谱仅需要进行最邻近采样,这样进一步减少了cond_layer的计算开销。fig2深度可分离卷积减小计算量。
此外,研究人员还利用深度可分离卷积代替了in_layer中的一维卷积,用于处理1D音频信号。一维卷积将输入转换为,其中卷积核的尺寸为,计算量为MACs.利用深度可分离卷积可以将计算量减小为:
当K=3,Cout = 512时候,这种方法可以减小近三倍的计算量。
除此之外,由于时域长度减小不再需要利用膨胀卷积增加感受野,所以都用常规卷积进行代替更加适合硬件计算;将res_skip_layer的两支输出分支合并,减小了最终的输出通道数目。在下图中可以看到SqueezeWave的改进:
四、实验结果
为了验证模型的性能,研究人员将本文提出的SqueezeWave(SW)与WaveGlow和基准进行了比较,下表中SW-128L代表L=128的模型:
可以看到SW系列模型的计算量相较于WaveGlow大幅下降,而性能却能保持较高的水平。
为了验证在边缘设备的性能,上表还比较了在Macbook Pro和树莓派上的结果,可以看到甚至在树莓派上都可以达到5.2k-21k/s的样本生成速度。其中SW128S已经能够生成实时并且高质量的音频结果了。
关于我门
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。