寻找翻译法:测试语音识别系统的翻译准确度
在后续实验中,研究人员创建了三个语音识别系统:
End2End语音识别系统,它借助c语言和开放源码来接受Librispeech数据集的培训,并通过自动将原始英语文本翻译成目标语言,来对语料库进行“反哺式”扩充。* Cascade,其与End2End的核心技术相同,其区别在于,它从OPUS库中提取并训练了7000万对英语-意大利语数据和1.2亿对英语-法语语言数据,最后对训练数据进行微调,提供大量语料信息。* Cascade+Tag系统,又在Cascade的基础上,在训练数据中添加了许多能够表明说话者性别的语料标签。
有趣的是,研究人员发现,在“MuST-SHE”上进行实验时,将性别信息输入Cascade语音识别系统,并没有收到显著效果。数据集中原始引用和“错误”引用之间的差异值表明,这三个系统都偏向于男性语言思维模式,似乎女性被放在了弱势地位。
三类语音识别系统的产出成果衡量示意图
在语料分类方面,Cascade在区分第一类翻译语料时表现最差,因为它无法获取说话者的性别信息,从而无法翻译出正确的语句。相比之下,End2End能够利用音频特性来准确地标注出说话者的性别,但它在区分第二类翻译语料上表现最差,原因可能在于它提取的训练数据集比较小,不足以让它推断出比较清晰的翻译思路。
研究人员写下了他们的实验感想:“如果在系统中输入'机器吃什么’这样的话语,那么AI可能会根据人类的食谱来列举出具体的菜单,这就是站在人类的角度,对'吃'这个用词阐发思考。它也可能站在机器的角度,写出机器吃汽油之类的答案。但是通过对'吃'这个字的翻译解释,我们就能得到这样的结论:AI的巨大优势在于,它能够从输入的音频信号中推断说话者的性别/属性。这说明它的可塑性其实非常强。”
谷歌也在谷歌翻译软件中引入了性别区分翻译意识,主要目的也是为了解决性别偏见。谷歌研究团队将AI翻译的性别差异性通过一种被称为StereoSet的指标体现出来,以显示哪种系统翻译方式比较可行,那种语料库比较切合这种翻译识别方法。希望在不久的将来,性别偏见可以真正从AI市场上被根除殆尽。
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。