陷入“人机耦合”的AI同传：向人类偷师、与人类共事

最近科技圈里火了一个词叫“人机耦合”，主要原因当然是因为此前科大讯飞人工同传“假扮”AI同传，而科大讯飞将这种人工写出译文、机器发音的方式称为人机耦合，而用户们则用这个词表示对科大讯飞的调侃。

这也再度加大了AI同传在机器翻译领域中的关注度相，除了大众印象中的造假，对于行业内来说，AI同传任务处理上实时性、专业度的要求都极高，容错率也相对更低，在机器翻译领域算是一个难度很大的任务，甚至有人称之为机器翻译的“圣杯”。解决好AI同传问题，也就标志着这家企业在机器翻译技术已经达到一定高度，解决其他问也也不在话下。

是圣杯，自然少不了挑战者。除了孜孜不倦的独角兽，微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题。但今天我们想来谈谈的是，AI同传真正的“人机耦合”到底应该是什么样？

是什么为AI同传送上圣杯

AI同传之所以难度能够达到“圣杯级别”，还是来自于语言本身的复杂程度和不同语言之间的巨大差异。

给前者举个例子，对于机器翻译，尤其是语音转码文字的部分来说一个很大的难点就是同音不同字，有其有的词同音不同字并且意义差距很大。比如南方or男方。

后者则主要体现在语序的差异上，中文上说“她送给我的花很美”，英文上却说“The flowers she gave me are beautiful”，在不听完整个句子之前，是很难给出准确翻译结果的，因为在在中文中作为主语我“花”出现在“她送给我”这一定语之后，可英文中主语“The flowers”却出现在句子的开头。

所以目前大多数AI同传，要么是等待一个完整的句子说完后，再进行翻译，要么是根据当前识别结果进行翻译，然后随着识别字数的增加，不断修正结果。

不管哪种方式，基本上都带有一个句子的延迟时间。尤其是遇到同音不同字的问题时，很多同传系统只要认定了第一次识别的语音，很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。

可我们应用同传，不就是为了和整场对话同步获得信息吗？想象一下，在重要商务场合中你和合作伙伴谈笑风生，然而合作伙伴说“前门楼子”AI同传却告诉你“胯骨轴子”……

总之由于应用场景相对苛刻，AI同传的技术迟迟都没能达到应用条件。

万能的人类老师，是如何做同声传译的？

那么人类又是如何解决这些问题的呢？

首先，人类译员在进行同传翻译时往往会先做大量的准备工作，了解应用领域的专业术语，本质上是对自己的词汇库进行一个“收敛”，又对该专业领域的用词进行学，减少同音近义、一词多义时发生翻译错误的可能。

建立在准备的基础上，译员在进行翻译时会有一定的预测性，例如“The flowers she gave me are beautiful”这句话的翻译中，看到“The flowers”这个单词，译员就可以结合上下文和语境去判断花一定是别人赠送来的，所以可以同步翻译出“她送给我的花”。这样一来就可以赶在句子说完前就进行翻译，尽可能的保证即时性。

可即便如此，人工同声传译也并不是完美的。由于信息量巨大，译员只能在保证速度的前提下牺牲一部分质量。据了解，同传译员的译出率仅有60－70％左右，即讲话人讲了100个句子，仅有60－70个句子的信息被完整传递给听众。同时由于需要高度精神集中，译员往往需要每15－20分钟就需要换班休息。

向人类偷师，哪些机器翻译技术正在人机耦合？

而这些人类在工作时体现的智慧和优势，往往会被人工智能学习和利用。我们可以发现，很多机器翻译技术已经开始学会利用“背景知识”和“预测”这两个关键逻辑了。

从背景知识的层面来讲，人类之所以能够分辨同音近音字，是因为对于语境和背景知识有着充足的了解，把不符合当前词汇库的同音词“剔除”了。

所以现在有一些机器翻译技术开始应用上了这样的解决方案：提升容错率，忽略语音－文字转码阶段的错误，进而去提升文字翻译阶段的正确率。

例如百度同传的“语音容错”的对抗训练翻译模型，重点就在于有意在训练数据集中加入针对性的噪声数据，这样即使模型接受到错误的语音识别结果时，也能给出正确的译文。什么叫“针对性”的噪声数据呢？就是把成对、成组出现的噪声词一起收录，比如前文提到的南方和男方，再将源语言句子进行替换，把“南方天气很潮湿”替换为“男方天气很潮湿”，而两个句子的结果都设定为“The weather is very humid in the south”，一起用作训练从而提升模型的容错能力。

而清华大学也曾经发布过一篇论文，推出了一种应用于语音识别的快速容错算法，则是通过前序对话划定词典范围提前剪枝，限制了算法的搜索空间。例如双方的对话提到“电话号码”，那么接下来语音对话中的“yī èr sān sì”就会更倾向于转码成“一二三四”，而不会在“医衣依……”等等词典中进行匹配搜索。

至于预测性，在机器翻译领域中应用的也不少。在NLP领域中应用颇多的文本生成技术，已经可以做到补完缺词句子的工作。

像Facebook推出的无监督机器翻译，就是对语言模型进行局部编辑，圈定一个可嵌入的单词范围，再为不同的单词排序打分，流畅的句子得分要高于语法错误和不通顺的句子。如果应用在AI同传中，也可以在演讲者的句子完成前以更快的速度进行翻译。

百度也推出了一种名为“wait－k words”的技术，即等待讲话时后的第k个词开始翻译，通过对讲话者的语言风格数据进行训练，实现预测能力。同时还可以根据不同语种之间的差异性和不同场景的需求程度来调整K值，比如西班牙语和葡萄牙语在语法上非常接近，K值就可以被调整为1或者2，极大的提高及时性。或者当使用者位于非常严肃的政治会议场合，K值就可以被调整为5或者更高，因此来保证严谨性。

去年谷歌推出的Transformer则是一个基于自注意力机制的全新神经网络架构，也是忽略单词在句子中的先后位置，而句子中所有单词之间的关系直接进行建模。所以一个单词先出现还是后出现，对于自然语言处理来说影响开始没那么大了。

总之，这些模仿人类处理问题方式的技术突破才是真的“人机耦合”。

想捧起圣杯，AI同传应该避免独行

当然，即便如此，AI同传还是面临着很多问题。

尤其是人在口语表述时往往会带有一些习惯性的语气词，AI如果通通记录下来，会严重影响信息接收的效率。就像曾经有人尝试过在法庭使用AI速记，结果发现AI记下了通篇的“嗯、呃、那个”等等口语中的常用词，尤其是当出庭人情绪稍有些激动时，AI速记完美的记录下一串语无伦次时的混乱信息。信息量倒是加大了，可信息价值却很低。

人类译员在进行翻译时会进行书面语和口语之间的转换，AI能否做到这种信息的汇总和提炼？

同时口语中常常遇到的口音、结巴、地方俚语、表述水平不同等等个性化的问题，人类译员通常可以很好的解决，最终呈现出适用于所有人阅读的内容。就拿俚语来讲，这种极具本土文化特征的内容，有时会在两个语种中呈现出完全不同的形态。就像“掌上明珠”和“Apple of the eye”，从字面直译上很难找到关联，可意义上却相互对应。

AI模型能否高效的解决一切问题，不只适用于某一标准或某一种文化下的内容？

最重要的，大部分像“wait－k words”这样的预测模型都要提前进行大量的数据训练。不光应用成本高，对于很多缺乏丰富数据的小众语种来说，还是帮不上什么忙。

不过相比人类在同声传译整个学习和翻译过程中耗费的巨大精力，AI同传更高效的学习能力和永不疲倦的特点仍然是巨大的优势。所以在未来的一段时间内，AI同传应该依靠自身优势来承担人类译员助手的职责，与人类一同捧起圣杯。这才是理想状态下的人机耦合。

机器思维与人类思维的打通：AI应用的黄金大门

其实我们能够发现，现在机器同传解决方案的发展方向，体现出了一种AI技术应用的有趣逻辑，即把机器思维和人类思维一起融入技术应用。

像在提升语音容错率上，就是一种典型的机器思维。如果把解决问题分两步，第一步是语音－文字，第二步是文字－翻译。数学老师一定会告诉你“一步错、步步错”，可在机器思维中却能实现“一步错、结果对”，即使语音识别中错了，机器翻译的结果仍然是正确的。

而在预测方面，就是典型的人类思维了，结合对于事物的整体理解甚至整个世界观，对于缺失的信息进行预测——用我们人类的话说，就是“直觉”。而当机器也逐渐找到利用直觉的方式，它们所能解决的问题才更迈上了一个台阶。有了预测能力，才能在不同语序的语种中自我生成正确的句子。毕竟我们所处的世界不是棋盘也不是电子游戏，缺乏明确的规则，更多时候我们是在信息和规则双双不透明的前提下去解决问题。

其实在今天的AI应用上，最重要的就是人与AI的协作性，不仅仅是日常应用方面的协作，更多的是研发思维上的协作。有时能理解机器思维的差异性，才能真正找到适合机器的问题解决方案，而让机器能够学会人类思维，才能让机器解决问题的方式更加配适现实世界。

就像自动驾驶的安全问题一样，有时在交通标识上贴一张小小的贴纸，就能彻底扰乱机器的视觉系统。所以对于自动驾驶来说，更高效和安全的方法并不是像人类一样“看到”交通标识，而是在高精地图上提前标注好交通标识的位置。对人类与机器的感知方式进行互通和融合，帮助我们打开了很多AI产业应用的黄金大门。

有趣的是，这两种思维之间的差异和融合，其实和语言之间的翻译还有点接近。语法有再多差异，彼此理解了，总能一起解决问题。人机耦合，指的绝不仅仅是人类与AI有着多么明确的分工，AI生产、人类包装这种行为在几十年前就已经出现并且沿用至今了，绝不是什么值得宣扬的事。两种思维的交互，才能称之为真正的“耦合”。

陷入“人机耦合”的AI同传：向人类偷师、与人类共事

相关推荐