谷歌近日在对Gboard输入法的更新中,为Pixel手机用户引入了基于人工智能的离线听写功能。谷歌表示Pixel用户并不需要担心是否已经连接网络,都可以更快更可靠的听写电子邮件和文本信息。负责谷歌语音和移动输入的团队负责人和科研专家Franoise Beaufays表示:“设想下这样的场景:你要出门但是你要给某人发送‘我要迟点到’的短信,由于你离开WiFi网络覆盖区域且没有激活蜂窝网络因此你无法获得网络连接,而现在这不是问题了。”
或许对于用户来说这是一个微不足道的改进,但是Beaufays表示虽然语音识别技术的改进将会慢慢改变我们同移动设备交互的方式。她指出虽然语音识别技术近年来有较大的改善,但仍然是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据,结果是听写缓慢且不可靠。
Beaufays说:“设想下如果你所使用的输入法,只有网络连接不好就无法敲击键盘,那么你肯定不会再去使用这个输入法。”但是通过离线操作可以让听写变成一个更自然的选择。为了实现这个改变,Google团队耗费了五年时间对语音识别进行了深入的研究,并简化了用于语音识别AI系统。例如,旧版Gboard的听写操作使用三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成书面输出,更新后的版本将所有这些工作集成到一个步骤中。
此外新模型还简化了系统组件“decoder graph”,该组件就像是书籍中的索引的,能够将声波转换成为匹配的书面文字。在旧版Gboard的听写模型中,这个decoder graph容量达到了2GB,这对于手机用户来说无疑是太大了。相比较而言,新版本只有80MB,小了25倍。
本次升级仅限于美国英语的听写,且仅支持Pixel系列手机。不过Beaufays表示未来将会面向更多语言开放。Beaufays表示:“从技术的角度来说,我认为我们可以在更多手机上实现这点,而不仅仅只是Pixel。而且我认为未来会在更多设备上支持更多语言。”