单通道和多人会话
一个好的会话语音识别器必须能够根据谁在说话对音频进行划分,还应该能弄清重叠的会话(声源分离)来理解音频。
一个人在一个有多个人说话的环境中的时候,能够很容易的分辨出自己要与某人说话,并且能够在同时与多个人交谈。很明显,目前的语音识别器并不能做到这一点。当多个人对着麦克风讲话时,它可能直接就“懵”了。
上下文理解
实际生活中我们会使用许多其他的线索来辅助理解别人在说什么。
列举几个人类使用上下文而语音识别器没有的情况:
历史会话和讨论过的话题;
说话人的视觉暗示,包括面部表情和嘴唇动作;
关于会话者的背景。
可以看到虽然目前语音识别技术的误字率已经低于5%,但想从语音识别转变成真正的语义识别,是仍然面临着很多挑战。
语音识别到真正的语义识别
语音识别和语义识别合起来的语言识别虽然为人工智能的一大支系,但是比起语音识别,显然语义识别要更加智能。在这里,与非网小编先给大家梳理一下人工智能,机器学习,深度学习,神经网络这些术语之间的关系,大家或许就更加能理解从语音识别到真正的语义识别还有哪些路要走(目前市场上有很多做语义识别的公司,但是跟人类相比还存在一定的距离。)?
人工智能(AI)是一个大的概念,它是机器学习的父类。
除学习之外的人工智能可以归纳成了“逻辑/算法编程”,也就是通过编程将人类所知的知识和逻辑告诉机器,从而借助机器的高速计算和海量存储等能力实现一些人类才能做的“弱智能”工作,像上世纪深蓝计算机,将国际象棋中所有可能的结果都通过预先编好的程序计算出来从而选择最佳的下法(穷举法)。从程序的实现上来说恐怕就是无数的if…else…吧。
而另一类就是基于数据的自我学习,把大量的数据告诉机器由机器自己去分析这些数据从而总结得出某种规律/逻辑,然后利用这种逻辑来处理新的数据。
毫无疑问,学习是人工智能中最为火热和最有前途的方向,让人去“学习”那么复杂的逻辑来告诉机器怎么做还不如让机器自己来学习呢,毕竟人都是懒的嘛,而“懒”就是人类进步的动力!
学习是不断的训练过程,其模型是在连续的优化调整中,随着训练数据越多其模型越准确,但是人类的学习不仅仅是一个连续学习过程,还有一种跳跃式学习,也就是常说的“顿悟”,这点是机器学习目前所没有的。
也就是说,要从语音识别成功转变成真正意义上的语义识别,首先要获得大量的数据(比如说普通话,上海方言等),用过这些数据不断训练,来提高识别的准确率。
图|语义识别市场
虽说实现真正的语义识别不容易,但是就目前的市场分析来看,语义识别已经渗透到了我们的生活之中,作为人工智能的基础性技术之一,随着技术的不断成熟,语义识别将不断地改变更多的传统行业。
图|人工智能各分支占比
在人工智能的整个领域里,自然语言处理无论是在创业热度/获投数量还是获投金额都处于细分领域的前三名。据有关数据分析,预计到2024年,市场规模可达110亿美元。并且在这个领域还没有出现巨头,这块蛋糕还给创业者留有大量的余地。可以说语音识别(在这里指的整个语言识别)未来的市场发展十分有看头。
想象一下,当语音识别发展到一定程度,我们坐在电视机前就可以语音遥控想看的节目。假如你要看英剧《神探夏洛克》,经常会被人叫成《神探夏洛特》(因为夏洛特更顺嘴或者更普遍),这时候如果不做语义理解,可能你搜出来的名字就是《夏洛特烦恼》,因为它频度也很高。
图|语义识别带来的人机交互
专做语义识别的三角兽公司CTO亓超对以上现象如此解释:当你没有办法记住片子完整名字时,语义识别需要给你做纠正,做更合适处理。其实用户在看电视产生很大需求,当用户不知道要看什么,需要机器帮忙做推荐和引导,而这个过程中精准化程度、和人性化程度取决于智能化程度。
当语音识别发展到一定的程度,语义识别或将成为新的主流。