近日,语音 AI 领军企业云知声宣布,其与中国领先的一站式医疗健康生态平台平安好医生共同研发的“声纹登录系统”(又称声纹锁)经过多次模型优化和升级迭代后,登录成功率接近 99%,达行业一流水准。
声纹识别(Voiceprint Recognition,VPR)也称说话人识别,是一种通过声音判别说话人身份的技术,分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,即“ N 选一”;后者用以确认某段语音是否是指定的某人所说,是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需用到确认技术。
云知声声纹技术负责人表示,作为国内为数不多具备全栈语音技术能力的人工智能公司,云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署(NIST)主办的说话人识别技术评测中多次屡次斩获第一名,且早在 2004 年,尚就职于摩托罗拉公司的云知声公司创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统,搭载该系统的相关产品总计销量超 2 亿台。
近年来,伴随深度学习的兴起,云知声在国内率先将这一技术使用到语音识别中,且后续引入到声纹识别领域,解决了一系列声纹技术实用难点,并应用到实际产品上。此次,云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。
云知声声纹技术负责人指出,虽然声纹识别优势明显,但是要想准确分辨声音特征却并非易事。首先,声纹识别系统性能会受用户发声状态影响,如用户的身体状况、情绪等都会影响识别准确度。其次,环境的嘈杂度,以及采集、传输音频的硬件配置,都会在不同程度上对识别系统造成干扰。
为解决上述难点,云知声声纹技术团队进行了一系列技术攻坚与创新。首先,依托云知声强大的语音信号前端处理技术,如 VAD、语音降噪等,准确地捕捉到人声并进行背景噪声消除;其次,云知声将 DNN 引入到传统声纹识别 ivector 技术框架中,并融合最新端到端声纹识别技术,基于云知声超算平台和海量声纹训练数据,使得模型得以学习到数万说话人,每人多种发声的特性,且在云端针对每个用户采用说话人自适应技术,达到越用越好的效果;在信道处理上,采用 PLDA 信道补偿技术,可将信道影响降到最小。
据悉,为保障用户登陆的“安全性”,云知声为平安好医生客户端声纹登录系统提供数字串注册和登录的“文本弱相关”技术,工程难度更高,安全性更强。与传统固定口令登录方式不同,该系统采用随机数字串登录方式,即在用户进行登录时,系统会随机下发 8 位随机数字串,可有效规避录音攻击等安全问题。
在同一账号下,云知声声纹识别产品可支持 6 人注册。在客户端,云知声提供封装好的 SDK,支持声纹注册、登录、解绑等接口,供上层调用 API 实现产品逻辑。同时,云知声还提供成熟的声纹服务私有化部署方案,基于在金融、客服、快递等不同行业丰富的私有云部署经验,可有效保障客户数据安全。
公开信息显示,在移动医疗领域,云知声与平安好医生有长期合作。2017 年 12 月,双方合资成立上海澔医智能科技有限公司,共同探索以智能语音识别等技术为基础的家庭智慧医疗服务终端建设。