发布AI云,五大版块构建AI科技树
“企业数字化升级的终局是智能化,AI+大数据已经成为拓宽新局面的决定性因素。”科大讯飞集团副总裁于继栋在现场表示。
而为了更好地赋能企业数字化转型,科大讯飞在现场带来了全新生态新品——讯飞AI云。
根据现场介绍,讯飞AI云由磐石平台和擎天平台构成,前者针对AI服务对云主机集群进行了103项专业优化,降本提效的同时进行多种认证和加密,从而保证脏专属云用户接入安全;后者定位“授人以渔”,从数据标注、模型训练、引擎托管、服务编排等维度,满足更多用户不同业务场景组合下的AI需求。
随着讯飞AI云的发布,我们可以预想到,在未来,讯飞开放平台除了提供诸多AI基础服务之外,还将能够针对用户更多个性化的需求提供高效服务。
与此同时,科大讯飞AI研究院常务副院长刘聪也在大会现场提出“AI科技树”构造理念,并从5大板块掀开了科大讯飞技术全景的一角。
具体来看,此次介绍的5大板块分别是:
· 语音识别
科大讯飞的语音识别技术通过结合自学习更新的能力,可以对领域关键词、应用场景、口音、领域风格等个性化需求进行建模,真实、复杂场景下的语音交互也更自然。
这一技术上,科大讯飞还针对说话背景复杂多样、多人说话语音混叠、文字内容外的特殊声音现象等问题,给出了全场景音频解析的整体方案。
此外,针对包含语音的有效内容,使用基于富信息的语音降噪和分离方案,综合利用声音、文本、说话人等信息。在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模,多次在国际语音识别与分离大赛中夺冠。
· 语音合成
过去,语音合成的效果主要用合成自然度MOS分来评估,但是未来的AI应用,不光追求技术可实现,还要更加人性化、更具有表现力、展示维度多模态。
科大讯飞的语音合成目前已经能够做到从语音到声音的全场景音频合成。基于自然语言理解技术,科大讯飞能够从文本当中分析到合适的情感焦点,以及与角色相关的信息。与此同时,他们也将单一的情感合成升级为微情绪合成,这意味着机器人能够对一些局部的情感做到精准预测和控制,从而让整个人机交互过程显得更加具备趣味性和人情味。
· OCR识别
科大讯飞在OCR识别领域,做的可谓是细致入微。目前讯飞的OCR框架已经进化到了第四代篇章级的Encoder+Decoder,可以完成高精度二维复杂版面的端到端识别,相关能力调用量已经超过10亿次。
· 多语种
目前,科大讯飞现在已经将语音合成、图文识别等AI能力成功迁移到了多个语种,文档拍照识别已经支持56种语言,并且平均正确率超过了85%,机器翻译更是扩展到了168种语言。
· 行业认知
当前,科大讯飞基于在各个行业积累的丰富经验,构建了一个行业认知中台,来降低问题定义的难度。
有了这个认知中台,就可以基本达到一个资深行业人士80%左右的认知能力,让场景定义的效率提升50%以上,而且认知中台可以完全私有化部署,数据安全无需担忧。目前,基于认知中台的讯飞智医机器人已经拿到了执业医师资格证,这也是全球第一个拿到医师执照的机器人。
在演讲的最后,刘聪表示:“除了上述的几个方向,伴随着科技树枝叶的持续点亮,讯飞科技树的全景已经展现在大家的眼前。我想从原始的一颗种子发展到参天大树,科技树的每一片枝叶、每一个技术背后都蕴含了大量的付出和努力。”他也说到,未来科大讯飞会用科学的方法,合理有序的侯建科技树,从而保证科技树的根基稳固,以及多个技术职业之间的高效协同。
最后
时至今日,科大讯飞1024开发者大会已经办过四届,而距离讯飞开放平台推出也已经走过10年光阴。
前面也说到,这10年间,“(讯飞开放平台)从早期的只有语音合成和识别两个能力,到现在300多个AI能力。从最早的十几个团队,到现在超过150万团队。”与此同时,平台也已对外开放了334项AI能力及方案,链接超200万生态合作伙伴,累计支持超过29.9亿+终端。
在会后对开发者的采访中,我们知悉了科大讯飞开发者竞赛等项目对于他们的帮助,而反过来,开发者们的聚拢,也为科大讯飞的生态建设提供了极大的助力。正如刘庆峰所说,唯有生态,才能生生不息!