算力探园记
合肥,这座位于江淮之间的文化老城“庐州”,从上世纪90年代“呼应浦东开发,建设新合肥”,到“长三角副中心”,再到如今的城市地位上升至国家战略,合肥“发展坐标”的每一次调整,都伴随这座城市“能级”的不断增强。
依托中科大等知名高校的人才资源,在科大讯飞领衔的中国声谷,扎堆高新区 “量子企业一条街”,实现一亿度运行的人造太阳“东方超环”等一批企业带动下,合肥在为下一波产业革命中的竞争与合作积攒能量。以“技术驱动+应用引领”为方向,推动合肥在中国人工智能城市排名第五。现在的合肥,基本上每天诞生1户国家高新技术企业;每天申请发明专利近90个、获得授权13个以上;每天技术合同交易额近4000万元。
继武汉东湖高新之后的第二站,算力智库前往安徽合肥的中国声谷调研,首先探访了其中人工智能的代表企业科大讯飞,以及人工智能数据服务公司数据堂(安徽)。了解到Ai语音的应用程度早已超出我们的想象,最新的小数据快速定制技术只需采集用户短短几句话就能用机器学习复刻你的声音。另一方面,行业内也活跃着大量数据服务公司,通过最基础的数据标注及整合服务,为人工智能产业所需的数据质量保驾护航。
你能想象让特朗普说流利的中文吗?Ai可以,甚至让特朗普说一口地道川普也不是问题。Ai模拟人声的技术现阶段已经可以通过短短十句话,就能以假乱真地模拟你的声音说出各种话,包括中英文乃至方言。
在算力智库探访科大讯飞(展厅)时,上来就被来自美国总统特朗普一口标准普通话来欢迎大家参观科大讯飞给吸引住了。
其实,语音合成技术的应用可能早于你的认知,应用范围也比你想象的更广!
早被大规模商用的Ai语音合成已侵入你的日常生活
语音合成技术应用其实比语音识别更早,思必驰CMO龙梦竹告诉算力智库(ID:suanlicaijing),这项技术早已在我们身边大规模应用。
如Iphone的智能语音助手Siri,就是在真人语音的基础上进行语音合成。如今语音合成的声音愈发接近真人,才让我们突然发现原来语音合成技术已经可以以假乱真。
Siri美式语音的声音提供者Susan Bennett
“其实所有涉及到机器语音反馈的背后都需要以真人语音为基础,只是以前的合成效果比较明显,我们可以明显判断出是电脑合成而已。”龙梦竹说。
很多人以为地图软件中的林志玲、岳云鹏导航是把明星请来一句一句录下来的,其实背后是语音合成技术。2018年很火的纪录片《创新中国》的配音也是合成已去世的配音家李易的声音,其背后,就是语音合成技术实现的声音复刻。
龙梦竹表示,目前语音合成在娱乐方面的应用比较多,比如歌曲合成、明星语音复刻等。即便是去世的明星,也可以通过语音合成和Ai换脸的方式再现荧幕。2017年电影《星球大战前传·侠盗一号》中,已去世的女星凯丽·费雪再次以莱娅公主的形象出现在大银幕上,感动了一众影迷,这种模式以后还将更加常见,哪怕是再听单田芳出新的评书,也不再是梦想。
《侠盗一号》中还原的莱娅公主
除了商用娱乐方面,云知声高级研发经理王鸣对算力智库表示,语音合成未来在大众日常生活中的应用也可以很多可畅想的地方。
比如视觉障碍人士的阅读帮助以及需求陪伴,不在父母身边的孩子可以听着父母声音的故事入睡、工作忙碌的子女可以让父母听到自己的声音、恋人可以随时听到彼此的声音用来阅读新闻、小说等读物。
再比如语音的个性化定制,让我们的智能音箱、手机助手、甚至游戏内的语音都可以自行定制。“就好像我们玩的游戏中的皮肤一样,可以任意更换,甚至变成我们身边朋友的声音。”王鸣说。
人工智能语音可以模拟你自己的声音,也可以替你犯罪
Ai语音合成的技术发展早已达到无需大量的数据进行学习。思必驰CMO龙梦竹向算力智库介绍,目前业内主流的技术方向是小数据快速定制。
以前构建合成系统需要至少上千句的音库数据作为支撑,制作音库费时费力。现在我们仅仅使用很少的数据就可以构建出具有对应音色的合成系统。
在探访中,算力智库也体验了科大讯飞此前推出的声音复刻相关应用,用户只需要输入10句话,就可以复刻出自己的声音,播报新闻、说段子、送祝福惟妙惟肖。
不过这项体验仅限于让机器朗读既定的文本,每个用户的音库都要经过实名认证,对此,科大讯飞有自己的考量。工作人员向算力智库表示,目前推出的语音复刻应用只是一种宣传娱乐手段,但是一旦开放用户权限,可能会被不法分子利用。
“当你接到一个电话,传来你亲人的声音,向你借钱或者让你转账,你信不信?”
记者拍摄的科大讯飞展厅
人工智能语音可以模拟你的声音,也可以替你犯罪。尤其在大数据时代下,个人信息非常容易泄露,近两年如Facebook、华住酒店集团等多起个人信息泄露事件让我们愈发重视个人信息的保护,但是声音信息的保密意识可能是我们此前从未想到过的。
前段时间刚结束的2019中国互联网大会的防范治理电信网络诈骗论坛上,中国传媒大学政法学院法律系副主任郑宁表示,技术一直以来都是双刃剑,我们在享受技术带来便利、新奇的同时,也会面临技术被滥用带来的风险。
郑宁在论坛上总结了四种新技术结合诈骗手段的形式,其中就提到了语音合成诈骗。骗子通过骚扰电话等录音来提取某人声音,获取素材后进行声音合成,从而可以用伪造的声音骗过对方。
另外三种诈骗方式分别为:微信语音转发诈骗、AI换脸诈骗以及AI筛选诈骗人员系统。
通过少量数据,将合成痕迹明显的机器语音,转换成更加流畅自然的语音,也正是目前Ai语音合成的主攻方向,据龙梦竹介绍,现有技术不仅可以让语音流畅自然,甚至可以通过定制加入情绪,真正达到自然模拟的状态。
就像前段时间Ai换脸技术在网上火了之后引发的大规模讨论一样,一旦语音合成技术被大规模应用,是否会产生恐慌呢?
人工智能技术来诈骗,谁来解决?
从技术应用方角度来说,云知声高级研发经理王鸣认为,我们在积极推进这项技术发展的同时,也需要考虑结合更多的技术手段来降低在应用层面带来的一些技术伦理问题。
“云知声对用户上传的录音数据及用这些数据训练的模型都加入了严格的使用权限管理。从技术角度来说,虽然当前语音合成算法在主观听感上已经可以以假乱真,但是从声学特征上依然是有一些差异的。另外,也可以通过加入一些人耳不可感知的声学特征‘防伪’标志,保证不影响正常用户体验的情况下,使合成语音可以被特定工具检测出来,防止被恶意使用。”王鸣对算力智库说道。
科大讯飞也表示,其企业级合作则需要经过授权,特定在媒体行业、客服行业等使用,确保这项技术不会被误用、滥用。除了这些问题,社会上主要担心的问题在于用户的信息泄露。
本周末苹果公司被爆出Siri监听用户语音的事件,虽然苹果公司称每天发送的录音请求不到1%,而且通常只有几秒钟,这是为了更好的提高siri的精准性,同时为了给用户提供更好的服务,仍然引起了大量的恐慌。
对此,安徽省大数据产业联盟副秘书长、数据堂副总经理张子斌从产业上下游的角度,解释了目前人工智能和大数据产业所面临的隐私保护问题。
张子斌表示,人工智能产业链的上游并非AI技术公司,而是人工智能数据服务公司。人工智能企业在训练自己的AI模型时所需要的数据可以不需要他们去自行收集和标注,而是通过人工智能数据服务公司定制相关数据,这样大大降低了人工智能企业成本及数据安全风险,这也是数据堂的主营业务。
“从产业链上下游的角度来说,我们提供的所有训练数据都是和个人信息分离的,以语音数据为例,我们提供的都是独立语音段落的集合,背后具体的提供者信息是完全不会出现的,因此,即便在上下游环节中出现了训练数据的泄露情况,对于语音提供者来说,不会出现任何影响。”
算力智库记者探访数据堂(左一左二为数据堂副总经理张子斌、数据堂董事吴鑫坤)
近年来,政府也一直在联合相关企业一起寻找新技术的管理之道。2019年6月17日,国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》,提出了人工智能治理的框架和行动指南。《治理原则》突出了发展负责任的人工智能这一主题,强调了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理等八条原则。
在中国传媒大学郑宁看来,正如AI技术可以被用于诈骗,也可以被用于反诈骗。利用技术的方式不同,带来的影响也不同。因此,在面对一项技术时,不仅要关注技术本身,更要关注技术的用途,将技术用于提高生活质量。
郑宁表示,科技发展与人民生活是相辅相成的,科技发展使得人民生活质量有了极大的提高,因此应当大力促进科技发展。但也要认识到科技的两面性,科技发展的同时也会产生一些负面影响,应当清楚认识并接受这一点,从而更加理性地看待科技发展,也有助于采取积极措施应对科技发展的负面影响。