自2014年Echo问世后,亚马逊的圆柱形智能音箱使得语音软件在家庭中的使用迅速普及。不久后,Alphabet 公司推出了自己的版本“谷歌Home”,随后是苹果公司的HomePod。在中国也有许多公司销售自己推出的类似设备。根据研究机构Canalys的数据显示,去年全球消费者购买了7800万个智能扬声器。还有数百万人使用语音软件与智能手机上的数字语音助手进行互动。
Alexa软件被设计成听到一个唤醒词后连续录制音频片段。唤醒词默认是“Alexa”。但人们可以将其更改为“Echo”或“computer”。当检测到唤醒词时,Echo顶部的光环会变为蓝色,表明该设备正在记录并向亚马逊服务器发送一条命令。
大多数现代语音识别系统依赖于模仿人类大脑的神经网络。该软件通过在大量数据中发现模式来学习。驱动Echo和其他智能扬声器的算法使用概率模型来进行有根据的猜测。如果有人问Alexa附近是否有希腊餐馆,算法就知道用户可能在寻找一家餐馆,而不是教堂或社区中心。
但有时Alexa也会弄错,尤其是在处理新的俚语、地区口语或英语以外的语言时。在法语中,avec sa的“with him”或“with her”会让软件误以为有人在使用Alexa wake这个词。Hecho在西班牙语中表示事实或行为,有时被误解为Echo。这就是为什么亚马逊招募人工助手来填补算法所遗漏的空白。
苹果的Siri也有人工助手,主要负责判断数字语音助手对请求的解释是否与用户所说的相符。根据苹果的一份安全白皮书所示,他们审查的录音缺乏可识别个人身份的信息,并与随机标识符绑定存储6个月。在此之后,数据将被剔除随机识别信息,但可能会被存储更长时间,以提高Siri的语音识别能力。
该公司说,在谷歌,一些评估人员可以从谷歌语音助手那里获得一些音频片段,用来帮助训练和改进产品,但它与任何可识别个人身份的信息都没有关联,而且音频是失真的。
亚马逊最近发布了一份招聘启事,为布加勒斯特的Alexa数据服务公司招聘一名质保经理。招聘启事里对工作内容这样描述:“每天Alexa都要听成千上万的人谈论不同的话题和不同的语言,她需要我们的帮助来理解这一切。这是你从未见过的大数据处理。我们每天都在创造、标注、策划和分析大量的语音材料。”
据一位知情人士透露,亚马逊对语音数据的审核过程始于Alexa随机抽取一小部分客户语音记录样本,并将音频文件发送给遥远的员工和承包商。
一些Alexa审核人员的任务是转录用户的命令,将录音与Alexa的自动记录进行比较,或者对用户与机器之间的交互进行注释。这个人问了什么?Alexa是否提供了有效的响应?
另一些人则记下侦听器所听到的一切,包括背景谈话,即使是在孩子们说话的时候。有时侦听器会听到用户讨论诸如姓名或银行信息等私人细节。在这种情况下,他们应该勾选一个表示“关键数据”的对话框,然后他们进入下一个音频文件。
根据亚马逊网站上的说法,除非Echo检测到唤醒词或按下按钮激活,否则不会存储音频。但有时Alexa似乎在没有任何提示的情况下就开始录音了,音频文件以刺耳的电视声音或难以理解的噪音开始。无论激活是否错误,审核人员都需要对其进行转录。其中一名知情人士说,当Alexa没有收到唤醒命令或意外触发时,审核人员每人每天都会录制多达100段录音。
据两位评论人士说,在世界各地的家庭中,Echo的主人经常猜测谁在偷听。他们会问Alexa :“你是为国家安全局工作吗?Alexa,有人在听我们说话吗?”