是否有可能，为AI加上安全锁？

见识过刀剑与毒药

痴迷于火药和武器

与他人说话时常怀着恐惧

在每一处景象里看到了灾祸

每一次时钟响起，都会战栗不安

但却未厌恶那不可抗拒的压迫

——波德莱尔《恶之花》

不能偏废的用与防，是人类在驯服技术这头猛兽时永恒的主题。于是我们有了无比复杂的电力保护系统，有了交通规则与无数交通安全设备，有了宏大的互联网安全产业。

我们不会因为闪电的狰狞与触电的危险，就决定给城市断电，而是要去一层层限制它，保护它，让技术安全地为人类服务。

这样的逻辑，今天正在AI面前重新上演。大概就像人类第一次面对火焰时的恐慌一样，一百多年的科幻文化，让大众在面对AI时，首先想起的是机器人统治地球的恐惧。其实这事儿就像行星撞地球一样，是个确实可能发生但谁也不知道多久后才能发生的状况。

然而随着AI的发展与应用，这门新技术所暴露出来的危险与不确定性确实也渐渐浮出水面。那么针对AI的“绝缘胶布”和“空气开关”在哪呢？

不久之前，Deepmind在博客中透露了这样一个消息，针对AI模型可能表现出的混乱和失控，他们准备研发一种“AI保险机制”，在紧要关头给AI“断电”。一旦发现AI的恶意倾向，就主动终止AI的活动。

目前这个领域的研究，更多还是处在方向性的探索上。但是还是有一些问题需要我们来探索：假如真的有AI保险电闸这种装置，它要在哪些情况下终止AI工作？类似领域还有哪些方法在尝试保证AI安全？给AI装上安全锁这种想法，又有哪些困难，甚至不靠谱的地方？

要防范的，是哪些“AI之恶”？

首先，还是要坚定地给“AI之恶”打上引号。这就像火的使用，大概是人类历史上造成损失最严重的一种技术应用，但至少今天没有人讨论“火之恶”或者“普罗米修斯的原罪”。

而AI有点不同的是，深度神经网络的复杂性构成了AI运行逻辑在某些环境下的不可解，也就是广受关注的AI黑箱问题。美国小说家霍华德·洛夫克拉夫特坚定的认为，人类最大的恐惧，就是对未知的恐惧。

而深度学习作为今天AI技术的主要实践方式，确实还蒙有太多面纱。姚期智院士就曾判断，今天深度学习中有很多东西是非科学的。对其神秘性的破解，已经成为AI学科的主要问题。

那么依旧神秘的AI，在应用中带来了哪些危险可能性呢？

关于AI的负面报道虽然远低于正面案例数量，但其实数量也已经不少。归结起来，有三个方面的危险，是我们今天主要需要面对的：

一、从数据到歧视

AI是能学会骂人和种族歧视的，这事儿想必大家都知道。最出名的案例，就是2016年3月，微软上线了名为Tay 的聊天机器人，但是上线不到一天，Tay 就从一个单纯可爱的19岁女孩变成了一个满口脏话与种族歧视言论的“AI疯子”，于是微软紧急下架了这款产品。这种情况，已经在多个AI聊天应用与语音助手中显现了出来，甚至很多导购、安全识别类的AI应用，也都悄然学会了看人下菜碟的本来。

其本质问题在于，AI会去学习吸收社交网络上的对话数据，然而一顿操作下来，学到的都是不堪入目的东西。深度学习是建立在大数据基础上的，但如果数据中夹杂了不那么美好的数据，AI就可能将这些内容带入为行为模式。

但是如何分辨什么才是好内容呢？这个模棱两可的问题依旧没什么好的答案。

二、作为武器与黑产工具的AI

人不止可以教坏AI，还可以直接运用AI作恶。这个领域的案例屡见不鲜，英国在2015年就开始发现利用AI模型模仿用户语气来进行的邮件与电信诈骗；很多黑客展现了利用AI来盗取密码和破解安全锁的能力；甚至在国内，很多不法分子已经开始使用AI识别技术来刷电商账户和订单，从而支撑黑产的运行。

三、不靠谱的机器直觉

AI作为一种算法，显然是不以人的常识为常识的，但是很多时候无论普通人还是科研人员都会忽视这一点。著名的案例是Deepmind在一个赛艇游戏中训练AI时，发现深度学习模型最终得出的结论不是一般人类玩家选择的路线，而是在游戏中疯狂转圈。虽然是个游戏，但却发人深醒，比如AI在无人驾驶场景里，或许是不按照人类交通规则来思考问题的，它可能直接从高架桥上飞下去，或者选择逆行来获得更好的通过效率。

这也不是危言耸听，今天的研究已经发现，在路牌上做一点点手脚，就可能对计算机视觉产生干扰。毕竟机器即使能看，也不是人类的“看法”。

显然，这些问题在未来的AI应用中都足够复杂与危险。那么问题来了之后，解决方案有哪些呢？

检察官、行刑者与道德家：我们用什么给AI上锁？

AI本身的失控可能与安全隐患，或许是不同于人类历史上任何技术风险的。它吸纳大量数据，又进行了复杂的内部转换，所以留给人类的困难之处在于，它不是像汽油或电力那样具有简单的安全规律，而是难以捉摸的隐秘bug。

我们经常听AI开发者讲述这样一个情况：模型跑了一遍，OK挺好的，再跑一遍，出问题了，哪出的问题，不知道……再多来两遍，好像又好了？

显然在工业这样的关键生产领域，部署这样天马行空的员工是不合适的。那么如何给AI装上安全保险装置呢？可以看到今天业界有这样几种思路。需要注意的是，这不是泾渭分明的流派之争，真正在实践AI安全的时候，是需要综合解决方案共同努力的。

一、行刑者

话题回到我们最开始提到的DeepMind。他们正在研发的AI安全技术，形象一点形容就是在复杂AI任务的背后，站立一位随时待命的“AI行刑者”。通过再研发一个功能强悍，有一套自身安全逻辑的AI系统，基于强化学习机制，来随时监控其他AI模型的工作。一旦有出格举动，立马跳闸断电。

事实上，“可中断”概念一直都是DeepMind在AI安全领域的核心理念。去年12月，他们就发布了名为《安全可中断智能体》的研究成果，展示了如何保证在中断再启动的环境下，智能体的运行效果不会受损。

让AI去监视AI，虽然技术上非常前沿，也留有若干问题，但大概是未来AI安全锁的主要研究方向，因为面对越来越复杂的深度神经网络，其他问题追溯模式可能会消耗难以承担的人工成本。

然而这种新技术带来的首要疑惑，显然是“谁来监督监督者”？

余下全文 1/2

是否有可能，为AI加上安全锁？

相关推荐