Darktrace新网络安全公司与剑桥大学的数学家合作,开发了一种利用机器学习来捕捉内部漏洞的工具。它运用无监督学习方法,查看大量未标记的数据,并找到不遵循典型模式的碎片。这些原始数据汇集到60多种不同的无监督学习算法中,它们相互竞争以发现异常行为。
2013,一群英国情报人员注意到一些奇怪的事情。虽然大多数保护数字基础设施的努力都集中在阻止坏人进入,但很少有人关注反面:阻止他们泄露信息。基于这个想法,该集团成立了一个新的网络安全公司,称为Darktrace。
该公司与剑桥大学的数学家合作,开发了一种利用机器学习来捕捉内部漏洞的工具。然而,它们不需要在攻击的历史实例上训练算法,而是需要系统识别异常行为新实例的方法。他们转向无监督学习,这是一种基于一种罕见的机器学习算法的技术,它不需要人类指定寻找什么。
Darktrace已经把注意力放在一种被感染的装置上,表现出反常的行为。“这非常像人体自身的免疫系统,”该公司的CO-CEO NicoleEagan说。尽管它是复杂的,但它具有自我和非自我的内在感觉。当它发现不属于自己的东西时,它会有极其精确和快速的反应。
绝大多数机器学习应用依赖于监督学习。这包括给机器提供大量仔细标记的数据,以训练它识别一个狭义的模式。说你想让你的机器识别黄金猎犬。你喂它几百或几千张金毛猎犬的照片,以及那些不是金毛猎犬的东西,同时明确地告诉它哪些是金毛猎犬。最终,你会发现一个相当不错的金毛猎犬识别机器。
在网络安全中,有监督的学习效果很好。你训练一台机器,面对你的系统以前面临的各种威胁,并且无情地追逐它们。
但有两个主要问题。一方面,它只适用于已知的威胁;未知的威胁仍然潜藏在雷达下。另一方面,监督学习算法最适合于平衡数据集——换言之,那些具有相同数量的示例,说明它在寻找什么,以及它可以忽略什么。网络安全数据高度不平衡:很少有威胁行为的例子埋藏在绝大多数正常行为中。
一个特定子网络内所有连接的可视化。幸运的是,在监督学习失败的情况下,无人监督的学习胜过了。后者可以查看大量未标记的数据,并找到不遵循典型模式的片段。因此,它可以面对系统从未见过的威胁,并且需要很少的反常数据点来这样做。
当Darktrace部署其软件时,它会在客户端的网络周围建立物理和数字传感器来绘制其活动。这些原始数据被传送到60多个不同的无监督学习算法,这些算法相互竞争以发现异常行为。
然后,这些算法将它们的输出吐出到另一个主算法中,该主算法使用各种统计方法来确定60个中的哪些要听,哪些要忽略。所有这些复杂性被封装成一个最终的可视化,允许人类操作员快速地查看和响应可能的违规行为。当人类下一步该做什么时,系统就可以通过隔离被感染设备的所有外部通信来隔离破裂直到解决。
然而,无人监督的学习并不是一颗银弹。随着攻击者变得越来越复杂,他们在愚弄机器,无论他们使用什么类型的机器学习方面都变得更好。有一个猫和老鼠的游戏,攻击者可以尝试改变他们的行为,Dawn Song说:“网络安全和机器学习专家在加州大学伯克利分校。
作为回应,网络安全界已经转向了积极的方法——“更好的安全架构和原则,以便系统通过构建更加安全,”她说。但要彻底根除所有违规和欺诈行为还有很长的路要走。毕竟,她补充道,“整个系统的安全性取决于它最薄弱的环节。”
注: 现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。