单Agent不就是生物学中的细胞吗?多Agent不就是一个物种部落吗?
大家好。我是甘润泽,毕业于硕士新加坡国立大学(NUS),深度学习方向,现在是AI Agent开发者、全栈工程师。
很高兴在AI新智能的俱乐部内给大家做这次分享。我这次分享的主题是《为什么OpenAI下一步是Agent? 关于Agent你需要知道的一切》
01 什么是Agent?
什么是AI Agent?想象一下你设计了一个电子游戏,比如马里奥赛车。马里奥就像一个 AI Agent,他需要在整个游戏过程中不断地做出决策,比如何时加速,何时转弯,何时跳跃,以此来躲避障碍,超越其他车手,最终获得胜利。
在这个例子中,整个游戏环境以及其他车手的动作等,都组成了这个Agent的环境。Agent会根据这些信息,做出最佳的决策。比如,如果前方的道路正在向左转,那么 Agent 就会决定向左转弯。
AI Agent的本质是一个可以感知其环境、在给定目标下做出决策并采取行动的系统。这些决策是基于它对环境的理解,比如它的目的地在哪,它的位置在哪,周围有哪些障碍等。
另外,AI Agent还有一个重要的特性,那就是它可以“学习”。也就是说,它可以通过与环境交互,不断改进自己的决策过程。比如,在多次游戏后,它可能会学会如何更好地避开障碍,或者找到更好的赛道线路。
总的来说,AI Agent就是那些能够感知、理解环境,然后做出决策,采取行动,并不断学习和进化的AI系统。
02 为什么Agent是接下来AI赛道的主要发展方向?
下一阶段大语言模型的发展,目前来看是两条发展方向,一条是“向下发展”更新整个底层系统;另一条是“向上发展”,也即从更高维度,更智能化,更自动化,增加复杂性的方向,即Agent方向来提升大语言模型的生产力。一个标准的单个Agent模块包括记忆,规划,执行,反思模块,比大语言模型的交互方式更加具备智能性。
此外,人们在不断添加非常有吸引力的功能,不断地扩充想象力的边界,一些很酷的想法包括联网搜索引擎,运行编译器功能,这些功能在最近几个月的研究中被一个个实现。
虽然单个Agent功能强大,上手简单,OpenAI GPTs本质上就是关于单个Agent的未来人工智能商业模式,开发者在GPTs上开发各式各样的Agent,用户买下心仪的GPTs,随后OpenAI和开发者共享收益。这是一种集合社群,开发者,平台,用户的充满想象力的商业模式。
但是这还远远不够,对于未来,我们的想象力还可以往更远的地方发散。
就比如,GPTs里面的Agent能不能自我学习,自我进化?
03 向上:黑盒愈黑?
近期OpenAI的Q*项目曝光,本质上是创造一种能够自己生产新数据,自我学习进化的Agent,这意味者人类将更加难以掌控,我称之为“黑盒愈黑”。
神经网络本身就处于黑盒状态,一个能离开人类监督实现自我进化的黑盒,其不确定性会大大增加,这个“黑盒”也会更加“黑”。
从好的一面看,一个会自我学习的Agent,恰恰是通往AGI最有希望的一条路。
人们探索AGI已经有近百年的历史,而希望的曙光从来没有像今天这样离我们这样近,与之伴生的是巨大的不确定性:一个人们越来越难以理解但是越来越强大的黑盒。
04 Agent的两个小场景
接下来,我将介绍几个最有代表性的Agent项目,来帮助我们更好的理解Agent。
第一个是爆火的AutoGPT。
AutoGPT因为在大语言模型基础上的全自动流程和联网功能而声名大噪。在AutoGPT中,你只需要给它设定一个大目标:比如,为我制作一份创业计划。它就可以通过大语言模型给出解决方案,并借助联网功能给出一份报告。
实际上,它给予了人类充分的想象空间。一个月前,AutoGPT的团队获得了1200万美元的融资,实际上是非常振奋人心的:我们正在追求的,不就是服务于人类的高级自动化系统吗?
斯坦福小镇是另一个火爆全球的项目。斯坦福小镇的创作者们在沙盒世界中放置了25个Agent,它们有自己的初始设定,Agent之间用自然语言对话,随后开始了为期两周的实验。注意这里的周是指游戏中的时间:创建者为这个世界设置了时间规则,Agent在里面的活动将花费时间。
人们之所以为这个项目感到惊讶,是因为大语言模型+沙盒世界的无尽想象力,也是因为Agent的交互出现了人类意料之外的现象:Agent们自己创办了派对,并且它们的人际关系变得更加复杂了。
斯坦福小镇是一个成功的多Agent系统在沙盒世界中的模型,其具有巨大的想象力空间:游戏世界,真实世界和实验中的沙盒世界区别又有多大呢?
第三个爆火的项目是CHATDEV。这是一家专门开发AI聊天机器人的公司,团队里有各种各样的AI Agent角色,比如像首席执行官、程序员大牛、测试工程师和设计达人。
人类用户只需要告诉他们想要做什么——比如说,“我想要定制一个五子棋游戏”,然后他们的AI Agent们就会开始围绕这个任务进行讨论,彼此交流,最后会生成一份完整的软件解决方案,包括源代码、环境依赖和用户手册等等。
我们知道软件开发是一个充满复杂决策的过程,需要很多细节的考虑和咨询。但现在,深度学习的新技术已经开始在软件开发的各个阶段进行改进,从根本上改变了我们开发软件的方式。
在CHATDEV这个公司中,他们采用了所谓的瀑布模型,也就是将软件开发的过程分为四个阶段:设计阶段、编码阶段、测试阶段和文档编写阶段。在每个阶段中,都有专门的AI Agent团队来参与和协作,像是虚拟的程序员、代码审查员和测试工程师,他们会互相交流、合作,形成一个连贯的工作流。
在这个聊天链中,聊天机器人会将每个阶段的任务划分成一些小任务,然后各自去完成。
这个过程两个好处:一是可以有效地解决问题,因为机器人们会在聊天中提出并验证解决方案;二是任务分解有助于节省时间和成本。
比如说,通过CHATDEV,他们能够在七分钟内完成整个软件开发过程,花费只有不到一美元。这要是让人做,可能需要几天,甚至几周才能完成。这就是AI的力量,也是CHATDEV为我们展示的软件开发的未来。
上面三个项目向我们展示了三个极具想象力的维度:AutoGPT展示了自动化与大语言模型的魅力(也是Agent的开始),在AutoGPT中,你只需要不停的输入yes给予它权限即可,或者给予纠正。
斯坦福小镇展示了多Agent沙盒世界的可能性,其核心本质也显现:多体的交互将在复杂性上进一步增长(一定程度上复杂性就是智能)。CHATDEV则是最为明显的多Agent帮助人类提高生产力,同时Agent编程也开启了潘多拉魔盒:它们自我进化的开始。
05 Agent未来会如何发展?
我认为Agent的最终结局将离不开下面问题的答案。
计算机科学创造出的AI Agent,在某种程度上高度向生物学和社会学看齐:举个不恰当的比方,单Agent不就是生物学中的细胞吗?多Agent不就是一个物种部落吗?
下面我列出来十四个Agent的问题,它描述了从多Agent走向AGI过程中必须回答的问题,我认为,其中每个问题背后都是巨大的想象空间:
功能 Function:Agent如何工作?
实体 Embodiment:它们是用什么做的?
互动 Interaction: 它们之间如何交流?
起源 Origin: 最初的Agent从何而来?
继承 Heredity: 我们生来就拥有同样的Agent吗?
学习 Learning: 我们如何产生新的Agent以及如何改变旧的Agent?
特征 Character: 哪些类型的Agent最重要?
权威 Authority: 当Agent之间出现分歧怎么办?
意图 Intention: Agent如何产生需求和欲望?
能力 Competence: Agent组合在一起能做哪些它们分开不能做的事?
自我 Selfness: 是什么让Agent团结在一起或者产生人格?
意义 Meaning: Agent怎样理解世界?
感知 Sensibility: Agent如何产生感觉和情绪?
意识 Awareness: Agent如何产生对其他事物或自我的意识?
举其中的“权威”来说,目前人们的项目还没有进入到这一步:如果多个Agent之间起冲突了,谁该服从谁?如果人类和Agent起冲突了呢?
如果一些人和一些人起冲突了,Agent会站在哪一边?是“力量”的一边还是“正义”的一边?人类如果不能处理好这些问题,我们就应该如达摩克里斯之剑一样保持警惕和恐惧。
06 Agent与商业:重塑人类文明根基
我认为用Agent的商业化,它的本质不仅仅是人类某个个体的获利,而是人类文明的根基重塑。
一位美国教授认为,新的图灵检测方式将是:能否让一个自主的人工智能系统在人类世界中从10万美元赚到100万美元?而OpenAI 将AGI定义为在大多数有经济价值的任务中超越人类的自主系统。
当多Agent系统正势不可当的狂奔在AGI的道路上时,不妨想象一个简单的场景:我们与超级Agent达成合作,共享创造的经济价值,这将是多么吸引人。
另外一个基于现实的猜想是,经济价值上表现能够超越人类的Agent很有可能会经历从工作收入到资本收入的过程:前期通过创造产品,内容,服务从人类世界获取经济价值,后期发展到通过资本方式从人类世界获取经济价值。
这又将引起另外一个严肃的问题:最终我们将给予AGI在人类社会中怎样的政治和社会地位?
我们将如何看待AI 社会?是看作满足自己欲望的工具,还是平等的物种,还是人类的供养者?以及另外一个严肃的问题:哪些地区能够给予AI更高的社会和政治地位?哪些人或者地区能与AI的合作更加深入?
原文标题 : 【分享】为什么OpenAI下一步是Agent? 关于Agent你需要知道的一切