multi agent是什么?深度解析multi agent!如果说 aigc 开启了内容生成的智能时代,那么 ai agent 则有机会把 aigc 的能力真正产品化。ai agent 像一位更具象的全能员工,被称为是人工智能机器人的初级形态,能够如同人类一般观察周遭环境、做出决策,并自动采取行动。
比尔·盖茨曾直言,ldquo;掌控 ai agent,才是真正的成就。届时,你将不再需要亲自上网搜索信息。”ai 领域的权威专家们同样对 ai agent 的前景寄予厚望。微软 ceo 萨提亚·纳德拉曾预言,ai agent 将成为人机交互的主要方式,能够理解用户需求并主动提供服务。吴恩达教授亦预测,在未来的工作环境中,人类和 ai agent 将以更加紧密的方式协作,形成高效的工作模式,提高效率。
ai agent 不单是技术的产物,更是未来生活与工作方式的核心。这不禁让人回想,当 web3 和区块链刚引起广泛讨论时,人们也常常用"颠覆"一词来形容这项技术的潜力。回顾过去几年,web3 从最初的 erc-20、零知识证明,逐渐发展到了与其他领域相融合的 defi、depin、gamefi 等。
若将 web3 与 ai 这两大热门数字科技相结合,会不会产生 1+1>2 的效果呢?融资规模越来越庞大的web3 ai 项目,能否为行业带来新的用例范式,创造新的真实需求?
ai agent:人类最理想的智能助手
ai agent 的想象力到底在哪里?网上盛传一个高分答案,”大语言模型只能编个贪吃蛇,而 ai agent 可以编出一整个王者荣耀。”听起来很夸张,但并未言过其实。
agent,国内通常翻译为“智体”。这一概念由“人工智能之父” minsky 在 1986 年出版的《思维的社会》一书中提出,minsky 认为社会中的某些个体经过协商之后可得出某一问题的解,这些个体就是 agent。多年来,agent 一直是人机交互的基石,从微软的剪辑助手 clippy 到 google docs 的自动建议,这些早期形态的 agent 表现出了个性化交互的潜力,但在处理更复杂任务方面能力仍然有限。直到大语言模型(llm)的出现,agent 的真正潜力才得以被挖掘。
今年 5 月,ai 领域权威学者吴恩达教授在美国红杉 ai 活动上分享了关于 ai agent 的演讲,在其中,他展示了其团队做的一系列实验:
让 ai 去写一些代码并运行,对比不同 llm 和工作流程得出的结果。结果如下:
- gpt-3.5 模型:准确率 48%
- gpt-4 模型:准确率 67%
- gpt-3.5 + agent:高于 gpt-4 模型的表现
- gpt-4 + agent:远高于 gpt-4 模型,非常出色
的确。大多数人在使用 chatgpt 这种 llm 时,方式通常是:输入一段提示词,大模型会立即生成答案,不会自动识别和纠正错误删除重写。
相比之下,ai agent 工作流程是这样的:
首先,先让 llm 写一个文章大纲,如有必要,先在互联网上搜索内容进行调研分析,输出初稿,然后阅读草稿并思考如何优化,如此循环往复、多次迭代,最终输出一篇逻辑严谨、错误率最低的高质量文章。
我们可以发现,ai agent 与 llm 的区别在于,llm 与人类之间的交互基于提示词(prompt)进行。而 ai agent 仅需设定一个目标,它就能够针对目标独立思考并做出行动。根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。
因此 openai 对 ai agent 的定义是:以 llm 为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
当 ai 从被使用的工具变成可以使用工具的主体,就成为了 ai agent。这也正是 ai agent 可以成为人类最理想智能助手的原因所在。例如,ai agent 能够基于用户历史线上互动,了解并记忆用户的兴趣、偏好、日常习惯,识别用户的意图,主动提出建议,并协调多个应用程序去完成任务。
就如同在盖茨的构想中,未来我们不再需要为不同的任务切换到不同的应用中,只需用平常的语言告诉电脑和手机想做什么,根据用户愿意共享的数据,ai agent 将提供个性化的响应。
单人独角兽公司正在成为现实
ai agent 还能够帮助企业打造以“人机协同”为核心的智能化运营新模式。越来越多的业务活动将交由 ai 来完成,而人类则只需要聚焦于企业愿景、战略和关键路径的决策上。
就像 openai 首席执行官 sam altman 曾在采访中提到过这样一个引人注目的观点,随着 ai 的发展,我们即将进入“单人独角兽”时代,即由单人创办并达到 10 亿美元估值的公司。
听起来天方夜谭,但在 ai agent 的助力下,这个观点正在成为现实。
不妨做个假设,现在我们要创办一家科技初创公司。按照传统方法,显然我需要雇佣软件工程师、产品经理、设计师、营销人员、销售和财务人员,各司其职但都由我来协调。
那么如果使用 ai agent 呢,我可能甚至都不需要雇佣员工。
- devin — 自动化编程
替代软件工程师,我可能会使用今年爆火的 ai 软件工程师 devin,它能帮我完成所有前端和后端的工作。
devin 由 cognition labs 开发,被称为是“世界上第一个 ai 软件工程师”。它能够独立完成整个软件开发工作,独立分析问题、做出决策、编写代码并修复错误,均可自主执行。大大减轻了开发人员的工作负担。devin 在短短半年内就获得了 1.96 亿美元的融资,估值迅速飙升至数十亿美元,投资方包括 founders fund、khosla ventures 等知名风险投资公司。
虽然 devin 仍未推出公开版本,但我们可以从另一个最近爆火 web2 的产品 cursor 一窥潜力。它几乎可以为你完成所有工作,将一个简单的想法在几分钟内转化为功能性代码,你只需要发号施令,就能「坐享其成」。有报道称,一个八岁的孩子,在没有任何编程经验的情况下,居然使用 cursor 完成代码工作并建起了一个网站。
- hebbia — 文件处理
替代产品经理或财务人员,我可能会选择 hebbia,它能帮我完成所有文档的整理和分析。
与 glean 侧重企业内文档搜索不同,hebbia matrix 是一个企业级的 ai agent 平台,借助多个 ai 模型,帮助用户高效地提取、结构化、分析数据和文档,从而推动企业生产力的提高。令人印象深刻的是,matrix 能一次性处理多大数百万份文档。
hebbia 在今年 7 月完成了 1.3 亿美元 b 轮,a16z 领投,google ventures、peter thiel 等知名投资者参投。
- jasper ai — 内容生成
替代社媒运营和设计师,我可能会选择 jasper ai,它能帮我完成内容的生成。
jasper ai 是一个 ai agent 写作助手,旨在帮助创作者、营销人员和企业简化内容生成流程,提高生产力和创作效率。jasper ai 能够根据用户要求的风格生成多种类型的内容,包括博客文章、社交媒体帖子、广告文案和产品描述等。并根据用户的描述生成图片,为文本内容提供视觉辅助。
jasper ai 已获得 1.25 亿美元的融资,并在 2022 年达到了15 亿美元的估值。根据统计数据,jasper ai 已帮助用户生成超过 5 亿个单词,成为使用最广泛的 ai 写作工具之一。
- multion — 网页自动化操作
替代助理,我可能会选择 multion,帮我管理日常任务、安排日程、设置提醒,甚至是规划出差行程,自动预订酒店,自动安排网 约车。
multion 是一个自动化的网络任务 ai 代理,能够帮助在任何数字环境中自主执行任务,例如帮助用户完成在线购物、预约等个人任务,提升个人效率,或帮助用户简化日常事务,提高工作效率。
- perplexity — 搜索、研究
替代研究员,我可能会选择英伟达 ceo 都在每天使用的 perplexity。
perplexity 是一个 ai 搜索引擎,能够理解用户的提问,拆分问题,然后搜索和整合内容,生成报告,以向用户提供清晰的答案。
perplexity 适用于各类用户群体,例如学生和研究人员可以简化写作时的信息检索流程,提高效率;营销人员可以获取可靠数据支持营销策略。
以上内容仅为想象,当下这些 ai agent 的真正能力和水平尚不足以替代各行各业中的精英人才。正如 logenic ai 联合创始人李博杰所言,目前 llm 的能力还只是入门级水平,远远达不到专家级,现阶段的 ai agent 更像是一个干活比较快但不太可靠的员工。
然而,这些 ai agent 凭借各自的特长,正在助力现有用户在多样化场景中提高效率和便利性。
不仅仅限于科技公司,各行各业都可以在 ai agent 的浪潮中获得益处。在教育领域,ai agent 可以根据学生的学习进度、兴趣和能力提供个性化的学习资源和辅导;在金融领域,ai agent 可以帮助用户管理个人财务,提供投资建议,甚至预测股票走势;在医疗领域,ai agent 可以帮助医生进行疾病诊断和治疗方案的制定;在电商领域,ai agent 还可以作为智能客服,通过自然语言处理和机器学习技术自动回答用户咨询,处理订单问题和退货请求,以此提高客户服务效率。
multi-agent:ai agent 的下一步
在上一节关于单人独角兽公司的设想中,单一的 ai agent 在处理复杂任务时面临着局限性,难以满足实际需求。而运用多个 ai agent 时,由于这些 ai agent 基于异构 llm,集体决策困难,能力有限,以至于还需要人类充当这些独立 ai agent 之间的调度员,协调这些服务于不同应用场景的 ai agent 去工作。这便催生了“multi agent(多智体框架)”的兴起。
复杂问题往往需要融合多方面的知识和技能,而单个 ai agent 的能力有限,难以胜任。通过将不同能力的 ai agent 进行有机组合,multi-agent 系统可以让 ai agent 发挥各自的长处,取长补短,从而更有效地解决复杂问题。
这非常类似于我们实际中的工作流程或组织结构:由一个领导者分配任务,拥有不同能力的人,负责不同的任务,每个工序执行的结果给到下一个工序,最终得到最后的任务成果。
在实现过程上,由较低级别 ai agent 执行各自的任务,而由级别较高的 ai agent 分配任务,并对它们的完成情况进行监督。
multi-agent 还能模拟我们人类的决策过程,就像我们遇到问题时会找人商量一样,多个 ai agent 也可以模拟集体决策的行为,为我们提供更好的信息支持。例如由微软开发的 autogen 就满足了这一点:
- 能够创建不同角色的 ai agent。这些 ai agent 具有基本的对话能力,能够根据接收到的消息,生成回复。
- 通过 groupchat 来创建由多个 ai agent 参与的群聊环境,在这个 groupchat 有一个管理员角色的 ai agent 管理其他 ai agent 的聊天记录、发言者顺序、终止发言等。
如果应用到单人独角兽公司的设想里,我们可以通过 multi-agent 架构创建几个不同角色的 ai agent,比如项目经理、程序员或者主管。把我们的目标告诉它们,让它们任意去想办法,我们只要在一旁听汇报,如果觉得有意见或者它们做得不对的地方,就让它们改,直到满意为止。
相比单一的 ai agent,multi-agent 可以实现:
- 可扩展性:通过增加 ai agent 的数量来处理更大规模的问题,每个 ai agent 处理任务的一部分,使得系统能够随着需求的增长而扩展。
- 并行性:天然支持并行处理,多个 ai agent 可以同时在问题的不同部分上工作,从而加速了问题解决。
- 决策改进:通过聚合多个 ai agent 的洞察力来增强决策制定,因为每个 ai agent 都有自己的视角和专业知识。
随着 ai 技术的不断进步,可以想象 multi-agent 框架将在更多行业发挥更大的作用,并推动 ai 驱动的各类新解决方案的发展。
ai agent 之风,吹向 web3
迈出实验室,ai agent 和 multi-agent 道阻且长。
暂且不论 multi-agent,即便是当下最先进的单一 ai agent ,其需要的算力资源和计算能力在物理层面仍有明确的上限,无法做到无限扩展。一旦面临极其错综复杂、计算量密集的任务,ai agent 无疑将会遭遇算力瓶颈,性能大打折扣。
再者,ai agent 和 multi-agent 系统本质上是一种集中式的架构模式,这决定了它存在着极高的单一故障风险。更重要的是,openai、微软、谷歌等公司基于闭源大模型的垄断商业模式,严重威胁独立、单一的 ai agent 创业公司的生存环境,使得 ai agent 无法顺利利用庞大的企业私有数据来使它们变得更聪明、更有效率。ai agent 之间亟需民主化的协作环境,使得真正有价值的 ai agent 得以服务更广阔的需求人群,为社会创造更大的价值。
最后,虽然与 llm 相比,ai agent 更贴近产业,但其发展基于 llm,而当前大模型赛道的特点是技术门槛高、资金投入多、商业模式尚且发展不成熟,ai agent 通常很难获得融资以持续更新迭代。
multi-agent 的范式是 web3 助力 ai 的绝佳角度,已经有不少 web3 开发团队正在这些方面投入研发提供解决方案。
ai agent 和 multi-agent 系统通常需要大量的计算资源来进行复杂的决策和处理任务。web3 通过区块链和去中心化技术,可以构建去中心化的算力市场,使得算力资源可以在全球范围内更加公平和高效地分配和利用。akash、nosana、aethir、 io.net 等 web3 项目可以对 ai agent 决策和推理提供计算能力。
传统的 ai 系统往往是集中式管理,导致 ai agent 面临单点故障和数据隐私问题,web3 的去中心化特性可以使得 multi-agent 系统更加分散和自治,每个 ai agent 可以独立地运行在不同的节点上,自主执行用户提出的需求,增强了鲁棒性和安全性。通过 pos、dpos 等机制建立针对质押者、委托者的激励惩罚机制,可以促进单一 ai agent 或 multi-agent 系统的民主化。
在这方面,gaianet、theoriq、pin ai、hajimeai 都有非常前沿的尝试。
- theoriq 是一个服务于“ai for web3”的项目,希望通过 agentic protocol 建立 ai agents 的调用和经济系统,普及 web3 的开发和许多功能性场景,为 web3 dapp 提供可验证的模型推理能力。
- gaianet 以节点为基础的 ai agent 创建和部署环境,以保护专家、用户的知识产权与数据隐私为出发点,抗衡中心化的 openai gpt store。
- hajimeai 则在两者基础上发力 ai agent 工作流在实际需求中的建立和针对意图本身的智能化、自动化,呼应pin ai提到的“ai智能的个性化”。
- 同时,modulus labs 与 ora protocol 分别在 ai agent 的 zkml 和 opml 的算法方向取得了进展。
最后,ai agent 和 multi-agent 系统的开发和迭代往往需要大量的资金支持,而 web3 可以通过前置流动性的特点帮助有潜力的 ai agent 项目获取宝贵的早期支持。
spectral 和 hajimeai 均提出了支持发行链上 ai agent 资产的产品构想:通过 iao(initial agent offering)发行代币,ai agent 可以直接从投资者获得资金,同时成为 dao 治理的一员,为投资者提供参与项目发展和分享未来收益的机会。其中 hajimeai 的 benchmark dao 希望通过众筹加代币激励的方式,将去中心化的 ai agent 评分和 ai agent 资产发行有机结合起来,打造 ai agent 依托 web3 融资和冷启动的闭环,也是比较新颖的尝试。
ai 潘多拉魔盒已然开启,置身其中的每个人既兴奋又迷茫,热潮下是机遇还是暗礁,无人知晓。如今,各行各业都已不再是 ppt 融资时代,无论多么前沿的技术,也只有落地才能实现价值。ai agent 的未来注定是一场漫长的马拉松, 而 web3 正确保它不会在这场竞赛中黯然退场。
以上就是代码网小编给大家分享的全面深度解析multi agent:web3与ai终将相互成就的详细介绍了,希望大家喜欢!
发表评论