数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好


腾讯的研究团队进行了一项关于agent的可拓展性的研究。他们发现,通过简单的采样投票,大型语言模型(llm)的性能随着实例化agent数量的增加而增强。这项研究首次在各种场景中验证了这一现象的普遍性,并与其他复杂方法进行了对比,探讨了这一现象背后的原因,并提出了进一步发挥scaling效应的方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

  • 论文标题:More Agents Is All You Need

  • 论文地址:https://arxiv.org/abs/2402.05120

  • 代码地址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,来自腾讯的研究者发现:只需通过一种简单的采样投票法,大语言模型的性能就会随着实例化 agent 的数量的增大而增强,呈现scaling property(可拓展性),无需复杂的多 LLM agents 协作框架以及prompt工程方法的加持。此外,该方法与现有的复杂方法正交,结合之后,可进一步增强 LLM,其增强程度与任务难度相关。该论文做了第一个关于 raw agent(指不依赖复杂的prompt工程和协作框架的LLM agent)的 scaling property 的研究,其对各种 LLM 基准进行了全面的实验,以验证此发现的普遍性,并研究了可以促进其发生的策略。目前代码已开源。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
                                    多个小模型超过大模型

论文详细探讨了多种集成LLM的相关研究,其中包括LLM的自集成、异构LLM的集成,以及多个LLM代理协作框架的研究。通过与提出的方法进行对比,可以看出论文进行了更为全面的研究和分析。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
为了研究大型语言模型的性能如何随着实例化 agents 数量的增加而提升。论文使用了一种简单的采样和投票方法(作者用了 simple (st) 的说法,可见他们认为这个方法也许是最简单的方法之一)。值得注意的是,此方法可与现有的复杂方法正交结合。它可以被分为两个阶段:

  • 将任务 query 输入到单个 LLM 或多个 LLM Agents 协作框架中,生成多个输出;
  • 通过多数投票确定最终结果
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
论文从 Llama2 和 GPT 系列选择不同规模的语言模型进行评估,任务数据集涵盖推理和生成等多个领域。实验结果表明,在所有任务和不同种类、规模的 LLM 上,发现 LLM 的性能随着实例化 agent 的数量而增加。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

例如,在 GSM8K 任务上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,多个小 LLM 集成可以达到甚至超越较大 LLM 的性能。例如,多个 Llama2-13B 的集成在 GSM8K 上达到了 59% 准确率,超过了单一 Llama2-70B 的 54% 的准确率。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation
进一步地,作者还探索了与其他方法的兼容性。尽管这些方法实现各不相同,但是在与之结合使用时,性能可以进一步提升,并同样符合实例化 agent 越多,性能增益越强的现象。实验结果显示增益范围从 1% 到 27% 不等,说明这个简单的方法通过和其他方法正交使用可以进一步增强 LLM 的性能。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                                   基于 LLama13B

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                                 基于 LLama70B

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                              基于 GPT-3.5-Turbo

此外,论文还分析了性能提升与问题难度之间的关系。

  • 固有难度:随着任务固有难度的增加,性能提升(即相对性能增益)也会增加,但当难度达到一定程度后,增益会逐渐减少。这表明在任务过于复杂时,模型的推理能力可能无法跟上,导致性能提升的边际效应递减。
  • 步骤数量:随着解决任务所需的步骤数量增加,性能提升也会增加。这表明在多步骤任务中,通过增加 agent 数量可以帮助模型更好地处理每一步,从而整体提高任务的解决性能。
  • 先验概率:正确答案的先验概率越高,性能提升越大。这意味着在正确答案更有可能的情况下,增加 agent 数量更有可能带来显著的性能提升。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
节点:步骤,虚线:可能的替代步骤。节点的深度:步骤的数量,颜色的强度:固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。

基于此,论文提出了两种优化策略来进一步提升方法的有效性:

  • 逐步采样和投票(Step-wise Sampling-and-Voting):这种方法将任务分解为多个步骤,并在每个步骤中应用采样和投票,以减少累积错误并提高整体性能。
  • 分层采样和投票(Hierarchical Sampling-and-Voting):这种方法将低概率任务分解为多个高概率子任务,并分层解决,同时可以使用不同模型来处理不同概率的子任务以降低成本。
    数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
最后,提出了未来的工作方向,包括优化采样阶段以降低成本,并继续开发相关机制来减轻 LLM 幻觉(hallucinations)的带来的潜在负面影响,确保这些强大模型的部署既负责任又有益。

以上就是数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好的详细内容,更多请关注其它相关文章!


# 也会  # 使用浏览器缓存seo  # 长春律师网站推广公司  # seo简爱老师  # seo考试在哪报名  # 免费的网站优化营销  # 佛山seo优化哪家强  # 演讲网站建设工作  # 如何做好网站优化建设  # 朋友圈营销推广思路  # 餐饮部营销推广措施  # 腾讯  # 开源  # 这一  # 的是  # 进行了  # 飞星  # 多个  # 越好  # 越多  # llama  # 工程 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军  干货满满,2025昆山元宇宙国际装备展等你来打卡!  传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」  机器人加速!稀土永磁也被带火,持续性如何?  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  城市在采用人工智能方面进展如何?  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  懒人必备的家居清洁好物,石头自清洁扫拖机器人G20  人工智能如何帮助制造业?  七大主流AI企业包括OpenAI、谷歌等联合承诺:引入水印技术,并允许第三方审核AI内容  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  如何用Transformer BEV克服自动驾驶的极端情况?  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?  稿见AI助手:提升写作效率与质量的必备工具  RoboNeo安装教程  人工智能颠覆软件测试四大方式  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心  世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  MiracleVision视觉大模型功能介绍  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  遵义市首次引入手术机器人,成功实施全膝关节置换术  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  智能机器人正在彻底改变客户服务  2025年深圳举办的SUSECON 创新峰会开始接受报名  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  V社谈AI制作游戏被ban:为确保开发者有素材所有权  2025年贵州省青少年机器人竞赛在安举行  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  AI室内设计软件流行,室内设计行业如何应对效率变革  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  如何利用物联网技术提高企业生产线智能化水平,提升生产效率  Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙  AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导  全媒封面丨⑤商汤科技:原创AI算法“发电厂” 

 2024-02-29

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.