Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器


近段时间,ai 编程工具 cursor 的风头可说是一时无两,其表现卓越、性能强大。近日,cursor 一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升 claude 3.5 sonnet 等 llm 的代码生成能力。

具体来说,他们提出的方法名为 PlanSearch(规划搜索)。主导团队是 Scale AI,本文一作为 Scale AI 研究者 Evan Wang。二作 Federico Cassano 现已加入如今炙手可热的 AI 编程工具公司 Cursor。他曾参与创立了 GammaTau AI 项目,该项目的目标是实现 AI 编程的民主化。此外,他也是 BigCode 项目的活跃贡献者,该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

  • 论文标题:Planning In Natural Language Improves LLM Search For Code Generation

  • 论文地址:https://arxiv.org/pdf/2409.03733

论文开篇,该团队提到强化学习教父 Sutton 的经典文章《The Bitter Lesson(苦涩的教训)》揭示的 Scaling Law 的两大核心原则:学习和搜索。随着大型语言模型的迅猛发展,人们对于「学习」是否有效的疑虑已基本消除。然而,在传统机器学习领域中表现出色的「搜索」策略,将如何拓展大模型的能力,还是个未知数。

目前阻碍模型应用「搜索」的主要难题是模型给出的答案过于雷同,缺乏多样性。这可能是由于在预训练的基础上,模型会在特定的数据集上进行进一步的训练,以适应特定的应用场景或任务所导致的。

经过大量实证研究证明,许多大语言模型往往会被优化,以产生一个正确的答案。比如下图中所示,DeepSeek-Coder-V2-Lite-Base 的表现不如其基础模型,但随着回答的多样性的减少,情况发生了逆转。多个模型都存在这种现象:经过特别指令调整的模型在只生成一个答案的情况下(pass@1)通常比基础模型表现得好很多,但当需要生成多个答案时,这种优势就不明显了 —— 在某些情况下,甚至完全相反。

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

模型在生成答案时缺乏多样性,这对于搜索的效果非常不利。特别是在极端情况,比如采用「贪心解码」,模型给出的答案会非常相似,因为它们是从模型中重复抽取的。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。

通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很难反应模型在回答多样性方面的不足。这些排行榜主要关注模型在单一样本上的通过率,没有考虑到模型在更广泛场景下的表现。由于模型需要很快地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。

针对以上问题,研究人员对如何在大语言模型推理过程中提高回答的多样性进行了探索。对此,他们提出了假设,想让模型输出的答案更加丰富,需要在自然语言的概念或想法的空间内进行搜索。

为了验证这个假设,研究人员进行了一系列实验。首先,研究人员发现,如果给模型一些简单的草图(这些草图是从已经能解决问题的代码中「回译」而来),模型就能根据这些草图写出正确的最终程序。其次,研究人员还发现,如果让模型在尝试解决问题之前,先在 LiveCodeBench 上想出一些点子(这个过程叫做 IdeaSearch / 思路搜索),然后看看模型能不能用这些点子解决问题。

结果发现,模型要么完全解决不了问题(准确度为 0%),要么就能完美解决问题(准确度为 100%)。这表明当模型尝试解决一个问题时,成功与否主要取决于它最初的那个想法(草图)对不对。

根据这两个实验的结果,研究人员认为一种提升 LLM 代码搜索能力的自然方法是:搜索正确的思路,然后实现它!

于是,规划搜索(PlanSearch)方法诞生了。

不同于之前的搜索方法(通常是搜索单个 token、代码行甚至整个程序)不一样,规划搜索是搜索解决当前问题的可能规划。这里,规划(plan)的定义是:有助于解决某个特定问题的高层级观察和草案的集合。

为了生成新规划,规划搜索会生成大量有关该问题的观察,然后再将这些观察组合成用于解决问题的候选规划。

这个操作需要对生成的观察的每个可能子集都执行,以最大化地鼓励在思路空间中进行探索,之后再将结果转译成最终的代码解决方案。

该团队的实验发现,在推理时有效使用计算方面,规划搜索方法优于标准的重复采样方法以及直接搜索思路的方法。

方法

在这项研究中,该团队探索了多种不同方法,包括重复采样(Repeated Sampling)、思路搜索(IdeaSearch)以及新提出的规划搜索(PlanSearch)。其中前两种方法顾名思义,比较直观,这里我们重点关注新提出的规划搜索。

该团队观察到,虽然重复采样和思路搜索能成功地提升基准评测的结果。但在很多案例中,多次提示(pass@k)(即使在温度设置很高)只会导致输出代码发生很小的变化,这些变化只会改变一些小方面,但无法改善思路中的缺陷。

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

下面来看具体的规划搜索过程:

1. 通过提示来获取观察

首先假设有一个问题陈述 P,通过向 LLM 发送提示词来获取对该问题的「观察」/ 提示。这里将这些观察记为  O^1_i,其中 i ∈ {1, . . . , n_1};这是因为它们是一阶观察。通常而言,n_1 的数量级在 3 到 6 之间。具体数量取决于 LLM 输出。为了利用这些观察结果来启发未来的思路,该团队创建了 O^1_i 的集合 S^1 的且大小至多为 2 的所有子集。其中每个子集都是观察结果的一个组合。这里将每个子集记为 C^1_i,其中 i ∈ {1, . . . , l_1},而Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

2. 推导新的观察

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

这样一来,所有观察结果的集合都可以定义为深度为 1 的有向树,其中根节点为 P,并且每个 C^1_i 都有一条从 P 指向 C^1_i  的边。

然后,在每个叶节点 C^1_i 上重复上一步流程,从而生成一个二阶观察集 S^2。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。然后再提示 LLM,让其使用 / 合并在 C^1_i 中找到的观察来得出新的观察。

这个过程可以继续延伸,但由于计算限制,这里在深度为 2 时对该树进行了截断操作。

3. 将观察变成代码

在得到了观察之后,必须先将它们实现成具体思路,然后再将它们转译成代码。

具体来说,对于每个叶节点,将所有观察以及原始问题 P 放入提示词来调用 LLM,以便生成问题 P 的自然语言解决方案。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求 LLM 给出批评 / 反馈,从而将提议的思路翻倍了。

然后,再将这些自然语言解决方案转译成伪代码;再把这些伪代码转译成真正的 Python 代码。

实验

实验采用了三个评估基准:MBPP+、HumanEval+ 和 LiveCodeBench。参数设置等细节请参阅原论文。

至于结果,该团队报告了三种方法的结果,包括重复采样、思路搜索和规划搜索,见表 1、图 1 和图 5。

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

可以看到,规划搜索和思路搜索的表现明显优于基础的采样方法,其中规划搜索方法在所有实验方法和模型上都取得了最佳分数。

图 7、8、9 展示了在每个数据集上的详细 pass@k 结果。

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

可以看到,在 Claude 3.5 Sonnet 上使用规划搜索方法时,在 LiveCodeBench 基准上得到了当前最佳的 pass@200 性能:77.0%。该表现优于不使用搜索时获得的最佳分数(pass@1 = 41.4%)以及标准的 best-of-n 采样方法的分数(pass@200 = 60.6%)。

此外,使用小型模型(GPT-4o-mini)执行规划搜索时,仅仅 4 次尝试后就能胜过未使用搜索增强的大型模型。这佐证了近期一些使用小模型进行搜索的有效性的研究成果。

在另外两个编程基准 HumanEval+ 和 MBPP+ 上,规划搜索也能带来类似的提升。

通过研究特定模型的差异,该团队注意到 pass@k 曲线所呈现的趋势在所有模型中并不统一;事实上,每条曲线看起都不一样。该团队猜想部分原因是思路多样性的变化。

该团队还得到了一个有趣的观察结果:规划搜索并不利于某些模型的 pass@1 指标,其中最明显的是 Sonnet 3.5 在 LiveCodeBench 上的表现 —— 这是实验中表现最好的组合。

该团队基于直觉给出了解释:提升思路多样性可能会降低生成任何特定思路的概率,同时增加在给定池中至少有一个正确思路的几率。因此,pass@1 可能会略低于平常,但也正是由于这个原因,pass@k 指标可能会优于缺乏多样性的思路池。

另外,表 1 和图 1 给出了在尝试 / 完成上经过归一化的主要结果。其中针对每个问题,每种搜索方法都可以尝试 k 次。

最后,该团队还发现,在思路空间中观察到的多样性可用于预测搜索性能,这可通过模型 / 方法的 pass@1 与其 pass@200 之间的相对改进计算得到,如图 6 所示。

虽然熵是最常见的多样性度量是,但由于种种原因,熵不足以精确衡量 LLM 的多样性。

因此,该团队测量多样性的做法是在所有生成的程序上使用简单的配对策略,将其置于思路空间中进行计算。具体算法请访问原论文。

以上就是Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器的详细内容,更多请关注其它相关文章!


# 是从  # 海外seo发展  # 贵州专业网站优化大全  # 延安网站建设文案策划  # 直播间关键词统计排名  # 生活视频关键词优化排名  # seo品牌建设如何做  # 排名资讯刷关键词  # 营销和营销推广的区别  # 寒亭企业网站优化  # 新手怎么推广网站  # 只会  # 提出了  # 产业  # 多个  # 进行了  # 再将  # 就能  # 是在  # 自然语言  # 解决问题  # claude  # cursor  # deepseek  # python  # scale ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  智能技术提高现代商业运营的7七种方式  AI室内设计软件流行,室内设计行业如何应对效率变革  面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络  大型无人机FH-98国内首次夜航转场成功  深剖Apple Vision Pro中暗藏的“AI”  人工智能在重症监护室的未来  联通发布鸿湖图文AI大模型1.0,可实现以文生图  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  阿里云连续两年进入Gartner云AI开发者“挑战者象限”  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence  Snow Kylin登陆中国列车,打造全球首条元宇宙专列  对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  国产医疗企业的人工智能  研究预测HPC支持的人工智能增长迅速  人工智能的变革之路:通过OpenAI的GPT-4漫游  人工智能如何帮助制造业?  马克龙密会AI专家,法国加入全球人工智能竞赛  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  海南省公安机关警用无人机培训班结业并举行警航比武演练  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  国家发改委组织工业机器人产业高质量发展现场会  读创正式上线“读创AI聊”功能  视觉中国宣布推出AI灵感绘图、画面扩展功能  美妆行业在AI时代蓬勃发展  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  五项人工智能尚未能够实现的任务  热点 | 人工智能黄金时代开启  盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”  衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩  V社悄悄封禁使用AI生成美术素材的游戏  阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型  编程版GPT狂飙30星,AutoGPT危险了!  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  微软Bing聊天机器人电脑端即将支持语音提问  华为AI大模型将融入HarmonyOS 4  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”  人工智能如何改变未来语言?  美图设计室2.0使用教程  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  软通动力天枢元宇宙研究院签约落户江宁高新区  百度举办AIGC创作沙龙,现场传授AI绘画“咒语”技巧  利用AI技术更好地发展农村电商  贫穷让我预训练 

 2024-09-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.