LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力


合成数据持续解锁大模型的数学推理潜力!

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的语言模型(LLaMA-2-7B)在数学问题解决方面已经展现出较强的潜力,并可使用基于合成数据的有监督微调方法促使模型愈发稳定地将数学能力激发出来。

这项研究发布在 arXiv 上,题为《Common 7B Language Models Already Possess Strong Math Capabilities》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

llama-2-7b数学能力上限已达97.7%?xwin-math利用合成数据解锁潜力

  • 论文链接:https://arxiv.org/pdf/2403.04706.pdf
  • 代码链接:https://github.com/Xwin-LM/Xwin-LM

研究团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明,当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时,测试准确率可分别高达 97.7% 和 72.0%,这一结果说明即使是通用预训练下 7B 量级的小模型,也具备生成优质回答的巨大潜力,这一发现挑战了以往的观点,即强大的数学推理潜力并非仅限于大规模和数学相关预训练模型。

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

然而研究也指出,尽管已具备强大的数学推理潜力,但当前语言模型的主要问题是难以一致地激发其内在的数学能力。例如,在前面的实验中如果只考虑每个问题的一次生成的答案,那么在 GSM8K 和 MATH 基准测试上的准确率会分别降至 49.5% 和 7.9%。这体现出模型数学能力的不稳定性问题。为了解决这一问题,研究团队采用了扩大有监督微调(SFT)数据集的方法,并发现随着 SFT 数据的增多,模型生成正确答案的可靠性被显著提升。

研究中还提到,通过使用合成数据,可以有效地扩大 SFT 数据集,而且这种方法几乎与真实数据一样有效。研究团队利用 GPT-4 Turbo API 生成了合成的数学问题与解题过程,并通过简单的验证提示词来确保问题的质量。通过这种方法,团队成功地将 SFT 数据集从 7.5K 扩展到约一百万样本,实现了近乎完美的缩放定律(Scaling Law)。最终获得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率,大幅超越此前的 SOTA 模型,甚至可超越一些 70B 量级模型,实现越级提升。而 Xwin-Math-70B 模型在 MATH 评测集上的结果可达 52.8%,显著超越了 GPT-4 的早期版本。这是基于 LLaMA 系列基础模型的研究第一次在 MATH 上超越 GPT-4。

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

研究人员还定义了 Pass@N 和 PassRatio@N 评测指标,意图分别测评模型的 N 次输出中,是否能够输出正确答案(表示模型潜在的数学能力),以及正确答案的所占比例(表示模型数学能力的稳定性)。当 SFT 数据量较小时,模型的 Pass@256 已经很高,进一步扩大 SFT 数据规模后,模型的 Pass@256 提升极小,而 PassRatio@256 则获得显著增长。这表明基于合成数据的有监督微调是提升模型数学能力稳定性的有效方式。

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

此外,研究还提供了对不同推理复杂性和错误类型下扩展行为的洞察。例如,随着 SFT 数据集规模的增加,模型在解决数学问题时的准确率遵循与推理步骤数量相关的幂律关系。通过增加训练样本中长推理步骤的比例,可以显著提高模型解决难题的准确率。同时,研究还发现,计算错误比推理错误更容易被缓解。

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

在表现模型数学推理泛化能力的匈牙利高中数学考试中,Xwin-Math 也拿到了 65% 的分数,仅次于 GPT-4。这表明研究中合成数据的方式并没有显著地过拟合到评测集中,展现出良好的泛化能力。

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

这项研究不仅展示了合成数据在扩展 SFT 数据方面的有效性,而且为大型语言模型在数学推理能力方面的研究提供了新的视角。研究团队表示,他们的工作为未来在这一领域的探索和进步奠定了基础,并期待能够推动人工智能在数学问题解决方面取得更大的突破。随着人工智能技术的不断进步,我们有理由期待 AI 在数学领域的表现将更加出色,为人类解决复杂数学问题提供更多帮助。

文章还涉及数据合成方法的消融实验和其他评测指标的结果,详细内容请参阅全文。

以上就是LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力的详细内容,更多请关注其它相关文章!


# 匈牙利  # 兴化网站建设材料采购  # 临沂品牌seo查询  # 网站优化怎么样做得快呢  # 狠狠射网站建设  # 上海线上营销咋做推广  # 武清seo关键词优化  # 十堰网站优化哪个平台好  # 网站制作及推广  # seo是什么职务  # 日照德阳网站建设  # 记不住  # 工程  # 新能源  # 到你  # 太多  # 丰田  # 中国科学院  # 这一  # 解锁  # 已达  # type  # llama 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  从数据中心到发电站:人工智能对能源使用的影响  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  改变城市交通:智慧城市中的智能交通  AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?  鸿蒙4即将支持大规模AI模型  华为小艺AI助手将实现强大的大模型能力  北京市元宇宙产业创新中心筹建工作正式启动  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  测试框架-安全和自动驾驶  优化系统韧性:故障恢复与监控在RabbitMQ中的应用  脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果  Snap宣布研发出新技术 可大幅提升AI生成图像速度  小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响  谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能  人工智能驱动智能建筑会是未来趋势吗?  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  微幼科技晨检机器人与人工晨检相比,有何优势  美图设计室2.0使用教程  AI赋能艺术 超现实达利奇幻之旅在沪开启  谷歌在人工智能领域没有“护城河”?  万魔推出AI主攻的运动耳机,开启十年研发新纪元  拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式  人工智能如何用于家庭安全  阿里达摩院向公众免费开放100项AI专利许可  自然语言生成在智能家居设备中的应用  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  DreamAvatar数字人使用教程  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  优地网络助力新媒体拥抱人工智能时代  微软在德国举办MR研讨会,向女性分享元宇宙潜力  热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…  令人震惊的特斯拉机器人  “木头姐”:特斯拉的人工智能训练——“赢家通吃”的机会  B站内测 AI 搜索功能,输入“?”即可体验  消息称字节机器人团队已有约50人,计划年底扩充到上百人  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  应对算力挑战,亚马逊云科技发力AI基础设施建设  大型无人机FH-98国内首次夜航转场成功  数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革 

 2024-03-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.