deepmind的ai智能体,又来卷自己了!
注意看,这个名叫BBF的家伙,只用2个小时,就掌握了26款雅达利游戏,效率和人类相当,超越了自己一众前辈。
要知道,AI智能体通过强化学习解决问题的效果一直都不错,但最大的问题就在于这种方式效率很低,需要很长时间摸索。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
而BBF带来的突破正是在效率方面。
怪不得它的全名可以叫Bigger、Better、Faster。
而且它还能只在单卡上完成训练,算力要求也降低许多。
BBF由谷歌DeepMind和蒙特利尔大学共同提出,目前数据和代码均已开源。
用于评价BBF游戏表现的数值,叫做IQM。
IQM是多方面游戏表现的综合得分,本文中的IQM成绩以人类为基准进行了归一化处理。
经与多个前人成果相比较,BBF在包含26款雅达利游戏的Atari 100K测试数据集中取得了最高的IQM成绩。
并且,在训练过的26款游戏中,BBF的成绩已经超过了人类。
与表现相似的Eff.Zero相比,BBF消耗的GPU时间缩短了将近一半。
而消耗GPU时间相似的SPR和SR-SPR,性能又和BBF差了一大截。
图片
而在反复进行的测试中,BBF达到某一IQM分数的比例始终保持着较高水平。
甚至有超过总测试次数1/8的运行当中取得了5倍于人类的成绩。
图片
即使加上其他没有训练过的雅达利游戏,BBF也能取得超过人类一半的分数IQM分数。
而如果单独看未训练的这29款游戏,BBF的得分是人类的四至五成。
图片
推动BBF研究的问题是,如何在样本量稀少的情况下扩展深度强化学习网络。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
为了研究这一问题,DeepMind将目光聚焦在了Atari 100K基准上。
但DeepMind很快发现,单纯增大模型规模并不能提高其表现。
图片
在深度学习模型的设计中,每步更新次数(Replay Ratio,RR)是一项重要参数。
具体到雅达利游戏,RR值越大,模型在游戏中取得的成绩越高。
最终,DeepMind以SR-SPR作为基础引擎,SR-SPR的RR值最高可达16。
而DeepMind经过综合考虑,选择了8作为BBF的RR值。
考虑到部分用户不愿花费RR=8的运算成本,DeepMind同时开发了RR=2版本的BBF
图片
DeepMind对SR-SPR中的多项内容进行修改之后,采用自监管训练得到了BBF,主要包括以下几个方面:
消融实验结果表明,在每步更新次数为2和8的条件下,上述因素对BBF的表现均有不同程度的影响。
图片
其中,硬复位和更新范围的缩小影响最为显著。
图片
而对于上面两个图中没有提到的NoisyNet,对模型表现的影响则并不显著。
图片
论文地址:https://arxiv.or
g/abs/2305.19452GitHub项目页:https://github.com/google-research/google-research/tree/master/bigger_better_faster
参考链接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2025/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/
— 完 —
以上就是两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏的详细内容,更多请关注其它相关文章!
# 效率
# 速通
# 就能
# 达利
# 两小时
# 开源
# AI
# 甘肃seo培训代理
# 外贸seo黑帽培训
# 网站优化维护多少钱
# 企业网站建设内容域名
# 短视频推广营销拓客话术
# 天津seo优
# 太仓网站建设方案外包
# 营销网站优化选择
# seo心电图
# 广元做推广的网站多少钱
# 上海
# 万个
# 蒙特利尔
# 解决问题
# 谁能
# 更大
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
调查:过半数艺术家认为 AI 作图无法帮助他们的工作
一公司推出喷火机器狗,可喷出 9 米长火焰
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信
微软向美国政府提供GPT的大模型,安全性如何保证?
6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI
新华全媒+|AI:当心,我可能欺骗了你!
华为云天筹AI求解器荣获世界人工智能大会最高奖
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
Vision Pro头显重磅发布;苹果收购AR厂商Mira
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务
自动驾驶汽车避障、路径规划和控制技术详解
提升工作效率的智能工具:Zapier 让工作变得更简单!
从数据中心到发电站:人工智能对能源使用的影响
张勇对话多位诺奖得主 人工智能将无处不在
天翼云在国际AI顶会大模型挑战赛中获得冠军
微软 Copilot 团队主管呼吁用户与 AI 交流时应使用恰当的礼貌用语
谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
RoboNeo安装教程
黄仁勋:5年前,我们对AI抱有巨大期望
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信
《上古卷轴5》AI高清材质包优化游戏中所有怪物
掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标
百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革
世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单
构建AI绘画网站的方法:使用API接口和调用步骤
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence
机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了
海南省公安机关警用无人机培训班结业并举行警航比武演练
人工智能:解决劳动力短缺的关键策略
微幼科技晨检机器人与人工晨检相比,有何优势
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
大型无人机FH-98国内首次夜航转场成功
飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办
“木头姐”:特斯拉的人工智能训练——“赢家通吃”的机会
马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了
2023-07-03
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。