再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手


最近几年,「视频会议」在工作中的占比逐渐增加,厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点,要是对话中提到了一些对方很陌生的名词,并且很难用语言描述出来,比如食物「寿喜烧」,或是说「上周去了某个公园度假」,很难用语言给对方描述出的美景;甚至是指出「东京位于日本关东地区」,需要一张地图来展示等,如果只用语言可能会让对方越来越迷茫。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

再也不怕「视频会议」尬住了!谷歌chi顶会发布新神器visual captions:让图片做你的字幕助手

最近,谷歌在人机交互顶级会议ACM CHI(Conference on Human Factors in Computing Systems)上展示了一个系统Visual Captions,介绍了远程会议中的一个全新视觉解决方案,可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

论文链接:https://research.google/pubs/pub52074/

代码链接:https://github.com/google/archat

Visual Captions系统基于一个微调后的大型语言模型,可以在开放词汇的对话中主动推荐相关的视觉元素,并已融入开源项目ARChat中。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

在用户调研中,研究人员邀请了实验室内的26位参与者,与实验室外的10位参与者对系统进行评估,超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐,并可以提升交流体验。

设计思路

在开发之前,研究人员首先邀请了10位内部参与者,包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等技术与非技术背景的从业者,讨论对实时视觉增强服务的特定需求和期望。

两次会议后,根据现有的文本转图像系统,确立了预期原型系统的基本设计,主要包括八个维度(记为D1至D8)。

D1:时序,视觉增强系统可与对话同步或异步展现

D2:主题,可用于表达和理解语音内容

D3:视觉,可使用广泛的视觉内容、视觉类型和视觉源

D4:规模,根据会议规模的不同,视觉增强效果可能有所不同

D5:空间,视频会议是在同一地点还是在远程设置中

D6:隐私,这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7:初始状态,参与者还确定了他们希望在进行对话时与系统交互的不同方式,例如,不同级别的「主动性」,即用户可以自主确定系统何时介入聊天D8:交互,参与者设想了不同的交互方法,例如,使用语音或手势进行输入

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

用动态的视觉效果增强语言交流的设计空间

根据初步反馈,研究人员设计了Video Caption系统,专注于生成语义相关的视觉内容、类型和来源的同步视觉效果。

虽然在探索性会议中的想法大多关注于一对一远程对话的形式,Video Caption同样也可以用于一对多的(例如,向观众进行演示)和多对多场景(多人会议讨论)的部署。

除此之外,最能补充对话的视觉效果在很大程度上取决于讨论的上下文,所以需要一个专门制作的训练集。

研究人员收集了1595个四元组,包括语言、视觉内容、类型、来源,涵盖了各种上下文场景,包括日常对话、讲座、旅行指南等。

比如用户说「我很想看看!」(I would love to see it!)对应于「面部微笑」(face smiling)的视觉内容、「表情符号」(emoji)的视觉类型和「公共搜索」(public search)的视觉源。

「她有没有告诉你我们去墨西哥的事?」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集VC 1.5K目前已开源。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

数据链接:https://github.com/google/archat/tree/main/dataset

Seede AI Seede AI

AI 驱动的设计工具

Seede AI 713 查看详情 Seede AI

视觉意图预测模型

为了预测哪些视觉效果可以补充对话,研究人员使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段,每个视觉意图解析为「 of from 」的格式。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

基于该格式,系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

这种方法在实践中也优于基于关键词的方法,因为后者无法处理开放式词汇的例子,比如用户可能会说「你的艾米阿姨将在这个星期六来访」,没有匹配到关键词,也就无法推荐相关的视觉类型或视觉来源。

研究人员使用VC1.5K数据集中的1276个(80%)样本来微调大型语言模型,其余319个(20%)示例作为测试数据,并使用token准确率指标来度量微调模型的性能,即模型正确预测的样本中token正确的百分比。

最终模型可以实现97%的训练token准确率和87%的验证token准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性,研究团队邀请了89名参与者执行846项任务,要求对效果进行打分,1为非常不同意(strongly disagree)、7为非常同意(strongly agree)。

实验结果显示,大多数参与者更喜欢在对话中看到视觉效果(Q1),83% 给出了5-有些同意(somewhat agree)以上的评价。

此外,参与者认为显示的视觉效果是有用的且信息丰富的(Q2),82%给出了高于5分的评价;高质量的(Q3),82%给出了高于5分的评价;并与原始语音相关(Q4,84%)。

参与者还发现预测的视觉类型(Q5,87%)和视觉来源(Q6,86%)在相应对话的背景下是准确的。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型,研究人员在ARChat平台上开发了Visual Captions,可以直接在视频会议平台(如Google Meet)的摄像头流上添加新的交互式小部件。

在系统工作流程中,Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果,然后提供推荐的视觉效果。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

Visual Captions的系统工作流

Visual Captions在推荐视觉效果时提供三个级别的可选主动性:

自动显示(高主动性):系统自主搜索并向所有会议参与者公开显示视觉效果,无需用户交互。

自动推荐(中等主动性):推荐的视觉效果显示在私人滚动视图中,然后用户点击一个视觉对象可以进行公开展示;在这种模式下,系统会主动推荐视觉效果,但用户决定何时显示以及显示什么。

按需建议(低主动性):用户按下空格键后,系统才会推荐视觉效果。

研究人员在对照实验室研究(n = 26)和测试阶段部署研究(n = 10)中评估了Visual Captions系统,参与者发现,实时视觉效果有助于解释不熟悉的概念、解决语言歧义,并使对话更具吸引力,从而促进了现场对话。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

参与者的task load指数和Likert scale评级,包括无VC、以及三个不同主动性的VC

与会者还报告了在现场进行交互中的不同的系统偏好,即在不同的会议场景中使用不同程度的VC主动性

以上就是再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手的详细内容,更多请关注其它相关文章!


# 视频  # 铜陵网站首页优化价格  # 江口网站优化推广价格  # 2017dedecms seo视频  # 兴化seo公司哪家好  # 澳门手机网站建设  # 营销推广设计包括哪些  # 抖音seo广告优化  # 口碑seo评估  # 多语言  # 就可以  # 开源  # 新能源  # 很难  # 墨西哥  # 出了  # 住了  # 视频会议  # 关键词  # type  # captions  # 谷歌  # 触元网站建设  # 推广外贸网站的好处 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 万魔推出AI主攻的运动耳机,开启十年研发新纪元  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI  鸿蒙4即将支持大规模AI模型  智能机器人正在彻底改变客户服务  彬州市第三届青少年机器人创新大赛成功举办  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  OpenAI宣布组建新团队 以控制“超级智能”人工智能  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  如何获得元宇宙的第一个属于自己的空间  学生作文评分的新趋势:教师与AI的合作模式  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  “具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?  三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴  MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程  特斯拉门店可能启动机器人卖车?也许不是你想的那样  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  OpenAI夺冠:人工智能为云计算带来新变革  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  1000万张照片训练AI模型 科学家找到水下定位新方法  如何利用物联网技术提高企业生产线智能化水平,提升生产效率  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  OpenAI 向所有付费 API 用户开放 GPT-4  华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余  世界上第一个完全由人工智能驱动的图像编辑器!  梦想实现!硬核科幻大片VR智能头盔即将问世  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  看似低调,实则稳健:字节在AI路上会遇到什么?  懒人必备的家居清洁好物,石头自清洁扫拖机器人G20  周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业  AI大模型时代,数据存储新基座助推教科研数智化跃迁  到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启  物联网和人工智能的协同作用:释放预测性维护的潜力  WHEE网页地址入口  人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新  实现人工智能和物联网的协同运作 

 2023-06-12

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.