再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

最近几年，「视频会议」在工作中的占比逐渐增加，厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点，要是对话中提到了一些对方很陌生的名词，并且很难用语言描述出来，比如食物「寿喜烧」，或是说「上周去了某个公园度假」，很难用语言给对方描述出的美景；甚至是指出「东京位于日本关东地区」，需要一张地图来展示等，如果只用语言可能会让对方越来越迷茫。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

最近，谷歌在人机交互顶级会议ACM CHI（Conference on Human Factors in Computing Systems）上展示了一个系统Visual Captions，介绍了远程会议中的一个全新视觉解决方案，可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

论文链接：https://research.google/pubs/pub52074/

代码链接：https://github.com/google/archat

Visual Captions系统基于一个微调后的大型语言模型，可以在开放词汇的对话中主动推荐相关的视觉元素，并已融入开源项目ARChat中。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

在用户调研中，研究人员邀请了实验室内的26位参与者，与实验室外的10位参与者对系统进行评估，超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐，并可以提升交流体验。

设计思路

在开发之前，研究人员首先邀请了10位内部参与者，包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等技术与非技术背景的从业者，讨论对实时视觉增强服务的特定需求和期望。

两次会议后，根据现有的文本转图像系统，确立了预期原型系统的基本设计，主要包括八个维度（记为D1至D8）。

D1：时序，视觉增强系统可与对话同步或异步展现

D2：主题，可用于表达和理解语音内容

D3：视觉，可使用广泛的视觉内容、视觉类型和视觉源

D4：规模，根据会议规模的不同，视觉增强效果可能有所不同

D5：空间，视频会议是在同一地点还是在远程设置中

D6：隐私，这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7：初始状态，参与者还确定了他们希望在进行对话时与系统交互的不同方式，例如，不同级别的「主动性」，即用户可以自主确定系统何时介入聊天D8：交互，参与者设想了不同的交互方法，例如，使用语音或手势进行输入

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

用动态的视觉效果增强语言交流的设计空间

根据初步反馈，研究人员设计了Video Caption系统，专注于生成语义相关的视觉内容、类型和来源的同步视觉效果。

虽然在探索性会议中的想法大多关注于一对一远程对话的形式，Video Caption同样也可以用于一对多的（例如，向观众进行演示）和多对多场景（多人会议讨论）的部署。

除此之外，最能补充对话的视觉效果在很大程度上取决于讨论的上下文，所以需要一个专门制作的训练集。

研究人员收集了1595个四元组，包括语言、视觉内容、类型、来源，涵盖了各种上下文场景，包括日常对话、讲座、旅行指南等。

比如用户说「我很想看看！」（I would love to see it!）对应于「面部微笑」（face smiling）的视觉内容、「表情符号」（emoji）的视觉类型和「公共搜索」（public search）的视觉源。

「她有没有告诉你我们去墨西哥的事？」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集VC 1.5K目前已开源。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

数据链接：https://github.com/google/archat/tree/main/dataset

Seede AI

AI 驱动的设计工具

713 查看详情 Seede AI

视觉意图预测模型

为了预测哪些视觉效果可以补充对话，研究人员使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段，每个视觉意图解析为「 of from 」的格式。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

基于该格式，系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

这种方法在实践中也优于基于关键词的方法，因为后者无法处理开放式词汇的例子，比如用户可能会说「你的艾米阿姨将在这个星期六来访」，没有匹配到关键词，也就无法推荐相关的视觉类型或视觉来源。

研究人员使用VC1.5K数据集中的1276个（80%）样本来微调大型语言模型，其余319个（20%）示例作为测试数据，并使用token准确率指标来度量微调模型的性能，即模型正确预测的样本中token正确的百分比。

最终模型可以实现97%的训练token准确率和87%的验证token准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性，研究团队邀请了89名参与者执行846项任务，要求对效果进行打分，1为非常不同意（strongly disagree）、7为非常同意（strongly agree）。

实验结果显示，大多数参与者更喜欢在对话中看到视觉效果（Q1），83% 给出了5-有些同意（somewhat agree）以上的评价。

此外，参与者认为显示的视觉效果是有用的且信息丰富的（Q2），82%给出了高于5分的评价；高质量的（Q3），82%给出了高于5分的评价；并与原始语音相关（Q4，84%）。

参与者还发现预测的视觉类型（Q5，87%）和视觉来源（Q6，86%）在相应对话的背景下是准确的。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型，研究人员在ARChat平台上开发了Visual Captions，可以直接在视频会议平台（如Google Meet）的摄像头流上添加新的交互式小部件。

在系统工作流程中，Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果，然后提供推荐的视觉效果。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

Visual Captions的系统工作流

Visual Captions在推荐视觉效果时提供三个级别的可选主动性：

自动显示（高主动性）：系统自主搜索并向所有会议参与者公开显示视觉效果，无需用户交互。

自动推荐（中等主动性）：推荐的视觉效果显示在私人滚动视图中，然后用户点击一个视觉对象可以进行公开展示；在这种模式下，系统会主动推荐视觉效果，但用户决定何时显示以及显示什么。

按需建议（低主动性）：用户按下空格键后，系统才会推荐视觉效果。

研究人员在对照实验室研究（n = 26）和测试阶段部署研究（n = 10）中评估了Visual Captions系统，参与者发现，实时视觉效果有助于解释不熟悉的概念、解决语言歧义，并使对话更具吸引力，从而促进了现场对话。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

参与者的task load指数和Likert scale评级，包括无VC、以及三个不同主动性的VC

与会者还报告了在现场进行交互中的不同的系统偏好，即在不同的会议场景中使用不同程度的VC主动性

以上就是再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手的详细内容，更多请关注其它相关文章！

# 视频 # 铜陵网站首页优化价格 # 江口网站优化推广价格 # 2017dedecms seo视频 # 兴化seo公司哪家好 # 澳门手机网站建设 # 营销推广设计包括哪些 # 抖音seo广告优化 # 口碑seo评估 # 多语言 # 就可以 # 开源 # 新能源 # 很难 # 墨西哥 # 出了 # 住了 # 视频会议 # 关键词 # type # captions # 谷歌 # 触元网站建设 # 推广外贸网站的好处

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-06-12

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。