2D头像生成3D虚拟人开视频会,谷歌新作让人难绷


未来人与人的交流,难道是这个样?

开视频远程会议的时候,很多人都不喜欢打开摄像头。即使开了,在界面上大家也都被框在不同的窗口里。虽然这种形式操作起来很方便,但总是缺乏点临场感。

最近,谷歌提出了一项研究旨在解决这个问题,这个名叫 ChatDirector 的技术可以使用静态的 2D 头像生成 3D 虚拟人,让大家一同「坐在会议室里」开会,只是看起来样子有点夸张:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

2d头像生成3d虚拟人开视频会,谷歌新作让人难绷                            chatdirector 通过空间化视频头像、虚拟环境和自动布局转换,构建了一个拟真的虚拟环境。

虽说只是早期研究,虚拟人物口型也能准确对上,但总觉得有一点喜剧效果。对此大片评论表示绷不住了:这或许能给在线会议创造出轻松的气氛。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷

                              ChatDirector 是一个研究原型,它将传统的视频会议转变为使用 3D 视频头像、共享 3D 场景和自动布局转换。

此前,谷歌展示的 Visual Captions 和开源的 ARChat,以促进实时视觉效果的口头交流为目标。在 CHI 2025 上展示的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中,谷歌介绍了一种新原型,通过在空间感知共享会议环境中为所有参与者提供语音驱动的视觉辅助,增强了传统的基于 2D 屏幕的视频会议体验。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷

设计思考

谷歌研究人员邀请了来自公司内部不同岗位的十位参与者,包括软件工程师、研究人员和 UX 设计师,共同讨论影响虚拟会议质量的因素,分析视频会议系统和面对面互动的特点,最后将建议提炼为原型系统的五个基本考虑因素:

  • DC1、通过空间感知可视化增强虚拟会议环境。处于同一个空间对于改善视频会议体验来说至关重要。好用的系统应采用典型的面对面会议形式,将与会者安排在指定座位的桌子周围,构建切实的共同存在感和空间定位感。
  • DC2、不能简单复制现实会议,而需要提供语音驱动的协助。鉴于小组对话中发言人频繁更换、话题快速转换,系统应提供额外的数字功能,让参与者跟进对话流程并积极参与会议。
  • DC3、重现面对面互动的视觉效果。在开虚拟会议时,参与者通常在电脑前保持静止。系统应增强他们在屏幕上的动作,以模仿头部转动和眼神接触等动态身体动作,这些动作可作为更有效地跟进对话的提示。
  • DC4、尽量减少认知负荷。系统应避免同时显示过多信息,或要求用户频繁操作。这种方法有助于防止分心,并允许参与者更有效地专注于倾听和说话。
  • DC5、确保兼容性和可扩展性。系统应与标准视频会议设备(如带摄像头的笔记本电脑)兼容,以促进广泛采用。这种兼容性还将促进其他生产力功能和工具(如屏幕共享和其他应用程序)的无缝集成,以增强系统的整体效用。

空间感知的场景渲染 pipeline

为了解决 DC1(通过空间感知可视化增强虚拟会议环境)和 DC5(确保兼容性和可扩展性),谷歌首先设计了一个渲染 pipeline,以将人的视觉呈现重建为 3D 肖像头像。

谷歌在轻量级深度推理神经网络 U-Net 上构建了此 pipeline,并结合了自定义渲染方法,该方法将 RGB 和深度图像作为输入并输出 3D 肖像头像网格。

该 pipeline 从深度学习 (DL) 网络开始,利用该网络从实时 RGB 网络摄像头视频中推断深度。接着使用 MediaPipe 自拍分割模型分割前景,并将处理后的图像馈送到 U-Net 神经网络。

其中,编码器逐渐缩小图像,而解码器将特征分辨率提高回原始分辨率。来自编码器的 DL 特征连接到具有相同分辨率的相应层,以帮助恢复几何细节,例如深度边界和薄结构。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷

下图所示的自定义渲染方法将 RGB 和深度图像作为输入,并重建 3D 肖像头像。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷

研究团队开发了一个空间感知的视频会议环境,可以在 3D 会议环境中显示远程参与者的 3D 肖像化身。

在每个本地用户的设备上,ChatDirector 会产生:

  1. 附带由 Web Speech API 识别的语音文本的音频输入
  2. 由 U-Net 神经网络推断的 RGB 图像和深度图像。

同时,当系统接收到每个远程用户的数据后,会重建 3D 肖像化身,并在本地用户的屏幕上显示出来。

为了实现视差效果,该团队根据使用 MediaPipe 人脸检测所检测到的本地用户的头部移动来调整虚拟渲染摄像机。音频会被用作输入到下一节中将要解释的语音驱动布局转换算法。

数据通信则通过 WebRTC 实现。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                               ChatDirector 的系统架构。

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                                一个本地用户对具有 3D 肖像头像的空间感知视频会议环境的视角。

语音驱动的布局转换算法

为了解决 DC2(提供超越简单复制现实世界聚会的语音驱动辅助)和 DC3(重现面对面互动的视觉线索),研究者开发了一个决策树算法。

该算法根据正在进行的对话调整渲染场景的布局和化身的行为,允许用户通过接收自动视觉辅助来跟随这些对话,从而不需要在 DC4(最小化认知负荷)上额外浪费精力。

对于算法的输入,他们将群组聊天建模为一系列语音轮转。

在每个时刻,每个与会者都将处于三种语音状态之一:

  1. 静默:与会者正在听取他人发言;
  2. 与某人交谈(Talk-to):与会者正在与特定人交谈;具体来说,通过侦测参与者的姓名(当他们加入会议室时所输入的结果)来检测使用是否在与某人交谈。
  3. 宣布(Announce):与会者正在向所有人发言。通过使用关键词检测(如「everybody」、「ok, everybody」),Web 语音 API 来进行识别此种类型的语音状态。

该算法产生了两个增强视觉辅助的关键输出(DC3)。第一个组件是布局状态,它决定了会议场景的整体可视化。

这包括几种模式:

  • 「一对一(One-on-One」,仅显示一个远程参与者,以便与本地用户进行直接互动;
  • 「两两对话(Pairwise)」,将两个远程参与者并排排列,表示他们的一对一对话;
  • 「全景(Full-view)」,默认设置显示所有参与者,表示一般讨论。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                               ChatDirector 的布局转换算法。2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                 算法输出:布局状态。从左至右分别为:一对一(One-on-One)语音状态,两两对话(Pairwise)语音状态,全景(Full-view)语音状态。

网络视频开会这下更逼真了,领导和你可以交换眼神了。

研究团队基于 3D 肖像化化身渲染能力,通过操纵远程化身的行为来模拟类似于面对面会议中的眼神交流。

他们通过将化身状态(Avatar State)设立为算法的附加输出,以控制每个化身的方向。

在这种设置中,每个化身可以处于两种状态之一:「本地」状态,其中化身旋转面向本地用户,和「远程」状态,其中化身旋转与另一个远程参与者互动。2D头像生成3D虚拟人开视频会,谷歌新作让人难绷
算法输出:化身(聊天室中代表使用者的形象)状态。当左侧用户与右侧用户交谈时,化身状态从「本地」状态转变为「远程」状态,此时左侧化身会转向右侧化身。

定性表现评估:用户研究
为了评估基于语音的布局转换算法的性能以及空间感知会议场景的整体有效性,研究团队进行了一项实验室研究,涉及 16 名参与者,分成四个团队。

与作为基准的传统视频会议相比,研究发现 ChatDirector 显著改善了与语音处理相关的问题,这表现在用户对注意力转移辅助的积极评价上。

此外,该团队对调查结果还进行了威尔科克森符号秩检验(Wilcoxon Signed-Rank Test )。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                              会议环境的空间感知和语音驱动布局转换算法的用户研究结果(N=16)。( *:p<.05 p .001>

此外,根据 Temple Presence Inventory(TPI)评分,与标准的基于 2D 的视频会议系统相比,它提升了共存感和参与度。

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷                          Temple Presence Inventory(TPI)结果显示了 ChatDirector 系统的社交存在评级(N=16)。( *:p<.05 p .001>

由于 ChatDirector 基于视频会议室使用者的肖像化身,肖像安全的问题将成为未来研究发展的重中之重。

研究团队在最后表示,希望 ChatDirector 能够激发在利用先进的感知和交互技术来增加共同在场的感受和参与度日常计算平台上的持续创新。

研究人员同时指出,解决负责任的 AI 考虑及其数字相似性的含义是极其重要的。因为以这种方式转换「用户的视频」可能会引发关于他们对自身肖像控制的问题,所以需要进一步的研究和仔细考虑。

当这类工具部署时,至关重要的是需要基于用户的同意并遵守相关道德准则。

该团队还提供了一个 ChatDirector 的交互技术演示,在视频内容里展示了更多的 3D 视频示例。

视频链接:https://youtu.be/mO2rZL48C1Y
参考链接:https://research.google/blog/chatdirector-enhancing-video-conferencing-with-space-aware-scene-rendering-and-speech-driven-layout-transition/

以上就是2D头像生成3D虚拟人开视频会,谷歌新作让人难绷的详细内容,更多请关注其它相关文章!


# 工程  # seo中文怎么读  # seo优化网站推荐  # 云霄网站建设公司  # 永州手机网站建设费用  # 上海SEO学习图片治愈  # 自定义  # 软件工程  # 科克  # 面对面  # 官网  # 互动  # 视频会议  # 虚拟人  # 关键词  # 让人  # type  # captions  # peech  # vwo  # follow  # 排列  # 谷歌  # 网站建设市场调研  # 个人seo推广营销  # 网站快速排名seo软件  # 信用修复关键词排名优化  # seo专员指的是 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 微软大牛加入ZOOM,AI人才大战打响  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心  2025 WAIC|美团无人机发布第四代新机型  AI拉动PCB发展|行业发现  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  家电行业观察:AI加持下,全屋智能将成为智能家电未来?  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  阿里达摩院发布免费开放100项AI专利许可的动机是什么?  探索人工智能在物联网领域的影响与改变  智能电网技术:提高能源效率和可靠性  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  如何用户外电源给无人机实现持久续航  AI人工智能软件,婚纱设计师的必备利器  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  Gartner预测:到2025年,全球对话式人工智能支出预计将达到1860亿美元  华为小艺AI助手将实现强大的大模型能力  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  鉴智机器人发布基于地平线征程5的标准视觉感知产品  日本演员工会提出AI立法建议 要求建立“声音肖像权”  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  彭博社:苹果Vision Pro曾测试VR手柄追踪方案  亚马逊CEO:人工智能将成为公司未来战略的重中之重  为了避免人工智能可能带来的灾难,我们要向核安全学习  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  生活垃圾智能分类机器人社区展“才能”,征求居民意见  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  给小朋友最好的科技礼物:乐天派桌面机器人  「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  2025世界人工智能大会(上海)开幕式纪要  数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门  实现MySQL数据锁定策略:解决并发冲突的J*a解决方案  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  搭载星火认知大模型 讯飞听见智慧屏开启AI办公新体验  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  0代码微调大模型火了,只需5步,成本低至150块  灯塔AI大模型票房预测上线:开源算法不断提升精准度  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新 

 2024-06-01

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.