Character.AI 推出突破性技术 TalkingMachines,实现实时 AI 角色视频互动

2025 年 7 月 5 日,AI 聊天机器人平台 Character.AI 发布研究论文与视频演示,推出了名为 TalkingMachines自回归扩散模型,为 AI 角色互动带来了更逼真的体验,这一成果距离实现 “AI 版 FaceTime” 又近了一步。
Character.AI 推出突破性技术 TalkingMachines,实现实时 AI 角色视频互动

Character.AI 推出突破性技术 TalkingMachines,实现实时 AI 角色视频互动

模型核心能力与技术原理

  • 输入与输出:用户仅需提供一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动效果。
  • 技术基础:基于 Diffusion Transformer(DiT)技术,这种技术如同一位 “艺术家”,能够从随机噪声中创造出详细图像,并通过不断优化直至达到完美状态。而 Character.AI 让这一过程实现了实时化。

关键技术解析

  • 流匹配扩散技术:通过对大量动作进行训练,其中涵盖细微的面部表情以及更夸张的手势等,以此保证 AI 角色的动作更加自然流畅。
  • 音频驱动的交叉注意力技术:使 AI 不仅能够 “听到” 单词,还能理解音频中的节奏、停顿和语调等信息,并将这些信息转化为精确的口型、点头和眨眼等动作。

技术意义与应用风格

Character.AI 强调,这一研究突破并非仅仅局限于面部动画,而是朝着实时互动的音频视觉 AI 角色迈出了重要一步。并且,该模型支持真实感人类、动漫和 3D 虚拟形象等多种风格,具有较为广泛的应用场景。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...