2025 年 7 月 5 日,AI 聊天机器人平台 Character.AI 发布研究论文与视频演示,推出了名为 TalkingMachines 的自回归扩散模型,为 AI 角色互动带来了更逼真的体验,这一成果距离实现 “AI 版 FaceTime” 又近了一步。

Character.AI 推出突破性技术 TalkingMachines,实现实时 AI 角色视频互动
模型核心能力与技术原理
- 输入与输出:用户仅需提供一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动效果。
- 技术基础:基于 Diffusion Transformer(DiT)技术,这种技术如同一位 “艺术家”,能够从随机噪声中创造出详细图像,并通过不断优化直至达到完美状态。而 Character.AI 让这一过程实现了实时化。
关键技术解析
- 流匹配扩散技术:通过对大量动作进行训练,其中涵盖细微的面部表情以及更夸张的手势等,以此保证 AI 角色的动作更加自然流畅。
- 音频驱动的交叉注意力技术:使 AI 不仅能够 “听到” 单词,还能理解音频中的节奏、停顿和语调等信息,并将这些信息转化为精确的口型、点头和眨眼等动作。
- 稀疏因果注意力技术:让 Character.AI 能够以更高效的方式处理视频帧,提升了模型处理视频数据的效率。
技术意义与应用风格
Character.AI 强调,这一研究突破并非仅仅局限于面部动画,而是朝着实时互动的音频视觉 AI 角色迈出了重要一步。并且,该模型支持真实感人类、动漫和 3D 虚拟形象等多种风格,具有较为广泛的应用场景。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...