热门

Character.AI 推出突破性技术 TalkingMachines，实现实时 AI 角色视频互动

AI新闻资讯2天前发布小蓝灯

315 00

2025 年 7 月 5 日，AI 聊天机器人平台 Character.AI 发布研究论文与视频演示，推出了名为 TalkingMachines 的自回归扩散模型，为 AI 角色互动带来了更逼真的体验，这一成果距离实现 “AI 版 FaceTime” 又近了一步。

Character.AI 推出突破性技术 TalkingMachines，实现实时 AI 角色视频互动

Character.AI 推出突破性技术 TalkingMachines，实现实时 AI 角色视频互动

模型核心能力与技术原理

输入与输出：用户仅需提供一张图片和声音信号，该模型就能实现类似 FaceTime 的通话视觉互动效果。

技术基础：基于 Diffusion Transformer（DiT）技术，这种技术如同一位 “艺术家”，能够从随机噪声中创造出详细图像，并通过不断优化直至达到完美状态。而 Character.AI 让这一过程实现了实时化。

关键技术解析

流匹配扩散技术：通过对大量动作进行训练，其中涵盖细微的面部表情以及更夸张的手势等，以此保证 AI 角色的动作更加自然流畅。

音频驱动的交叉注意力技术：使 AI 不仅能够 “听到” 单词，还能理解音频中的节奏、停顿和语调等信息，并将这些信息转化为精确的口型、点头和眨眼等动作。

稀疏因果注意力技术：让 Character.AI 能够以更高效的方式处理视频帧，提升了模型处理视频数据的效率。

不对称蒸馏技术：该技术的应用使得视频能够实时生成，从而营造出类似 FaceTime 通话的实时互动效果。

技术意义与应用风格

Character.AI 强调，这一研究突破并非仅仅局限于面部动画，而是朝着实时互动的音频视觉 AI 角色迈出了重要一步。并且，该模型支持真实感人类、动漫和 3D 虚拟形象等多种风格，具有较为广泛的应用场景。

AI新闻资讯 # AI角色视频互动 # Diffusion Transformer # TalkingMachines # 不对称蒸馏技术 # 多风格应用 # 实时生成 # 我将从核心技术 # 流匹配扩散技术 # 稀疏因果注意力技术 # 自回归扩散模型 # 音频驱动交叉注意力技术

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DeepSeek-R1 小版本升级：思考更深，推理更强

DeepSeek-R1 小版本升级：思考更深，推理更强

AI新闻资讯 # API更新 # DeepSeek - R1 - 0528 # 创意写作

01,0010

谷歌Gemini客户端重磅升级：AI视频分析功能上线，iOS/安卓用户均可免费体验

谷歌Gemini客户端重磅升级：AI视频分析功能上线，iOS/安卓用户均可免费体验

AI新闻资讯 # AI视频上传分析功能 # Gemini # Gemini 2.5 Flash

03430

2025年6月28日AI动态深度解析：技术跃迁与产业重构并行

2025年6月28日AI动态深度解析：技术跃迁与产业重构并行

AI新闻资讯 # AI人才 # AI侵权 # AI合规

05740

Anthropic推出Claude革新功能：零代码构建AI应用的时代来了？

Anthropic推出Claude革新功能：零代码构建AI应用的时代来了？

AI新闻资讯 # AI应用 # Anthropic # API调用

05600

暂无评论

您必须登录才能参与评论！

none

暂无评论...