热门

通义实验室开源ThinkSound：用AI重塑”视听协同”的未来

AI新闻资讯14小时前发布小蓝灯

238 00

当我们观看一部电影或短视频时，总会发现某些画面缺乏与之匹配的声音——奔跑的马蹄声与尘土飞扬的镜头不同步，雨滴落在伞面的节奏与画面快慢脱节。这种”视听割裂”的现象背后，暴露出当前AI音频生成技术的瓶颈。近日，通义实验室推出的首款音频生成模型 ThinkSound，通过引入”思维链”技术，正在重新定义AI如何”听懂画面”。

通义实验室开源ThinkSound：用AI重塑

ThinkSound

痛点：为什么AI总在”听错位”？

传统端到端视频转音频（V2A）模型虽然在技术上不断突破，却始终难以突破两大桎梏：

动态细节缺失：猫咪跃起瞬间的振翅声、树枝摇晃时的摩擦音等关键声学事件常被忽略；
空间逻辑混乱：烟花爆裂声与舞台回响的时间差、汽车引擎声的方位感等空间关系难以还原。

根本原因在于AI缺乏对画面事件的结构性认知。”就像人类音效师需要先分析画面逻辑，再选择对应音效，AI也需要建立’观察-推理-合成’的思维链路。”通义实验室负责人指出。

破局：ThinkSound的”三重奏”解决方案

1. 数据基石：AudioCoT——会讲故事的音频数据库

整合2531.8小时跨场景音视频数据（含动物、机械、环境等12类场景）
创新性引入交互式编辑样本：通过GPT-4.1-nano生成”提取猫头鹰鸣叫→叠加振翅声”等操作指令链
采用5%人工校验+多阶段自动化过滤，确保数据质量媲美专业音效库

2. 双核架构：MLLM+流匹配模型的协同作战

多模态大语言模型（MLLM）：负责全局画面解析（如识别烟花燃放顺序）
统一音频生成模型：基于流匹配技术实现毫秒级声画同步
技术亮点：通过Grounded SAM-2追踪声源ROI（感兴趣区域），实现”指哪打哪”的精准音效添加

3. 交互革命：从单向生成到双向编辑

支持自然语言指令微调（如”雨声延长3秒后加入雷鸣”）
提供对象级编辑功能（单独增强/抑制特定物体的声音）
应用示例：为一部无声纪录片自动匹配环境音效后，创作者可随时调整特定场景的音量比例

实力验证：数据说话的性能突破

在VGGSound测试集上，ThinkSound创下三项新纪录：

Fréchet Distance（FD值）：34.56（较MMAudio降低8.7，越低表示生成音频越接近真实分布）
KLPaSST指标：1.52（超越次优模型37%）
影视级场景适配：在MovieGen Audio Bench测试中，对话同步准确率提升至92.3%

未来蓝图：从工具到生态的进化

通义团队已公布模型开源计划，开发者可通过Hugging Face、魔搭社区等平台免费调用。下一步将重点突破：

复杂声场重建：处理多人会议、音乐会等混响环境
跨模态联动：结合文本/图像/传感器数据生成动态音效
行业解决方案：推出影视后期、VR游戏、无障碍观影等垂直领域插件

正如项目负责人所说：”我们希望ThinkSound不仅是技术突破，更是打开新创作范式的钥匙——让每个静默的画面都有机会讲述自己的故事。”

开源地址：

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

AI新闻资讯 # AudioCoT # CoT（Chain - of - Thought）# ThinkSound # V2A生成技术 # 交互式编辑 # 多模态大语言模型 # 开源 # 影视音效 # 游戏音效 # 统一音频生成模型 # 虚拟现实音效 # 通义实验室 # 音频生成模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阶跃星辰携手鲸鱼机器人：AI教育迎来”能听会想”的新纪元

阶跃星辰携手鲸鱼机器人：AI教育迎来”能听会想”的新纪元

AI新闻资讯 # 4D世界模型 # AI助教系统 # AI教育硬件

07630

2025年7月4日全球AI动态：中美竞争白热化，技术落地加速，开源生态崛起

新2025年7月4日全球AI动态：中美竞争白热化，技术落地加速，开源生态崛起

AI新闻资讯 # 2025 Inclusion·外滩大会 # 2025 全球数字经济大会 # 2025全球数字经济大会

04620

苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型：突破顺序约束，性能媲美顶级开源模型

新苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型：突破顺序约束，性能媲美顶级开源模型

AI新闻资讯 # DiffuCode-7B-cpGRPO # GRPO技术 # Qwen2.5-7B

02660

DeepSite V2：颠覆性AI网页生成工具，开启“边聊边改”开发新时代

DeepSite V2：颠覆性AI网页生成工具，开启“边聊边改”开发新时代

AI新闻资讯 # AGI # AI网页生成工具 # DeepSeek-R1-0528模型

03920

暂无评论

您必须登录才能参与评论！

none

暂无评论...