当我们观看一部电影或短视频时,总会发现某些画面缺乏与之匹配的声音——奔跑的马蹄声与尘土飞扬的镜头不同步,雨滴落在伞面的节奏与画面快慢脱节。这种”视听割裂”的现象背后,暴露出当前AI音频生成技术的瓶颈。近日,通义实验室推出的首款音频生成模型ThinkSound,通过引入”思维链”技术,正在重新定义AI如何”听懂画面”。

ThinkSound
痛点:为什么AI总在”听错位”?
传统端到端视频转音频(V2A)模型虽然在技术上不断突破,却始终难以突破两大桎梏:
- 动态细节缺失:猫咪跃起瞬间的振翅声、树枝摇晃时的摩擦音等关键声学事件常被忽略;
- 空间逻辑混乱:烟花爆裂声与舞台回响的时间差、汽车引擎声的方位感等空间关系难以还原。
根本原因在于AI缺乏对画面事件的结构性认知。”就像人类音效师需要先分析画面逻辑,再选择对应音效,AI也需要建立’观察-推理-合成’的思维链路。”通义实验室负责人指出。
破局:ThinkSound的”三重奏”解决方案
1. 数据基石:AudioCoT——会讲故事的音频数据库
- 整合2531.8小时跨场景音视频数据(含动物、机械、环境等12类场景)
- 创新性引入交互式编辑样本:通过GPT-4.1-nano生成”提取猫头鹰鸣叫→叠加振翅声”等操作指令链
- 采用5%人工校验+多阶段自动化过滤,确保数据质量媲美专业音效库
2. 双核架构:MLLM+流匹配模型的协同作战
- 多模态大语言模型(MLLM):负责全局画面解析(如识别烟花燃放顺序)
- 统一音频生成模型:基于流匹配技术实现毫秒级声画同步
技术亮点:通过Grounded SAM-2追踪声源ROI(感兴趣区域),实现”指哪打哪”的精准音效添加
3. 交互革命:从单向生成到双向编辑
- 支持自然语言指令微调(如”雨声延长3秒后加入雷鸣”)
- 提供对象级编辑功能(单独增强/抑制特定物体的声音)
应用示例:为一部无声纪录片自动匹配环境音效后,创作者可随时调整特定场景的音量比例
实力验证:数据说话的性能突破
在VGGSound测试集上,ThinkSound创下三项新纪录:
- Fréchet Distance(FD值):34.56(较MMAudio降低8.7,越低表示生成音频越接近真实分布)
- KLPaSST指标:1.52(超越次优模型37%)
- 影视级场景适配:在MovieGen Audio Bench测试中,对话同步准确率提升至92.3%
未来蓝图:从工具到生态的进化
通义团队已公布模型开源计划,开发者可通过Hugging Face、魔搭社区等平台免费调用。下一步将重点突破:
- 复杂声场重建:处理多人会议、音乐会等混响环境
- 跨模态联动:结合文本/图像/传感器数据生成动态音效
- 行业解决方案:推出影视后期、VR游戏、无障碍观影等垂直领域插件
正如项目负责人所说:”我们希望ThinkSound不仅是技术突破,更是打开新创作范式的钥匙——让每个静默的画面都有机会讲述自己的故事。”
开源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...