​​通义实验室开源ThinkSound:用AI重塑”视听协同”的未来​​

AI新闻资讯14小时前发布 小蓝灯
238 00

当我们观看一部电影或短视频时,总会发现某些画面缺乏与之匹配的声音——奔跑的马蹄声与尘土飞扬的镜头不同步,雨滴落在伞面的节奏与画面快慢脱节。这种”视听割裂”的现象背后,暴露出当前AI音频生成技术的瓶颈。近日,通义实验室推出的首款音频生成模型ThinkSound,通过引入”思维链”技术,正在重新定义AI如何”听懂画面”。

​​通义实验室开源ThinkSound:用AI重塑

ThinkSound


​痛点:为什么AI总在”听错位”?​

传统端到端视频转音频(V2A)模型虽然在技术上不断突破,却始终难以突破两大桎梏:

  1. ​动态细节缺失​​:猫咪跃起瞬间的振翅声、树枝摇晃时的摩擦音等关键声学事件常被忽略;
  2. ​空间逻辑混乱​​:烟花爆裂声与舞台回响的时间差、汽车引擎声的方位感等空间关系难以还原。

根本原因在于AI缺乏对画面事件的结构性认知。”就像人类音效师需要先分析画面逻辑,再选择对应音效,AI也需要建立’观察-推理-合成’的思维链路。”通义实验室负责人指出。


​破局:ThinkSound的”三重奏”解决方案​

1. ​​数据基石:AudioCoT——会讲故事的音频数据库​

  • 整合2531.8小时跨场景音视频数据(含动物、机械、环境等12类场景)
  • 创新性引入交互式编辑样本:通过GPT-4.1-nano生成”提取猫头鹰鸣叫→叠加振翅声”等操作指令链
  • 采用5%人工校验+多阶段自动化过滤,确保数据质量媲美专业音效库

2. ​​双核架构:MLLM+流匹配模型的协同作战​

  • 多模态大语言模型(MLLM)​​:负责全局画面解析(如识别烟花燃放顺序)
  • 统一音频生成模型​:基于流匹配技术实现毫秒级声画同步
    技术亮点:通过Grounded SAM-2追踪声源ROI(感兴趣区域),实现”指哪打哪”的精准音效添加

3. ​​交互革命:从单向生成到双向编辑​

  • 支持自然语言指令微调(如”雨声延长3秒后加入雷鸣”)
  • 提供对象级编辑功能(单独增强/抑制特定物体的声音)
    应用示例:为一部无声纪录片自动匹配环境音效后,创作者可随时调整特定场景的音量比例

​实力验证:数据说话的性能突破​

在VGGSound测试集上,ThinkSound创下三项新纪录:

  • ​Fréchet Distance(FD值)​​:34.56(较MMAudio降低8.7,越低表示生成音频越接近真实分布)
  • ​KLPaSST指标​​:1.52(超越次优模型37%)
  • ​影视级场景适配​​:在MovieGen Audio Bench测试中,对话同步准确率提升至92.3%

​未来蓝图:从工具到生态的进化​

通义团队已公布模型开源计划,开发者可通过Hugging Face、魔搭社区等平台免费调用。下一步将重点突破:

  1. ​复杂声场重建​​:处理多人会议、音乐会等混响环境
  2. ​跨模态联动​​:结合文本/图像/传感器数据生成动态音效
  3. ​行业解决方案​​:推出影视后期、VR游戏、无障碍观影等垂直领域插件

正如项目负责人所说:”我们希望ThinkSound不仅是技术突破,更是打开新创作范式的钥匙——让每个静默的画面都有机会讲述自己的故事。”

开源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...