阿里通义开源首个音频生成模型 ThinkSound:让 AI 像专业音效师一样思考

AI产品库2天前更新 小蓝灯
434 00
2025 年 7 月 4 日,阿里 “通义大模型” 公众号宣布,通义实验室首个音频生成模型ThinkSound 正式开源。这款模型首次将 Chain-of-Thought(CoT,思维链)应用于音频生成领域,使 AI 能够像专业音效师一样,通过逻辑推理实现高保真、强同步的空间音频生成,打破了 “静音画面” 的想象力局限。
阿里通义开源首个音频生成模型 ThinkSound:让 AI 像专业音效师一样思考

阿里通义开源首个音频生成模型 ThinkSound:让 AI 像专业音效师一样思考

技术创新:从 “看图配音” 到 “听懂画面”

传统端到端视频到音频(V2A)生成技术虽有进展,但难以捕捉画面中的动态细节和空间关系。例如,猫头鹰的鸣叫与起飞时机、树枝晃动时的摩擦声等视觉 – 声学关联常被忽视,导致生成音频过于通用,甚至与关键视觉事件错位。其核心问题在于 AI 缺乏对画面事件的结构化理解,无法像人类音效师那样逐步分析、推理并合成声音。
ThinkSound 的突破在于将 CoT 思维链引入音频生成,让 AI 学会 “一步步想清楚” 画面事件与声音的关系。这不仅是 “看图配音”,更是真正的 “听懂画面”,实现了音频与视觉事件在时序和语义上的高度连贯。

数据集构建:AudioCoT 助力链式推理

为让 AI 学会 “有逻辑地听”,通义实验室语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。该数据集融合了 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本,覆盖动物鸣叫、机械运转、环境音效等多种真实场景,为模型提供了丰富多样的训练基础。
为确保数据质量,研究团队设计了精细化的数据筛选流程,包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验,层层把关。此外,AudioCoT 还特别设计了面向交互式编辑的对象级和指令级样本,以满足 ThinkSound 后续对细化与编辑功能的需求。

模型架构:双模块协作实现精准音频生成

ThinkSound 由两个关键部分组成:擅长 “思考” 的多模态大语言模型(MLLM)和专注于 “听觉输出” 的统一音频生成模型。这两个模块协同工作,按三个阶段逐步解析画面内容并生成精准对位的音频效果:
  1. 理解整体画面:从宏观角度把握画面的整体情境和主题。
  1. 聚焦具体物体:识别画面中的具体物体及其动作和状态。
  1. 响应用户指令:根据用户的具体需求和指令,生成相应的音频效果。

技术意义与开源价值

ThinkSound 的开源为音频生成领域带来了新的思路和方法。其将 CoT 思维链应用于音频生成的创新,为解决传统 V2A 技术的痛点提供了有效途径,有望推动音频生成技术在影视制作、游戏开发、虚拟现实等专业创意场景中的应用。
同时,ThinkSound 的开源体现了 AI 领域开源协作的精神。通过开放模型和数据集,将吸引更多开发者参与优化和创新,进一步推动音频生成技术的发展。
小蓝灯附开源地址:
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...