当前位置：首页 > 经验技巧 > 正文

阿里通义开源旗下首个音频生成模型 ThinkSound

经验技巧
2025-08-01
39

简介品玩7月7日讯，据阿里通义大模型官方消息，通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想...

品玩7月7日讯，据阿里通义大模型官方消息，通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。

ThinkSound 首次将 CoT（Chain-of-Thought，思维链）应用到音频生成领域，让 AI 学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”，而是真正“听懂画面”。

据悉，AudioCoT 融合了来自 VGGSound、AudioSet、AudioCaps、Freesound 等多个来源的 2531.8 小时高质量样本。这些数据覆盖了从动物鸣叫、机械运转到环境音效等多种真实场景，为模型提供了丰富而多样化的训练基础。为了确保每条数据都能真正支撑 AI 的结构化推理能力，研究团队设计了一套精细化的数据筛选流程，包括多阶段自动化质量过滤和不少于 5% 的人工抽样校验，层层把关以保障数据集的整体质量。

科技动态

上一篇：团购订单连接打印机的操作流程是什么？

下一篇：百度斩获大模型中标第一，股价上涨5%

阿里通义开源旗下首个音频生成模型 ThinkSound

最新文章

标签列表

友情链接