InspireMusic 是由 阿里巴巴 Tongyi Lab 开发的 AI 音乐生成框架,它通过结合 语义和声学音频标记(tokens),使用 自回归 Transformer + 条件流匹配(Conditional Flow Matching, CFM) 的建模方法,实现 高质量、长篇幅的音乐创作

📢 主要特点:

长篇高质量 AI 音乐生成框架,可创建完整的音乐作品而非短片段,用于专业音乐创作。
支持文本生成音乐 & 音乐续写,提升 AI 音乐创作能力。
采用 Transformer + 条件流匹配(CFM)技术,优化音质
开源可用,支持 48kHz 音频生成,确保音质清晰,适合研究和开发者
可扩展性强,支持**文本生成音乐(Text-to-Music)、音乐续写(Music Continuation)、音乐重建(Music Reconstruction)**等任务。


🎼 InspireMusic 主要功能

1️⃣ 统一 AI 音乐生成框架

  • 采用 WavTokenizer 进行音频离散化,将 24kHz 音频转换为 75Hz 离散 tokens,并使用 HifiCodec 处理 48kHz 音频,提升音乐质量。
  • 自回归 Transformer 语言模型 学习并预测音乐结构,使 AI 生成的音乐更加连贯。
  • 流匹配(Flow Matching)模型 进一步优化生成的音频,使其更贴近真实音乐。

2️⃣ 支持多种 AI 音乐生成任务

3️⃣ 多种采样方法提升音乐质量

  • Top-K 采样:确保生成的音乐更加连贯,减少随机噪声。
  • Repetition-Aware 采样:减少 AI 在生成音乐时的重复模式,提高音乐的多样性。
  • 带有/不带 CFM 的对比:测试有无流匹配算法时 AI 生成音乐的差异。

4️⃣ 多种音乐风格 & 结构

  • 支持 古典、流行、电子、爵士、R&B、摇滚、游戏音乐等多种风格。
  • 可生成不同结构的音乐,如 前奏(Intro)、主歌(Verse)、副歌(Chorus)、尾奏(Outro)
  • 支持带歌词/纯音乐版本,适用于不同创作需求。

🎵 InspireMusic vs. MusicGen 对比

InspireMusic 还与 Facebook MusicGen 进行了对比测试:

  • InspireMusic 在 长篇音乐生成音质细节 方面表现更优。
  • MusicGen 更适合短片段音乐生成,而 InspireMusic 更侧重 音乐结构完整性长时间音乐生成

📥 如何体验?

开源模型下载 & 代码: