OpenAI 推出新一代 语音识别(Speech-to-Text)语音合成(Text-to-Speech) 模型,代号分别是gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts。

  • 准确率远超 Whisper 系列的新转写模型
  • 支持语气、语调控制的语音合成模型
  • 低延迟实时语音交互能力
  • 与 Agents SDK 集成,构建语音代理更简单

这些模型主要针对开发者通过 API 使用,涵盖了语音转文字(speech-to-text)和文字转语音(text-to-speech)功能,并引入了实时语音处理的改进。

视频回放

翻译 宝玉

新模型简介

  • 新一代语音识别模型(Speech-to-Text):
    • 推出了两款新模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe。
    • 这两个模型在准确性和可靠性方面超越了此前的 Whisper 模型,尤其在处理口音、嘈杂环境和不同语速等挑战性场景中表现出色,达到了新的行业基准。
    • 通过专门的音频数据集预训练和强化学习(RL)技术,模型在词错率(word error rate)和多语言识别能力上显著提升。
      • 📌 相比 Whisper v2/v3,有显著的 WER(词错误率)下降,尤其在:
        • 多口音
        • 嘈杂环境
        • 语速变化大 等复杂场景中表现更稳
      • 📌 多语言支持卓越:在 FLEURS 基准测试中覆盖 100+ 种语言,超越 Gemini Flash、Nova 系列等主流模型
      • 📌 适用场景:呼叫中心、会议转录、医疗笔记、内容字幕等
  • 可控语音合成模型(Text-to-Speech):
    • 新模型:gpt-4o-mini-tts
      首次引入:语气 & 风格“可控生成”

      📌 可控语音合成的突破点:

      • 不只是生成“内容”,还能控制“说话方式”
      • 支持风格提示(Prompt),例如:

        “像一个同情的客服人员那样说话”
        “像叙述童话故事那样温柔地讲述”

      📌 声音特点:

      • 使用 预设人工合成声音(非克隆用户语音)
    • 模型支持包括中文在内的多种语言,声音表现自然且富有个性。
    • 📌 适用场景:
      • 人性化客服助手
      • 情绪化叙事语音(创意小说、播客)
      • 游戏/虚拟人配音系统
      • 无障碍语音辅助系统

技术创新


语音转文本(Speech-to-Text, STT)的创新技术

🧠GPT-4o 统一架构扩展到音频

  • 传统 ASR(自动语音识别)模型,如 Whisper,通常采用 端到端 Transformer 编解码架构(Encoder-Decoder)。
  • GPT-4o 语音识别模型采用跨模态(Text+Audio)统一架构
    • 直接对语音进行 token 化,无须先转换为频谱图。
    • 通过 共享文本 LLM 语义层,提升对音素(phonemes)到词汇(lexicon)的映射能力。
    • 这种统一架构 降低语音-文本转换误差,提高跨语言迁移能力

📢 突破点:比 Whisper 模型更接近 GPT-4o 语言模型的核心架构,使其具有更强的文本理解能力,特别是在噪声环境、复杂语音场景下的表现优异。


🔄强化学习驱动的语音识别优化

  • 采用了 RLHF(Reinforcement Learning from Human Feedback) 方法,对模型进行 强化学习优化
  • 在训练过程中,利用大规模 人工标注语音数据 + 用户反馈数据,调整模型对不同语言、音色、语速的适应性。
  • 主要改进点:
    • 降低幻觉(Hallucination):减少语音识别中的随机错误,如插入或遗漏词汇。
    • 增强鲁棒性:更能适应方言、口音、非标准发音的情况。
    • 优化音素-语义映射:减少语音误识别的概率,提高整体准确度。

📢 突破点:相比于传统 ASR 直接基于静态训练数据优化,RLHF 允许模型动态调整,使其在实际应用环境中不断提升准确度。


🗂️ 先进的语音数据预处理与增强

OpenAI 针对语音数据的处理进行了重大优化,包括:

  1. 自适应音频降噪(Adaptive Noise Reduction)
    • 采用 时序依赖建模(Temporal Dependency Modeling),减少背景噪音对转录准确性的影响。
    • 适用于嘈杂环境,如电话通话、公共场所录音
  2. 端到端语速 & 口音归一化(Rate & Accent Normalization)
    • 通过 音素级正则化(Phoneme-Level Normalization) 技术,降低不同口音的影响。
    • 允许模型动态适应快/慢语速,提高可读性
  3. 多语言数据集增强
    • 使用 FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)多语言数据集进行训练。
    • 采用 Meta Learning(元学习),优化在低资源语言(如瑞典语、阿拉伯语)的表现。

📢 突破点:这些预处理技术使得 OpenAI 语音转录模型在各种 复杂环境(高噪声、口音、多语速) 下依然能保持高准确率。


📈语音识别基准测试(Benchmark Performance)

OpenAI 在 FLEURS 基准测试(Word Error Rate, WER)中,与主流模型进行了对比:

📢 突破点:GPT-4o 语音识别模型在所有主流对比模型中表现最佳,特别是在跨语言语音识别和噪声环境下。


🎙️ 语音合成(Text-to-Speech, TTS)的创新技术

🧠 语气控制(Speech Steerability)

  • 突破传统 TTS 限制,允许开发者直接控制语气,如:
    • “像一个温柔的客服代表那样说话”
    • “用激励的语气朗读这段文字”
  • 采用 情感 embedding 向量(Emotion Embeddings)
    • 在文本输入时 附加“说话风格”标记,使得 AI 语音生成具备个性化。

📢 突破点:传统 TTS 只能合成固定风格的声音,而 OpenAI 允许 “说什么”+“怎么说” 进行双重控制。


🔄 语音合成的新一代数据训练方法

  • 采用 大规模真实音频数据集预训练,提升 TTS 生成质量。
  • 训练方法:
    • 高级音素建模(Advanced Phoneme Modeling):使用 GPT 结构预测更自然的语音音调变化
    • 端到端文本-语音对齐(End-to-End Text-to-Speech Alignment):减少延迟,提高同步率。

📢 突破点:新的训练范式使 OpenAI 语音合成的流畅度、音质明显超越市面上的其他 AI 语音引擎。


🎛 低延迟语音合成(Low-Latency TTS)

  • 采用 高效注意力机制(Efficient Attention Mechanism),减少语音合成时间。
  • 语音合成 延迟降低 50%,可以实现实时 TTS 输出
  • 适用于实时 AI 语音助手、游戏对话、虚拟主播等应用

📢 突破点:相比传统 AI 语音生成,OpenAI 语音合成可以做到 更接近真人语音的流畅度和低延迟体验


模型比较:

价格方面:

性能方面:

官方介绍:https://openai.com/index/introducing-our-next-generation-audio-models/

在线体验:openai.fm