OpenAI 推出新一代 语音识别(Speech-to-Text) 与 语音合成(Text-to-Speech) 模型,代号分别是gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts。
- 准确率远超 Whisper 系列的新转写模型
- 支持语气、语调控制的语音合成模型
- 低延迟实时语音交互能力
- 与 Agents SDK 集成,构建语音代理更简单
这些模型主要针对开发者通过 API 使用,涵盖了语音转文字(speech-to-text)和文字转语音(text-to-speech)功能,并引入了实时语音处理的改进。
视频回放
翻译 宝玉
新模型简介
- 新一代语音识别模型(Speech-to-Text):
- 推出了两款新模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe。
- 这两个模型在准确性和可靠性方面超越了此前的 Whisper 模型,尤其在处理口音、嘈杂环境和不同语速等挑战性场景中表现出色,达到了新的行业基准。
- 通过专门的音频数据集预训练和强化学习(RL)技术,模型在词错率(word error rate)和多语言识别能力上显著提升。
- 📌 相比 Whisper v2/v3,有显著的 WER(词错误率)下降,尤其在:
- 多口音
- 嘈杂环境
- 语速变化大 等复杂场景中表现更稳
- 📌 多语言支持卓越:在 FLEURS 基准测试中覆盖 100+ 种语言,超越 Gemini Flash、Nova 系列等主流模型
- 📌 适用场景:呼叫中心、会议转录、医疗笔记、内容字幕等
- 📌 相比 Whisper v2/v3,有显著的 WER(词错误率)下降,尤其在:
- 可控语音合成模型(Text-to-Speech):
- 新模型:gpt-4o-mini-tts
首次引入:语气 & 风格“可控生成”📌 可控语音合成的突破点:
- 不只是生成“内容”,还能控制“说话方式”
- 支持风格提示(Prompt),例如:
“像一个同情的客服人员那样说话”
“像叙述童话故事那样温柔地讲述”
📌 声音特点:
- 使用 预设人工合成声音(非克隆用户语音)
- 模型支持包括中文在内的多种语言,声音表现自然且富有个性。
- 📌 适用场景:
- 人性化客服助手
- 情绪化叙事语音(创意小说、播客)
- 游戏/虚拟人配音系统
- 无障碍语音辅助系统
- 新模型:gpt-4o-mini-tts
技术创新
语音转文本(Speech-to-Text, STT)的创新技术
🧠GPT-4o 统一架构扩展到音频
- 传统 ASR(自动语音识别)模型,如 Whisper,通常采用 端到端 Transformer 编解码架构(Encoder-Decoder)。
- GPT-4o 语音识别模型采用跨模态(Text+Audio)统一架构:
- 直接对语音进行 token 化,无须先转换为频谱图。
- 通过 共享文本 LLM 语义层,提升对音素(phonemes)到词汇(lexicon)的映射能力。
- 这种统一架构 降低语音-文本转换误差,提高跨语言迁移能力。
📢 突破点:比 Whisper 模型更接近 GPT-4o 语言模型的核心架构,使其具有更强的文本理解能力,特别是在噪声环境、复杂语音场景下的表现优异。
🔄强化学习驱动的语音识别优化
- 采用了 RLHF(Reinforcement Learning from Human Feedback) 方法,对模型进行 强化学习优化。
- 在训练过程中,利用大规模 人工标注语音数据 + 用户反馈数据,调整模型对不同语言、音色、语速的适应性。
- 主要改进点:
- 降低幻觉(Hallucination):减少语音识别中的随机错误,如插入或遗漏词汇。
- 增强鲁棒性:更能适应方言、口音、非标准发音的情况。
- 优化音素-语义映射:减少语音误识别的概率,提高整体准确度。
📢 突破点:相比于传统 ASR 直接基于静态训练数据优化,RLHF 允许模型动态调整,使其在实际应用环境中不断提升准确度。
🗂️ 先进的语音数据预处理与增强
OpenAI 针对语音数据的处理进行了重大优化,包括:
- 自适应音频降噪(Adaptive Noise Reduction)
- 采用 时序依赖建模(Temporal Dependency Modeling),减少背景噪音对转录准确性的影响。
- 适用于嘈杂环境,如电话通话、公共场所录音。
- 端到端语速 & 口音归一化(Rate & Accent Normalization)
- 通过 音素级正则化(Phoneme-Level Normalization) 技术,降低不同口音的影响。
- 允许模型动态适应快/慢语速,提高可读性。
- 多语言数据集增强
- 使用 FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)多语言数据集进行训练。
- 采用 Meta Learning(元学习),优化在低资源语言(如瑞典语、阿拉伯语)的表现。
📢 突破点:这些预处理技术使得 OpenAI 语音转录模型在各种 复杂环境(高噪声、口音、多语速) 下依然能保持高准确率。
📈语音识别基准测试(Benchmark Performance)
OpenAI 在 FLEURS 基准测试(Word Error Rate, WER)中,与主流模型进行了对比:
📢 突破点:GPT-4o 语音识别模型在所有主流对比模型中表现最佳,特别是在跨语言语音识别和噪声环境下。
🎙️ 语音合成(Text-to-Speech, TTS)的创新技术
🧠 语气控制(Speech Steerability)
- 突破传统 TTS 限制,允许开发者直接控制语气,如:
- “像一个温柔的客服代表那样说话”
- “用激励的语气朗读这段文字”
- 采用 情感 embedding 向量(Emotion Embeddings):
- 在文本输入时 附加“说话风格”标记,使得 AI 语音生成具备个性化。
📢 突破点:传统 TTS 只能合成固定风格的声音,而 OpenAI 允许 “说什么”+“怎么说” 进行双重控制。
🔄 语音合成的新一代数据训练方法
- 采用 大规模真实音频数据集预训练,提升 TTS 生成质量。
- 训练方法:
- 高级音素建模(Advanced Phoneme Modeling):使用 GPT 结构预测更自然的语音音调变化。
- 端到端文本-语音对齐(End-to-End Text-to-Speech Alignment):减少延迟,提高同步率。
📢 突破点:新的训练范式使 OpenAI 语音合成的流畅度、音质明显超越市面上的其他 AI 语音引擎。
🎛 低延迟语音合成(Low-Latency TTS)
- 采用 高效注意力机制(Efficient Attention Mechanism),减少语音合成时间。
- 语音合成 延迟降低 50%,可以实现实时 TTS 输出。
- 适用于实时 AI 语音助手、游戏对话、虚拟主播等应用。
📢 突破点:相比传统 AI 语音生成,OpenAI 语音合成可以做到 更接近真人语音的流畅度和低延迟体验。
模型比较:
价格方面:
性能方面:
官方介绍:https://openai.com/index/introducing-our-next-generation-audio-models/
在线体验:openai.fm