Hume AI推出了一款名为OCTAVE(全能文本与语音引擎),这是一款具有开创性的生成模型具备实时生成语音和人格特质的能力。
OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。可以从简单的文本描述或5秒语音录音中生成丰富的语音和人格特质,包括性别、年龄、口音、情绪语调及职业特定说话风格等。
它支持多角色交互、实时对话、以及从短录音中提取并克隆声线与个性。
核心能力
- 从文本到语音的丰富生成能力:
- 多维属性控制:
- OCTAVE能够根据简单的文本描述生成高度个性化的语音输出,包括情感语调、性别、年龄、口音等属性。
- 支持生成带有特定属性的语音,如性别(男性、女性)、年龄(儿童、青年、老年)、口音(美式英语、英式英语等)。
- 调整语调和节奏来表现不同的情绪和个性。
- 场景适应性:
- 模拟特定职业的语言风格(如老师的耐心语气、医生的专业语调)。
- 对应上下文调整语音风格,增强自然对话感。使用“学术巫师导师”这样的提示,OCTAVE 不仅生成高质量的声音,还创造了新的个性、口音、表情和伴随的语言——不到 300 毫
- 多维属性控制:
- 语音克隆:
- 快速学习:
- OCTAVE可以从仅5秒的语音录音中提取发音特征,克隆声线和说话风格。
- 可保留原声线的个性化特点,同时根据需要添加新的情感特质。
- 动态调整:
- 克隆的语音不仅能匹配原有声线,还能根据上下文动态调整语音的语调、语速和情感,使其更符合对话需求。
- 地域化口音:
- 可生成带有地域特点的语音,比如印度英语、澳大利亚英语等,提升本地化体验。从一个非常简短的音频片段(约 5 秒),OCTAVE 不仅模仿了说话者的声音,还在很大程度上克隆了他们的个性
- 快速学习:
- 实时交互支持:
- 即时响应:
- 能在毫秒级别完成语音生成,实现真正的实时对话。
- 支持实时对话生成,允许动态调整生成内容。
- 能够结合用户输入的内容即时改变语音和语气。
- 实时调控:
- 用户或开发者可以动态调整生成语音的属性(如切换角色、调整语调),实现灵活的交互体验。
- 即时响应:
- 多角色对话生成:
- 角色独立性:
- 支持多个虚拟角色的语音生成,角色之间的语音风格、情绪和口音可以完全不同。
- 在一个会话中同时生成多个角色的语音,模拟真实的多方对话。
- 场景自动化:
- 适合复杂对话场景,比如游戏剧情对话或多人语音教育内容。
- 在实时对话中轻松切换不同角色的语音风格。
OCTAVE 可以在实时对话中生成多个一致的 AI 角色
- 角色独立性:
- 情绪和人格建模:
- 情绪细腻表达:
- 通过EVI 2(Hume AI的情感建模技术),OCTAVE能够生成丰富多样的情绪语音,包括愤怒、兴奋、悲伤、平静等。
- 能捕捉微妙的语音变化,并通过不同情绪语调来增强自然交互感,表现复杂的情绪。
- 在理解文本语义的基础上生成语音,与当前主流语言模型(如GPT系列)的语言理解能力相当。
- 人格化建模:
- 除了语音外,还能模仿特定性格的语言表达方式,比如乐观、严谨或幽默。
- 情绪细腻表达:
技术特点
- 与语言模型集成: OCTAVE不仅拥有与当前同规模语言模型(如GPT-3等)相当的语言理解能力,还通过语音合成技术进一步增强了人机交互的表现力。
- 语音特性多样性: 能支持多种语言和口音,包括区域性和全球通用的语音模型。
- 灵活性与高效性: 生成的语音可以即时响应,适合用于实时对话场景,比如虚拟助理、教育应用、客服机器人等。
应用场景
- 虚拟助理和客服:
- 通过高度自然的语音互动增强用户体验。
- 为不同客户群体提供个性化服务。
- 游戏与娱乐:
- 在游戏中为不同角色生成符合情节的语音。
- 提供生动的多角色对话,增强沉浸式体验。
- 教育与培训:
- 为语言学习者提供个性化的发音示范。
- 模拟真实场景中的多角色对话,提升学习效率。
- 健康与心理服务:
- 用更情感化的语音为心理支持或健康服务提供互动工具。
- 内容创作与媒体:
- 用于生成播客、音频书籍或广告的高质量语音内容。
OCTAVE正在进行限量测试。Hume AI计划逐步向开发者社区开放,提供用于研究与商业的API接口。开发者可通过该工具构建更具表现力和情感化的语音应用。
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!