近日,Adobe Research 与西北大学合作开发了一款名为 Sketch2Sound 的人工智能系统,这一工具有望彻底改变声音设计师的工作方式。Sketch2Sound 能够让用户通过哼唱、模仿声音以及用简单的文本描述来创建专业的音效和氛围音。

 

这个系统分析了用户声带输入的三个关键要素:音量、音色(决定声音的明亮或阴暗)和音高。随后,它将这些特征与用户的文本描述相结合,从而生成所需的声音。例如,用户在输入 “森林氛围” 并发出短促的声响时,系统会自动将这些声响识别为鸟鸣,而无需具体的指令。

 

Sketch2Sound 的另一大亮点在于它对上下文的理解能力。在制作音乐时,用户可以输入 “低音鼓、军鼓”,并通过哼唱出节奏。系统会智能地将低音鼓放在低音音符上,而军鼓则置于高音音符上。这种智能化的处理大大简化了声音设计的过程。

为了满足专业人士的需求,研究团队还内置了特殊的过滤技术,使用户可以根据需要调整生成声音的精确度。声音设计师可以选择非常准确的控制,或是更放松、近似的方式,这种灵活性可能使 Sketch2Sound 特别受 Foley 艺术家的欢迎。这些专业人士负责为电影和电视节目创作音效,使用这一工具后,他们可以通过声音和文本描述更快速地创造效果,而不必再操控实物来发声。

虽然研究人员指出,输入录音中的空间音频特性有时会对生成的声音产生不良影响,但他们正在努力解决这个问题。目前,Adobe 尚未宣布 Sketch2Sound 是否会推出商业产品或具体的发布时间。

项目入口:https://hugofloresgarcia.art/sketch2sound/