本文精心编译自 OpenAI Sora 的主要作者Tim Brooks 和 Bill Peebles 在AGI House 主题演讲。Tim 和 Bill 轮番分享了Sora的训练细节、数据工程及未来设想,是技术报告之外最一手的信息。ZP 团队摘要了其中亮点信息,同时也推荐你阅读原文https://twitter.com/agihouse_org/status/1776827897892024734/video/1)

Sora的主要突破?

·Sora 在训练过程中学到了大量关于物理世界的知识,不仅维持了视频对象的持续性,还有三维结构的准确性

·Sora 第一个版本的主要目标是实现至少1080p分辨率和至少30秒的视频

·技术报告放出的视频样例中的多机位镜头,没有经过后期拼接处理或多次合成,Sora 自己决定何时切换镜头角度,并且在不同场景中保持角色的一致性

·

Sora 的物理学的怎么样了?

·Sora 基于一个简单、可扩展的框架,尽可能避免人为设定的物理规则。团队发现,要模型扩展得足够大,它就能自主地理解三维几何结构,无需在模型中设定严格的一致性规则。目前包含三维效果在内的所有的信息都隐含在像素和算法的权重里。

·团队曾尝试过模拟汽车碰撞和旋转等动作。团队认为Sora还没有完全掌握牛顿的三大运动定律,但正在接近目标。

·Sora 最终需要能够模拟人类的思考方式。而要创造真正逼真的视频和动作序列,必须构建一个内部模型,这个模型要能理解所有对象、人类和环境的运作机制。

·用户侧将如何使用?

·短期 Sora可替代昂贵的好莱坞CGI技,以及难以搭建的拍摄的场景,但这仅是模型潜力的表层

·用户的精细调整及更强的可控性,在理论上完全可行,Sora正处在探索阶段

·目前 Sora 的运行速度不足以支持用户的即时互动(如暂停并修改),完成这些操作至少需要几分钟时间

·互联网数据支持我们通往AGI吗?

·Sora开发中,团队深刻体会到处理视频数据的困难,需要完成大量精细而又单调的工程任务

·Sora 采用了混合模式做视频评估,包括损失值,图像评估指标,以及人工评估。

·目前人类所有的数据支持实现AGI,对使用创新方法突破限制表示乐观

·

Open AI Sora作者,亲自揭秘Sora原理

主持人:在 AGI House,我们非常重视你们这样的朋友们。我们特意邀请你们来到这里。现在,请大家以热烈掌声欢迎 Tim 的登台。

Tim: 多么充满活力的现场啊!我是 Tim,旁边这位是 Bill,我们在 OpenAI 与一支杰出的团队共同开发了 Sora。今天,我们非常高兴有机会向大家介绍它。我们将简要介绍 Sora 的主要功能,它在内容创造领域的潜力,背后的技术支持,以及它为何成为实现 AGI 的重要一步。接下来,请欣赏一段由 Sora 生成的视频。这段视频非常特别,因为它是高清的,并且长度达到一分钟。

这是我们的一个里程碑,当我们探索如何在视频生成技术上取得突破时,我们目标是制作时长1分钟的 1080p 高清视频。正如你所见,这段视频在细节上做得非常出色,比如反射和阴影效果都处理得很精细。注意这个亮点,蓝色的标志牌,女主角即将经过它。她走过后,标志依旧可见。这展示了视频生成中一个挑战性问题:如何在视频中保持对象的持续性和一致性。

Sora 还能创造多种风格的视频。比如,这里展示的是一个纸艺世界,非常独特和引人入胜。它还精通三维空间的理解。你可以看到,随着人物的移动,摄影机在三维空间中流畅转动,准确捕捉世界的几何和物理特性。显然,Sora 在这方面已经学习了很多。不仅如此,Sora 在训练过程中还学到了大量关于物理世界的知识。现在,让我们探讨一下,Sora 在视频生成方面将如何彻底改变内容创造的未来。

Sora 将彻底改变内容创作

Open AI Sora作者,亲自揭秘Sora原理

Bill正如Tim之前提到的,我们对 Sora 持续的研发和应用前景感到兴奋,不仅因为它对于达成 AGI 的重要性,更因为它在短期内将极大地促进创意内容的发展。

这里有一个我们特别喜欢的例子,一个30岁宇航员的冒险电影预告。(此处演示时PPT出现了卡顿)顺便说一下,与视频协作最棘手的通常是让 PowerPoint 正常工作(笑声)。这个例子的亮点在于,宇航员角色在多个镜头中持续出现,全都是 Sora 自主生成的。我们没有进行后期拼接处理,也没有需要多次拍摄再合成。Sora 自己决定何时切换镜头角度,并且在不同场景中保持角色的一致性。

,时长00:17

此外,考虑到特效的复杂性,这也是我们非常欣赏的一个例子。例如,一个外星人在纽约市自然融入人群,这是使用极其昂贵的传统好莱坞 CGI 技术才能得到的效果。这项技术短期内可能带来的影响是巨大的。

1720088641567

当然,Sora 不仅能创作出逼真的视频,它还能创作动画内容。这里有一个非常可爱的水獭动画,但是你可以看到水獭(Otter)的拼写错了,带着一丝不完美的魅力。

1720088649511

让我们思考一下那些使用传统好莱坞设备难以拍摄的场景。例如,我们设想的一个场景是纽约市的 Bloom Zoo 商店,这里既是珠宝店又是动物园,展示了镶有钻石和黄金的圣牙虎,以及镶有翡翠的海龟等。这些都是用传统方法难以实现的,但对 Sora 来说,这些只是小菜一碟。

最后,我将时间交给 Tim,他将讨论我们如何与艺术家合作使用 Sora,以及他们能通过这项技术实现哪些创意。

Open AI Sora作者,亲自揭秘Sora原理

Tim: 正如我们最近公布的,我们已经向少数艺术家开放了使用权限。这还不是一个对外广泛开放的产品,而是我们的研究成果。我们相信,通过与外部世界的交流,我们可以更好地理解这项技术的价值,并确保其安全性。这是我们发布这一消息的原因。从安全团队到艺术家,我们开始与各种团队合作,探索这项技术的可能性。

Shy Kids 是我们合作的艺术团队之一。他们对 Sora 的评价是:“尽管 Sora 擅长创造看似真实的图像,但我们更兴奋的是它创造出完全超现实的作品的能力。” 我觉得这非常酷。想一想,当我们提到生成视频时,我们生活中已经存在的诸多视频应用便会浮现在脑海中,比如库存视频或是现有的电影。但真正让我感到兴奋的是,人们正在创造一些全新的东西。全新的媒介形式、娱乐方式和前所未有的新体验即将通过 Sora 及未来的视频生成技术变为可能。接下来,我想向大家展示一个例子,这是由 Shy Kids 利用我们提供的 Sora 权限创作的有趣视频。

,时长01:21

这段视频讲述了一个有趣的故事,主角是一个头顶气球的男子。我建议你亲自去看看。我们发布了一篇名为《Sora 首印象》的博客,展示了我们授权给多位艺术家的视频。其中一个特别的片段是,这位头顶气球的男子从一个独特的视角讨论生活,极具创意。我们授权的其他艺术家也创作了许多既有创意又与众不同的作品。每位艺术家运用这项技术的方式都各不相同,这种多样性非常令人振奋,因为它展示了这项技术的广泛应用潜力。这真的很有趣,许多人都有绝妙的想法。

正如Bill所说,这些想法在以前可能很难实现,比如制作一部电影或者一些全新且不同的创作。希望这项技术能够长期地使内容创作民主化,使更多具有创造性的人能将他们的想法变为现实,展示给全世界。

Sora 技术原理揭秘

Open AI Sora作者,亲自揭秘Sora原理

Tim: 接下来,我将简要介绍一下 Sora 技术的背后原理。我会从模型的扩展性能力来谈这些模型为什么如此成功。长期来看,随着计算能力的增强,那些能够有效利用并随着规模扩大而持续优化的方法将最终胜出。因为随着时间的推移,我们可以使用的计算资源越来越多,如果这些方法能够很好地利用这些资源,它们的表现就会越来越好。

语言模型之所以能够做到这一点,是因为它们能够处理各种不同形式的文本——从数学、编程到散文等等。这些内容被转化成了一种通用的Token语言,并在这些不同类型的Token上训练大型的Transformer模型,从而形成了一种通用的文本数据模型。

通过在广泛的不同类型文本上进行训练,我们学到了这些非常通用的语言模型。你可以利用这些模型来执行各种任务,如使用 ChatGPT 或任何你喜爱的语言模型。它们从这些多样化数据的组合中学到了广泛的知识。我们希望对视觉数据也能做同样的事情,这正是我们在 Sora 项目中所做的。

我们收集了竖直视频、方形图像以及各种分辨率的图像,无论是长视频还是短视频,将它们转换成时空中的Patch。你可以把它想象成一堆帧的叠加。这些帧形成了像素的体积,我们从中提取这些小立方体。这样的处理让我们能在任何像素体量上工作,将其全部转换为时空Patch,这些Patch就是我们的数据Token。视频可以被看作是一系列图片的堆叠,每一帧都是一个像素的集合。无论是高清还是低清的图像,无论视频长度如何,我们都能将这些像素转换成所谓的时空Patch,这些Patch在我们的系统中扮演了类似Token的角色。

接下来,我们会在这些时空Patch上训练Transfomer模型,这些模型具有很高的可扩展性。这种方式让我们能够像处理语言模型一样来处理视频内容,不断提升系统的处理能力和数据处理能力,使得模型随着时间的推进而变得越来越好。同时,这种多宽高比的训练方法也让我们能够创造出适应不同屏幕尺寸的视频内容。因此,我们能够生成竖直、方形甚至横向的视频,这不仅扩大了数据的使用范围,更增加了内容的多样性。现在,随着人们越来越多地通过手机等移动设备消费视频内容,能够生成适应不同方向和格式的视频变得尤为重要。

我们还利用了一种 ZeroShot 的技术来增强视频到视频的转换能力。这包括使用一种称为 SDEdit 的方法,这是一种常与扩散技术结合使用的技术。通过这种方法,我们的模型逐步给视频降噪,从而生成清晰的视频内容。这种技术还允许我们修改视频的输入,例如可以将一个视频重新创作成像素艺术风格,或者将其背景设置在带有彩虹之路的太空中,甚至改变其主题为中世纪风格。这种灵活性为创意提供了几乎无限的可能性。

1720088673594

你可以看到虽然视频经过编辑,但整体结构保持不变。例如,接下来我们将经过一个隧道,视频将以多种方式呈现这个隧道,其中中世纪风格尤其引人入胜。这得益于模型的智能,它不仅仅进行表面修改,而是根据情景变换,比如在中世纪场景中,由于没有汽车,模型会智能地转换成马车。

此外,这个模型还能在不同视频之间进行巧妙的过渡。例如,展示的视频中有两种不同的生物,视频将从左侧的生物平滑过渡到右侧的生物。这种无缝且令人赞叹的转换方式,正体现了利用这些模型可以创造出许多独特和创新的内容。就像我们最初使用语言模型时,人们最初的反应通常是用它来写作。但实际上,语言模型的用途远不止于此。现在,每天都有人提出新的创意用法。同样,这些视觉模型的潜力也远未被完全挖掘。我们才刚刚开始探索可以用它们做些什么,未来的可能性无限。

这里有一个我特别喜欢的例子:左侧是一个无人机的视频,右侧是一只水下的蝴蝶。我们将在这两者之间进行插值。视频中的细微表现,比如中间的竞技场在过渡过程中逐渐衰败并沉入水中,效果非常壮观。还有一个例子同样引人注目,展示了如何将一种地中海景观平滑过渡到一个姜饼屋,这种变换在三维物理世界中保持连贯。

模型提供了一种独特的解决方案,使姜饼屋逐渐从建筑后面显露出来。如果你还未曾查看,我强烈推荐你阅读我们的主要博客文章和技术报告。技术报告中包含了这些示例及一些幻灯片中未展示的其他精彩内容。这些仅仅是触及到了模型潜力的表层,还有更多精彩内容值得探索。此外,还有一些有趣的功能,例如可以扩展视频的播放时间。这里有一个示例,是一张静态图片,我们使用 DALLE-3 生成,并计划利用 Sora 为其添加动画效果。好的,接下来我将让Bill继续介绍,为什么这对于实现通用人工智能(AGI)的道路至关重要。

Sora 对实现AGI至关重要

Bill: 好的,众所周知,大家都对大型语言模型(LLMs)在实现通用人工智能(AGI)中的重要作用持乐观态度。然而,我们认为视频模型是实现这一目标的关键技术路径之一。

具体来说,通过观察 Sora 生成的如东京雪景这样的复杂场景,我们发现它已经能够展现出对人类交互行为和身体接触的深入理解。随着我们不断推进这一技术,我们相信 Sora 最终需要能够模拟人类的思考方式。要创造真正逼真的视频和动作序列,必须构建一个内部模型,这个模型要能理解所有对象、人类和环境的运作机制。

因此,我们认为 Sora 将对实现 AGI 起到关键作用。正如 LLMs 的发展重点是扩展能力一样,我们也将这一策略应用于视频模型。为了实现这一目标,我们开发了一个基于Transfomer的框架,这个框架可以高效扩展。我们比较了不同配置的 Sora 模型,其中唯一的差异在于我们为模型投入的计算资源量。

Open AI Sora作者,亲自揭秘Sora原理

最基本的配置下,Sora 甚至无法准确识别狗的外形。它只能大致模拟相机应该如何在场景中移动。然而,如果我们将计算资源增加四倍,你会看到它开始能够识别狗的形态,甚至可以在狗身上添加帽子,背景中加入人物。如果我们将计算资源提升到32倍基准,你将会看到环境中极为详细的纹理,如狗在场景中移动时腿部的细微动作。甚至可以看到一个女士与一顶针织帽互动。

Open AI Sora作者,亲自揭秘Sora原理

随着我们持续扩大 Sora 的规模,就像我们在大型语言模型中看到的新功能一样,我们相信视频模型也将展现出新的能力。尽管我们目前投入的计算资源还未达到32倍,我们已经观察到一些令人兴奋的进展。因此,我将花时间进一步探讨这些进展。

首先是动物的复杂场景。这是另一个展示东京雪景的样本,你可以看到摄像机穿越整个场景。它保持了三维结构的准确性,一对情侣手牵手。你还能看到摊位上的人们。这展示了 Sora 能够同时模拟带有大量主体的复杂环境。目前,我们能做的还比较基础,如一些简单的互动。但随着我们不断推进模型的扩展,这些将预示我们未来可以期待的成果。例如,人们之间更具深度和意义的对话,以及更复杂的物理互动。

与大型语言模型相比,视频模型的一个优势是我们可以处理动物。这是一个关于意大利 Verano 的狗的例子。你可以看到它试图跳到另一个窗台,虽然有些蹒跚,但最终稳住了身体。我们不仅模拟了人类在场景中的移动方式,还在探索其他动物的移动模式。

Open AI Sora作者,亲自揭秘Sora原理

我们特别看好的另一个特性是三维一致性。此前在学术界曾一度有很多争论,关于我们在生成模型中需要多少归纳偏差才能真正使其成功。在开发 Sora 的过程中,我们的目标是创建一个简单、可扩展的框架,尽可能避免人为设定的物理规则。我们的发现证明了这种方法的有效性。只要模型扩展得足够大,它就能自主地理解三维几何结构,无需我们直接在模型中设定严格的一致性规则。

在圣托里尼岛的蓝色时刻,我们展示了那些标志性的白色基克拉迪建筑和蓝色圆顶,这种壮丽的航拍视角通常与 Sora 的协同使用效果极佳,无需过多挑剔即可获得成功的画面。Sora 在保持一致性方面表现出色,无论是展现优胜美地的徒步旅行者和壮丽瀑布的场景,还是捕捉极限徒步的冒险瞬间。

对于视频生成系统来说,一直难以解决的问题如对象持久性,Sora 虽未完美,但已取得显著进展。例如,在我们喜爱的布拉诺岛达尔马提亚犬的场景中,尽管人来人往,狗狗依然出现在画面中。Sora 不仅能处理短暂的交互,如之前在东京捕捉到的路过蓝色标志的瞬间,即使面对多重遮挡,也能有效恢复画面。一个优秀的视频生成系统需要能在时间推移中呈现出丰富而有趣的事件,这是 Sora 正在努力实现的

以往我们制作的四秒钟视频,大多简单如动画 GIF。而现在的 Sora 已经迈出了重要一步,它不仅能捕捉动作,还能永久改变世界状态。虽然在这方面 Sora 还有提升空间,但已经有了不少成功案例,比如一幅水彩画,艺术家的每一笔都真实地留在了画布上,让画面变得生动有趣。另外,就像一个老人吃汉堡时留下的咬痕,这些简单的互动对视频生成系统至关重要,不仅有助于内容创作,还能模拟真实体验,这对于人工智能的发展尤为重要。

Open AI Sora作者,亲自揭秘Sora原理

我们希望 Sora是一个世界模拟器,以模拟真实世界的物理规律。同时,我们也希望Sora能扩展到虚拟世界,比如电脑和操作系统中,从而学习和适应更多的规则和现象。这标志着我们在向更加全面和深入的世界模拟迈进。

作为初步尝试,我们选择了 Minecraft 来展示 Sora 的能力,这次我们使用了迄今为止最精细的高清 AP 材质包。你可以看到,Sora 已经能够很好地理解 Minecraft 的运作机制,它不仅能渲染这个虚拟环境,还能控制玩家进行一些基本操作,尽管这些还不够引人入胜,但已经是一个很好的开始。

Open AI Sora作者,亲自揭秘Sora原理

我们激动地期待着有一天,我们能开发出一个统一的模型,这个模型将融合所有不同虚拟世界的知识。我们常开玩笑说,未来某天,你甚至可以在视频模型上运行 Chachabitty。

现在,让我们看看一些失败的案例。显然,Sora 的路还很长,这真的是一项商业活动,充满了挑战。例如,Sora 在处理一些我们认为简单的物理互动时仍然遇到困难,如一个看似简单的椅子,Sora 往往处理不当。甚至更简单的物理现象,比如玻璃杯掉落并破裂,Sora 大多数情况下也会处理错误。它在理解一些我们认为理所当然的基本事物上,还有很长的路要走。

最后,我们即将进入提问环节,我们准备了一系列例子。总体来说,我们对这个新兴技术的发展方向感到兴奋。因此,我们将这看作是视频技术的 GPT-1 阶段,我们相信这项技术很快就会有显著的进步。正如我刚才所说,我们已经看到了一些令人兴奋的特性,我们对未来的发展充满期待,相信它将带来革命性的、令人惊叹的成果。我们非常期待看到大家如何利用这项技术,感谢大家。

Q&A

AGI House:现在我们有10分钟时间进行问答环节。谁来提第一个问题?

Person 1: 这是个有关理解agents或让agents在场景中相互作用的问题,agents之间的相互作用和理解是如何实现的?具体来说,这些信息是明确展示的吗,还是说实际上他是隐含的?

Bill:这是个很好的问题。实际上,所有这些都是在 Sora 的系统中隐式进行的。当我们看到这些 Minecraft 样本时,我们并不知道它在哪里真正为玩家建模,或者在哪里明确表示环境中的动作。所以你说得没错,如果你想准确描述正在发生的事情,或者以某种方式读取它,你就需要在Sora的基础上再安装其他系统,以便提取这些信息。目前,所有的信息都隐含在像素和算法的权重里。就像你所问的,一切都是隐含的。

Tim: 三维效果也是隐式的。你看到的所有东西都是隐式的,没有任何明确展示的内容。

Person1: 所以基本上,你现在描述的所有这些带有酷炫特性的功能,都是我们事后从这些酷炫特性中推断出来的。这很酷。

Person 2: 您能否详细谈谈微调的潜力?比如,如果有一个特别定制的角色或版权,我知道在初期阶段,你们是通过输入图片来实现这一点的。那么你认为如何在制作过程中加入这些插件?

Bill: 确实,这是个很棒的问题。这正是我们特别感兴趣的领域。从总体上来说,我们从艺术家那里收到的反馈是,他们希望模型尽可能地可控,正如你所提到的。如果他们有一个他们特别钟爱且自行设计的角色,他们会非常希望能够在 Sora 的生成过程中持续使用这个角色。这正是我们正在积极研究的问题。如果你有专门的数据集,想要调整模型以适应你的内容,你完全可以对模型进行精细调整。目前,我们正处于一个探索阶段,我们在尽力了解用户的确切需求。因此,这类反馈对我们非常宝贵。虽然我们目前还没有一个确切的时间表,说明何时可以实现这些功能,但理论上,这是完全可行的。

Person 3: 在处理语言Transformer模型时,我们通常采用分块或自回归的方式逐步预测。对于视觉Transformer,我们可能会按照扫描线顺序,或者在空间域内采用类似蛇形的路径进行处理。你觉得这对视觉Transformer 构成了根本性的限制吗?在空间域中预测元素的顺序是否真的重要呢?

Tim:这是个很好的问题。在这方面,我们实际上采用了扩散技术。所以它并不是像处理语言那样的自回归transformer。但我们在生成的视频中进行了去噪处理。我们从一个全是噪点的视频开始,然后逐步运行我们的模型来消除这些噪点。经过足够多次的处理,所有噪点被清除后,我们就能获得一个清晰的样本。因此,我们实际上并没有采用例如扫描线那样的固定顺序,因为你可以同时在多个时空区域进行去噪处理。通常,我们是在整个视频范围内同时进行去噪。我们在技术报告中也提到了一种方法,如果你希望,可以先生成一个短视频,然后再将其延长。这同样是一个可行的选项,无论是一次性生成完整视频,还是先制作短视频再进行扩展,都是可以的。你可以根据需要选择合适的方法来生成视频。

Person 4: 你们是以每秒30帧的速度生成视频吗?还是你们采用了帧插值或帧生成技术?因为我注意到所有的视频生成速度都比两个情绪化片段要慢。

Tim: 我们的视频生成速度是每秒30帧。

Person 5: 你们有没有试过模拟汽车碰撞或旋转等动作,来检验生成的图像是否能够符合物理模型或遵守运动定律?

Bill:我们做过一些这样的尝试。通常来说,旋转的效果还算合理。当然,这并不是完美无缺的。我看过几个Sora生成的汽车碰撞样本。我认为它还没有完全掌握牛顿的三大运动定律。但我们正在接近目标。让我们继续尝试吧。

Person6: 你们现在试图用 Sora 解决的教育问题是什么?

Tim: 目前,我们与外界的主要互动对象是艺术家,我们关注他们如何使用 Sora 以及他们的反馈意见,同时我们也重视安全性问题,特别是来自红队的反馈。这两方面的反馈是我们当前最为关注的。Bill提到,艺术家们非常重视控制权这一反馈对我们来说极具价值。例如,艺术家们往往希望能控制摄像机及其路径。在安全问题上,我们希望确保如果将来将这项技术开放给更多用户,它必须是安全且负责任的。此外,我们还担心这项技术可能被误用,比如用于制造虚假信息等问题。这也是红队的主要关注点。

Person7:那么,是否可能制作一种视频,让用户可以实际与之互动呢?例如,视频播放到一半时,用户可以暂停并更改某些内容。这些更改能否被视频的后续部分所采纳呢?

Tim: 这实际上是个很棒的想法。目前,Sora 的运行速度还是相当慢的。从延迟的角度来看,这很大程度上取决于视频生成的具体参数,如持续时间和分辨率等。但即便如此,完成这些操作至少也需要几分钟时间。因此,实现你所描述的那种体验还有一定的距离。不过,我认为如果能实现,一定会非常酷。

Person 8你们开发第一个版本的既定目标是什么?一路走来,你们遇到了哪些重要问题?

Bill: 我们在项目初期设定的主要目标是实现至少1080p分辨率和至少30秒的视频。我们意识到视频生成技术似乎只能停留在生成类似GIF的四秒短视频,这一点成为了我们团队整个项目的关注重点。在这个过程中,我们深刻体会到处理视频数据的困难。视频中包含了海量的像素,这就需要我们完成大量精细而又单调的工程任务,才能确保系统的有效运作。我们一开始就预料到这项任务会非常艰巨。确实,这过程花费了不少时间,至于成果,我还不太确定。Tim,在这过程中还有什么其他发现吗?

Tim: 我们非常努力地尽量简化方法,虽然有时这比说起来容易做起来难。但我认为,我们的主要关注点是尽可能简化流程,并且确保在扩展这一过程中做到恰到好处。

Person9:当你发布这个视频时,你是否已经设置了提示并检查了输出效果?如果我觉得这个视频还不够好,那我可能会尝试使用相同的提示,再看改进的结果。这是第一个视频,然后是新的提示和新的视频。使用这种方法是否合适?

Tim:这确实是个很好的问题。视频的评估非常具有挑战性。我们采用了多种混合方法来进行。其中之一是实际的损失值,低损失通常意味着模型表现更好,这有助于我们进行优化。另外,你还可以通过图像指标来评估单个画面的质量。因此,我们确实采用了标准的图像评估指标来评估画面质量。我们也投入了大量时间生成样本并亲自审视这些样本。需要注意的是,你应该在众多样本上进行这种评估,而不仅仅是依赖单个提示,因为过程中有时会出现偏差。所以你可能会随机得到一个好的样本,并认为你可以改进它。这就需要你在输出中对比多个不同的提示。

Person10: 我的问题关于训练数据。你估计我们需要多少训练数据才能实现人工通用智能(AGI)?你认为互联网上的数据足够吗?

Tim这是个好问题。我认为我们拥有足够的数据来实现AGI。我也相信,人们总能找到创新的方式来进行改进。当我们遇到限制时,我们总能找到创新的方法来提升结果。因此,我相信我们拥有的任何数据都足以帮助我们实现AGI。

Person10: 太好了,那我们就来实现AGI吧。谢谢您。