Sora到底懂不懂物理世界? Sora AI视频造成影响介绍

Sora到底懂不懂物理世界,这是目前热搜上的一个话题,对于Sora大家都在议论,不懂的萌新也不知道这个软件的作用,目前制作出事有关物理世界的建模玩法,里面涉及到一些引擎,下面就来介绍下Sora和物理世界有什么关系。

Sora物理引擎介绍

Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。

最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。

【关注机器之心视频号,第一时间看到有趣的 AI 内容】

和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。

以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点:

规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和结构,是一个挑战。AI 需要理解和调整这些对象在现实生活中的相对尺寸,使得场景在视觉上显得合理;

流体动力学:咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需要模拟液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;

光线和阴影的处理:为了使场景看起来真实,AI 需要精确地模拟光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;

动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。

虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。

部分研究者同意这样的观点,但也有不少人反对。

Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同

图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

他接着讲到,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。

因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。

当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。

François Chollet:只让 AI 看视频学不成世界模型

Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?

Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。

Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。有人将这种行为类比为人类做梦,认为 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。

Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。

Chollet 指出,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预测。

所以,Chollet 认为,不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到现实世界所有可能情况的模型。这是因为现实世界的复杂性和多样性远超过任何模型能够通过有限数据学习到的。

田渊栋:学习物理需要主动学习或者策略强化学习

针对 Jim Fan 的观点,一些研究者提出了更激进的反驳,认为 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。也有人觉得,Sora 不过是对 2D 像素的操纵。

当然,Jim Fan 对「Sora 没有在学习物理,而只是操纵 2D 像素」这一说法进行了一系列反驳。他认为,这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。

对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需要 MDL(Minimum description length,最小描述长度)呢?

与此同时,知名 AI 学者、Meta AI 研究科学家田渊栋也认为,关于 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像「预测下一个 token」或「重建」这样简单的思路会产生如此丰富的表示?

他表示,损失函数如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂)并不直接决定模型能否学习到更好的表示。事实上,复杂的损失函数可能与看起来很简单的损失函数实际上产生了类似的效果。

最后他称,为了更好地理解事物,我们确实需要揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程。

田渊栋还表示,如果想要学习精确的物理,他敢打赌需要主动学习或者策略强化学习(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。

其他观点:Sora 被认为是「数据驱动的物理引擎」太荒谬

除了众多 AI 圈大佬之外,也有一些专业性的观点开始反驳 Sora 懂物理引擎这一说法。

比如下面这位推特博主,他认为 OpenAI 是数据驱动的物理引擎这一观点是荒谬愚蠢的, 就好像收集了行星运动的数据并将它们喂给一个预测行星位置的模型,然后就得出该模型内部实现了广义相对论的结论。

他称,爱因斯坦花了很多年时间才推导出了重力理论的方程。如果有人认为随机梯度下降(SGD)+ 反向传播仅凭输入输出对就能理解一切,并在模型训练中解决问题,那这个人对于机器学习的理解是有问题的,对机器学习的工作方式了解也不够。

爱因斯坦在理论推导中对现实做出了很多假设,比如光速恒定、时空是灵活的结构,然后推导出了微分方程,其解揭示了黑洞、引力波等重大发现。可以说,爱因斯坦利用因果推理将不同的概念连接了起来。

但是,SGD + 反向传播并不是这样,它们只是将信息压缩到模型权重中,并不进行推理,只是更新并转向实现具有最低误差的参数配置。

他认为,机器学习(ML)中的统计学习过程可能会显然低误差「盆地」,即无法探索不同的概念, 因为一旦陷入这些低误差「盆地」或者局部最小值就无法重新开始。

因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。这就是为什么深度学习系统不可靠并且实际训练起来很难,你必须在现实中不断更新和训练它们,这就很麻烦。

梯度下降的工作原理就像一只苍蝇寻找气味源一样,即苍蝇跟随空气中的化学浓度向下移动,从而引导它导向气味源。但如果仅依赖这种方式,则很容易迷路或陷入困境。

在机器学习中,模型的可调节参数就像苍蝇,训练数据就像气味源,目标函数测量的误差就像气味。而调整模型权重的目的是向着气味源(这里是低误差,相当于更浓的气味)移动。

最后,他得出结论,如果认为机器学习模型仅仅通过训练行星运动的视频就能在内部学到广义相对论,那就更荒谬了。这是对机器学习原理的严重误解。

此外,有网友指出 Sora 视频示例中充满了物理错误,比如一群小狗在雪中玩闹的场景就很糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)。

Sora 到底懂不懂物理?将来会不会懂?「预测下一个 token」是不是通往 AGI 的一个方向?我们期待各路研究者进行进一步验证。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


我们在使用网页进行一些文件的查找的时候都会遇到需要翻译的情况,这个时候为了方便我们就可以使用一个沙拉查词这个插件来帮助你进行页面的翻译和阅读,如果在使用的时候遇到了下面的问题,可以直接点击对应的问题来查看各种问题的使用教程和方法
imageusb是一款十分好用的u盘读取软件,我们可以在软件中进行使用,下面我们一起来看一下imageusb的具体使用方法吧,还是十分简单的。
这款插件就可以很好地帮助用户查看Axure R原型hTML的Chr ome扩展程序,如果你没有这个插件的话,可以选择下载安装一个Axure RPExtensi on插件,不知道怎么安装可以根据下文的方法来操作,十分简单
想必很多的用户都在使用Editplus这个软件吧,有部分的用户在保存文本之后,突然想起来自己没有区分大小写或者标点符号错误,但是不知道怎么批量替换,那就一起来文中看看替换的快捷键是哪个吧。
很多的用户应该都知道editplus和notepad这两个软件吧,这两个软件都是方便编程类的软件,于是就有用户想要了解一下这两个软件之间的区别,那就一起来看看内容吧。
5G通信技术大幅度提升网络的速度,在不同环境下都拥有极好的下载效果,而随着华为p60pro的消息透漏,支不支持5G也成为了用户们关注的重点,不过遗憾的是目前透漏的信息中没有表示会搭载5G技术。
很多的米粉都已经看到了自己手机即将迎来miui12,心里已经迫不及待的想要先体验内测版,但是不知道该怎么得到内测资格试题的答案,下面就给带来miui12稳定版内测答题答案大全。
xpath helper是一款非常好用的浏览器插件,我们可以在这里观看各种程序软件的代码,让我们从中学习到更多的知识,下面我们就一起来看一下软件是如何安装的吧。
沙拉查词可能是目前最好用的翻译工具了,有很多小伙伴还不知道其实沙拉查词在浏览器外也能够使用,今天小编为大家带来在浏览器外使用沙拉查词的方法。
沙拉查词作为一个非常权威的词典翻译软件,功能性非常强大,因此有很多用户想要在手机上使用,是翻译学习更加方便,那么沙拉查词有手机版吗?赶紧来看看吧。
由于跟多外语资料是以pdf格式传输的,因此有很多用户在安装完沙拉查词后不会使用它在pdf文件中查词,这时候只需要下载crx插件就能够解决这个问题了。
相比较于电脑上,手机上的沙拉查词由于更加方便携带,使学习翻译更加快捷,因此有很多用户想要在手机上安装沙拉查词,今天小编为大家带手机上安装沙拉查词方法。
用户们在浏览chrome浏览器的时候会不会遇到很多不方便的时候呢?这个时候有插件的话,会让你的体验得到极大地提升,小编也是为大家整理好了相关的插件crx离线包,下载即可使用哦。
在使用浏览器的时候,为了让浏览器功能更加强大,用户往往会选择安装插件,沙拉查词插件就是当中必不可少的存在,今天小编帮助大家安装沙拉查词插件。
xpath helper是一款很好用的网页插件,我们可以在这里进行查看网页的代码,只需要按下shift键,然后位移到想要查看的数据旁边,就可以看到代码了,下面一起来看一下吧。
沙拉查词自带的划词翻译功能非常好用,但有很多用户在使用时发现有情况下没有翻译弹窗,非常影响使用体验,今天小编帮助大家解决这个问题。
最近有很多小伙伴们在使用deepl翻译以后发现翻译后的文档变成了加密的,但是却又不知道如何解开,其实这个问题想要解决十分的简单,我们只需要按照固定的步骤来即可。
Fatkun图片批量下载插件是一款很好用的图片下载插件,我们需要在谷歌浏览器中进行下载添加,当然也是可以直接在本站进行下载的,下面一起来看一下吧。
Fatkun图片是一款十分好用的插件,我们可以使用这款软件进行各种各样的图片下载,只需要选择自己喜欢的图片,然后在使用插件即可完成,还是十分简单的。
翻译是一个不论什么时候都不会无用的东西,因为我们不管是在交流还是在上网都会碰到一些中文以外的语言这个时候翻译就十分的有作用了,很多小伙伴们在使用deepl时不知道如何进入网页版其实很简单。