【深度好文】Sora打开的未来：人必须也终将成为AI的尺度-葫芦娃AI-一起学AI葫芦娃AI

【编者按】距离视频大模型Sora发布已有一周时间，从最初由视频之逼真程度引发的集体震撼，人们也开始逐渐进入更深度的思考，其中有分歧、非议，也有关于Sora所代表的AI技术进一步发展带来的社会影响的各种思考。本文作者无意对Sora背后的技术原理进行解读，因技术原理的深入解读仍需要更多的技术细节的披露。但在作者看来，以Sora为代表的生成式人工智能的进展，已然清晰地呈现出了通用人工智能技术发展的脉络。尽管Sora视频生成在当下仍然存在诸多优化和完善空间，但是其所展现出的潜力将会对产业和社会发展带来巨大影响。人工智能的每一次进步，都可能对个人与社会带来巨大影响，严肃思考以Sora为代表的一系列通用人工智能技术发展对于产业和社会发展所带来的潜在影响，对于进一步健康发展人工智能是必要的。Sora以及其同期竞品（比如google的Gemini）的丰富案例也使得这种思考具备了基础。图片[1]-葫芦娃AI-一起学AI【深度好文】Sora打开的未来：人必须也终将成为AI的尺度-葫芦娃AI-一起学AI葫芦娃AI

“Sora的重大意义在于宣告了AGI技术路线在世界模拟这一能力上已然走通。”

一、认识Sora

Sora的这一次进展可以说是既在意料之中，也在意料之外。

所谓在意料之中是指在ChatGPT诞生不久，AI专家们都已经形成共识，预判了大模型技术势必要从单一的文本模态向多模态发展的基本趋势。Sora只是顺应这一趋势而发生重大事件之一，它的诞生宣告了文生视频、视频编辑与生成的最新进展。

说意料之外，是当我们亲眼看到其生成的视频时，其画质之精良已经堪比最先进的电影工业的产物，由此而带来的感觉与认知上的冲击是格外强烈的。从表面上来看，其在视频长度、质量以及可控性等方面均达到当前的最高水平，碾压了同类竞争对手。从深层次来看，正如OpenAI的官网文章所表达的，Sora绝不仅仅只是个视频生成工具，它本质上是现实世界的模拟器，能够对物理世界、人类社会以及人与世界的复杂关系进行逼真模拟与生成。一直以来，计算机领域对于复杂系统的模拟就是个难题，数字孪生、游戏引擎、虚拟现实、数字仿真、电影制作等等领域都涉及对现实世界的复杂系统模拟。可以说Sora的诞生宣告了人工智能在对现实世界的模拟方面能力达到了前所未有的水平，也可以说是对传统相关工具形成了降维打击态势。

当然，我们也不得不承认，Sora仍然存在一些局限，比如对于物理世界的一些瞬时事件（诸如杯子摔落的瞬间），现实世界的一些物理常识（比如说老太太吹灭蜡烛吹而不灭），以及一些细节呈现（比如有专家发现中国舞龙视频场景中的中国字多属于编造的错字），仍然存在着明显问题。

这些问题从根本上来讲可以归结于高质量、高精度数据的缺失，或者是相应物理场景的数据稀缺。比如瞬时状态的视频在总体样本中的累积时长是相对较短的。但是我相信这些问题只要建立合理的诊断与发现机制，很快就可以通过增强长尾场景的样本供给，增强合成数据，以解决相应的问题。

Sora的重大意义在于宣告了AGI技术路线在世界模拟这一能力上已然走通，这是具有战略意义的事件，剩下的细枝末节的提升与完善总体而言是属于战术层面。观察OpenAI这几年的发展，该公司似乎从不在战术层面的问题上浪费宝贵时间与资源，这一点是值得我们学习的。所以我们要以更积极的心态去看待Sora，承认这个里程碑式的进展的积极意义，深入思考它有可能给我们的人类社会所带来的全新的机遇以及全新挑战。

那么对于物理世界的这种模拟究竟难在哪里呢？此前的Runway和Pica，我们多少可以明显看出其生成的诸多问题（比如威尔史密斯吃面条的视频，史密斯的形象总体上是明显扭曲）。事实上，这些问题归根结底是在于其视频所生成的内容违背了现实世界的物理规律或人类社会的文化习俗。而Sora基本解决了这方面的问题，而且是能够在更大时空范围内解决这一问题，时长长度从AI视频生成的几秒钟时间拉长到了一分钟。在较长时空范围内能够生成遵循物理规律、社会习俗的视频是十分困难的。要知道即便是几秒钟的视频，其所表达的信息量也是十分巨大的，对于我们这世界的表达是惊人的。一个几秒钟的视频就能泄漏关于我们所在世界的大部分秘密。比如“一个时尚的女子行走在东京街头”这个视频，揭示了人类这个物种的生物特征，展示了人类文化的基本形态，展现了人类行走的形态，暗含了地球的重力状态，呈现了丰富的人文环境，暗示了丰富多彩的人与世界的复杂关系……在一个一分钟视频所展示的世界中，其物理环境和人文环境之复杂度是惊人的。Sora能够做到如此逼真的模拟，完全吻合物理规律、文化习俗、生活常识，各种对象与要素之间的空间关系、时序关系也是合情合理。更为难得的是，即便在一些想象的场景，其所生成的“想象”视频也是合乎人类的想象逻辑，而非是随机乱象，其视频生成的质量完全达到了电影行业的最高水平。

传统的计算机模拟仿真都需要借助复杂的数学模型。每一类物理现象有着复杂的数学模型，比如烟花爆炸、火焰喷发、海浪波动、动物行走。一分钟视频里面涉及太多模型，导致传统计算机合成技术难以承受影视制作的高昂代价。2019年的“真狮版”的《狮子王》基本上代表了传统计算机辅助生成技术在影视制作行业的最高水平。创作团队为了再现真实狮子的动作、形态与毛发，动用了Maya、ZBrush、Houdini等建模软件，还借助了VR拍摄设备和工具，比如Oculus Rift、HTC Vive等，累计制作成本接近1.5亿美元。而现在Sora只需要一句自然语言提示就能生成与之相媲美的高质量视频段落。以此来看，影视制作行业的发展形态必被重塑。

二、Sora的产业影响

我相信Sora背后的技术绝不会停留在影视制作，具有重大商业价值的无人驾驶或许也将面临一次重大机遇。无人驾驶非常重要的一个问题是借助无人驾驶汽车的感知设备（包括雷达和摄像头），对汽车行驶路况和周边环境进行实时感知和建模。借助海量的驾车数据、交通摄像头数据，Sora从原理上来讲是有可能在无人驾驶场景对汽车行驶环境进行高精度模拟和建模的，其一旦能在无人驾驶形成应用，无疑又给大模型产业注入全新推动力。

Sora对现实世界的建模与模拟能力，相信很快就会在具有更高价值、更为广阔的场景中取得应用。工业制造、游戏引擎、数字孪生、教学仿真以及前几年的元宇宙，都将从Sora背后的生成式世界模拟能力中受益。

比如说在我们的工业制造，也需要大量的专业性极强的仿真和模拟才能对设备运行进行诊断与预测。借助传统工业机理模型的样本合成，再借助Transformer架构一个面向特定工业场景的Sora模拟器，从而极大提升工业场景模拟能力的泛化性，似乎是一个可行的技术路线。Sora背后的技术与传统行业的深度融合将进一步释放生成式AI的产业价值，进一步推动AI与实体经济的深度融合，也有利于AI技术自身的进一步迭代演进。

我相信未来的科学发现也将从Sora的这次进展中受益良多。Sora一个基本启发在于数据的充分训练后，其可以遵循数据背后所蕴含的基本原理进行建模。Sora视频生成中所呈现的多是物理规律、社会规律。事实上，科学认知世界有着不同的侧面，细分为不同的学科。我们是否也可以想象如何借助AI对其他学科，比如化学、生物等，也进行类似的数据驱动的学习。成就Sora的技术原理迁移到其他学科是可能的，因为本质上所有学科基本上就是表达各类实体、概念的时空规律、因果规律。Sora至少已经向我们展示了从视频数据学习物理和社会相关的时空规律、因果规律的可能性。一旦能建模某个学科的规律，进而能够生成某个学科的现象，AI就一定能成为助推该学科发展的利器。

三、Sora的社会影响

AI能力的每一次进步，给人类社会带来的既是重大机遇，也是重大挑战。我们在积极拥抱这些全新机遇的同时，也要严肃思考潜在挑战，并积极应对。

AI的建模能力可以视作其对世界的“理解”能力。当我们使用“理解”一词时便暗含了存在这个行为的主体。在全部人类历史上，理解的主体是人，但如果不承认机器作为主体地位的话，便谈不上所谓的机器“理解”。人类理解世界的结果也是为了表达世界，创造新的世界。从这个意义来讲，当机器能像人类一样重建某个概念的实例（比如“在东京街头行走的时尚女性”），便可被视作具备一定的理解能力。对机器而言，精准建模就是“理解”世界的基本方式。Sora借助数据驱动方式取得了对现实世界的惊人建模与模拟能力，这种能力甚至是远超人类对世界的认知能力的。

机器对于世界的建模或认知可能比人类更接近世界本原之真相。数千年来，人类一直采取各种方式认知这个复杂的现实世界。神话、宗教、科学都是人类认知世界的方式。但不管是哪一种认知方式都是对世界本原的一种简化理解。日常生活中，人们倾向于使用语言表达对于世界的体验；科学研究中，科学家倾向于用公式表达对世界的认知。但符号公式一定程度上都是对非线性的复杂世界的一种简化还原。绝大部分经典理论都是在各种假设与前提下才能建立，这些假设与前提都是人类认知复杂世界所作出的妥协。

两千多年来，人类从来没有停止过对自身认知能力的怀疑。先哲们的这种怀疑是完全值得我们重视的。世界的本原也许未必如人类所认知的情形。数百亿、千亿参数的大模型可能比人类学习更加充分，其能够学习到蕴含于海量数据人类难以觉察、难以表达的暗知识、潜在规律。

机器对于世界认知能力将显著超越人类个体。如果将机器的建模能力认定为是一种对世界的认知能力，那么我们可能不得不承认，人类的认知能力相对于机器认知能力而言是存在着明显缺陷的。人类的认知总体而言是线性的、有限的、简单的。一直以来数学领域对复杂非线性系统的建模都是重大挑战。在复杂决策时，人能同时考虑的决策变量是十分有限的，所谓的抓大放小、抓住主要矛盾的决策方式，本质上都是人类认知能力不足情况下的妥协之计。然而，AI却可以在数以百万计、千万计的决策变量下进行决策。随着人工智能的进一步发展，机器的感知维度也更加多元。机器所感知的范围远远超过人类，比如高清摄像头可以将远在几公里范围之外的景象看得清清楚楚。机器的这类超级认知能力仍然有待我们深入研究，用好机器的这种超级认知能力将给人类发展创造全新机遇。

一定程度的自主学习，人类先验知识的合理褪除，是成就Sora惊人效果的关键。事实上，人工智能最近几年的发展一而再、再而三地说明，人类专家越少的干预反而越能产生好的模型效果。自然语言处理领域曾经发生过每开除一个语言学专家，机器翻译系统的效果就提升几点的尴尬事实。这样的故事也延续到了大模型时代。这不得不让我们反思，人类对物理世界、人类社会皓首穷经所积累的全部知识，在发展机器智能面前似乎显得毫无价值，甚至起着负作用。人类对于发展机器智能的真正价值似乎只在于设定一个认知世界先验载体（Transformer等模型架构），准备好训练素材（高质量训练数据），使用大规模算力进行训练。想想人类的优质教育，何尝不是搭建好良好的学习环境，准备好所有的学习条件，给予学生充分训练与试错机会，而不是填鸭式的知识灌输和空洞的反复说教。人类的过往知识相对于机器而言似乎并不重要。想想人类社会代际间的经验与知识传承，我们这代人的知识与经验又有多少会被我们的下一代所认可而继承呢？

激发人类的想象力。人类的想象力通常是在看到实物之后得到极大的激发。当我们的创意还仅仅停留在文字或脚本阶段时，它对我们的心灵的撞击仍然是有限的，亲眼所见带来的感官体验对心灵的震撼是难以言表的。从这个意义上来讲，Sora的出现降低了创意和想象的视觉实现代价和门槛，它将极大地激发人类的想象力。人类的想象力或许会在AI工具的助力下实现一次跃迁或升级。

Sora进展也在刷新我们对于人类创造能力的理解。从AI实现视角来看，人类创造的本质或许就是在更大的内容或者理论生成空间中进行合理选择。ChatGPT和Sora这一类大模型在海量数据的喂养下，对现实世界进行了压缩表达，进而可以以较低的信息损失度还原世界本原。在大模型的生成过程可以视作是在更大语义空间上进行高效的内容枚举或检索，这个语义空间可能比人类所能理解的语义空间大得多，这也将帮助人类拓展想象空间，提升人类的创造力。

人人都能创作的时代即将到来。Sora的大规模应用将会极大地降低视频创造、内容创作的专业门槛。内容生成的速度、质量、效率都会前所未有地提高。文化娱乐行业的井喷式发展或许将成为现实。未来我们的小学生，但凡有足够创意并且能够用自然语言表达自己的创作脚本，都有可能制作一部属于自己的影视作品。但是值得注意的是，创造过程的另一个必要环节在于评价。什么是符合人类真善美标准的，仍然还需要以人类的尺度与标准进行检视。人是万物的尺度，在AI时代仍然适用。对于AI生成内容，人类是唯一合格的评价者，人是AI的造物主，也是AI的尺度。

人人皆可创造看上去带来了一个所谓“AI平权”的美好未来。但从长远来看，它也可能带来一些潜在的社会问题。人人都是导演、人人皆可制作，这意味着什么？艺术作品的总量可能远远超出生命的长度（即便寿命得以翻倍），即便穷尽一生也难以体验可能万分之一优秀文化遗产。审美对象的廉价与泛滥或造成人类审美情趣的倒退、体验欲望的消失。

每天吃肉，吃肉的欲望就会大大降低；天天过生日，生日的惊喜就会丧失了。人类的审美体验所赖以实现的感觉与情感会在高频刺激下变得麻木而迟钝。美之为美或许正在于它的稀缺性。我们偶尔看一场《热辣滚烫》电影一定会为了主人公的执着与努力而深深感动，但是如果在AI技术加持下每天给你生成一部“打鸡血”题材的电影，你的灵魂只怕只会麻木到直打哈欠。偶尔一次的艺术经验是人生体验的升华，每天都喝鸡汤，那大概率就是PUA。提不起兴趣，打不起精神，本已经是现代人的通病。Sora等直击人类体验的AI技术恐将进一步放大的人类的无意义感。

无孔不入的AI应用，不加节制的AI滥用给人类带来的更可能是灰暗的明天。AI的大规模使用或许会使我们人生中的每时每刻都更加高效、更富意义。我们人生的每分每秒或许在AI的助力下都能成为我们的高光时刻。然而，伟大是相对于平庸而言的。人类唯有经历日常的平庸现实体验才能感受那如电光石火一般转瞬即逝的审美或崇高体验。每时每刻都是高光时刻也就从根本上毁灭了高光时刻对于人生的意义。我们生活中的每时每刻如果都被AI赋能，恐将加速人类生存意义的毁灭。日常生活的“无意义”的最大意义或许就是在于成就那片刻的重大“意义”。AI的应用应该给人们日常生活的发呆与无聊留有余地，要为人类在未来AI时代的快速发展留下其在婴童期田园漫步的美好回忆。与物理世界的直接交互体验，近乎刀耕火种一般的田园体验或许将是AI时代更令人珍惜的片刻。

伴随通用人工智能技术的进一步发展，人类文明或许将进入一个“乱糟糟”的盘整期，其基本特征是“剪不断，理还乱”。剪不断的是难以割舍的人工智能给我们带来的先进生产力，以及随之而来的巨大社会福利。理不乱的是AI作为一种新型智能体，盲目插足人类的伦理道德与情感事物，从而搅乱人类的精神世界。

在AI技术之前，人类的精神世界完全百分之百体现的是人类自身的意志。伴随着AI制作工作的大量使用，未来的艺术作品还有多大程度上是在体现人类的创作意志，这是个值得思考的问题。看看Sora在人类有限提示下完成的视频生成，其生成内容可以说已经不是人类意志的完整体现。或许会有人说，Sora毕竟还是依赖人类的提示，提示不就在体现人类的意志么。那么要知道，同一段提示，不同的AI工具，甚至是同一个工具的不同版本或者不同轮次的生成，其结果都有差异。这个差异所在就是机器“意志”之体现。所以AI已经在人类提示基础上植入了来自模型的“意志”。或许会有人说，Sora也是从人类制作的视频所学习的，其学习的数据源头是人类社会产生的，体现的是人类意志。但是一方面训练AI的数据是个集合体，其体现的是人类群体的创作意志；另一方面随着合成数据的大量使用，机器泛化能力已经进一步增强，创作者通过Sora这类AI工具所体现的个人自由意志的成分可能会逐渐减少。

随着Sora等视频生成技术的大规模应用，人类的感知与认知功能紊乱是个值得担忧的问题。当AI生成做到了以假乱真，人类的感觉和知觉系统已经无法判断真伪。现实世界和虚拟世界的边界日益模糊，将造成人类感知与认知功能紊乱与障碍。越来越多的人看到了Sora生成视频后发出了现实世界的怀疑。当我们将来沉浸在由人工智能所生成的虚拟世界的时候，其逼真程度与现实就完全没有差别。那么影视作品《西部世界》中所描绘的人机共生社会所存在的一系列问题将不可避免的在人类社会出现。在一个以假乱真的虚拟世界中，射杀一个虚拟智能体，这是人类在情感上能接受的事实吗？人类的认知功能的紊乱，势必会带来进一步的我们的情感和伦理事务的混乱等一系列问题。所以一个人类文明盘整期到来似乎是必然，在这个盘整期我们需要重新划定AI应用的边界，建立AI应用的准则。

人类几千年来所建立起来知识体系面临着崩塌的风险。这一风险随着人工智能技术的进步可能会日益增大。以人类理解世界的方式所建立起来的认知世界本原的知识体系，是在人类的直觉经验基础之上建立起来的。在AI生成对人感知能力的强大冲击下，人类越加不再确信自己的感知与认知能力，这势必会引发人们对已经建立的知识体系的怀疑，势必会质疑对世界本原的所建立已有认知。

AI大发展时代，如何重建人类的认知体系，如何重拾认知世界的信心，都是未来我们需要积极回应的命题。从积极角度来看，机器的认知体系至少是人类现有认知体系的有益补充。人类擅长构建抽象的、符号化、离散的、简洁的知识体系；而机器擅长构建具象的、数值化、连续的、复杂的知识体系。

四、对于AI发展所应秉持的基本态度

那么，对于AI的发展，我们应该秉持一种什么样的态度呢？

AI发展具有时代必然性，是先进生产力的代表。为此，我们应该以积极心态拥抱AI技术浪潮的到来，同时做好AI发展所引发的社会变革的应对与准备工作。很多人认为AI是平权的机会。事实上，如果不加以合理的干预和监管，AI更可能成为集权的利器。很多人认为AI是人类发展的超能力，但如果不加以合理的干预和监管，人类会被这种能力反噬。好莱坞电影漫威电影不止一次的告诫人类超级英雄很容易被其超能力所反噬，这多少是对当下人类社会发展近况的一种隐喻。没有对于AI的积极干预、引导与规范，AI有可能成为人类社会发展之不可承受之重。所以，人必须也终将成为AI的尺度，AI的发展只能以人类的福祉为唯一依据与标准。

（作者肖仰华，系复旦大学教授、上海市数据科学重点实验室主任。二八法则，是工业时代的逻辑；而在智能时代，则是2%/98%的逻辑。如何成为智能时代2%的受益者？“当见未萌”，让我们加入浪潮吧。本专栏由计算机学界专业人士为澎湃科技读者特供。）

文章版权归作者所有，未经允许请勿转载。

THE END