哈希力量归集文库路径访问：首页 > 机器智能 > NLP/LLM大模型 • GAI观察员

OpenAI再次举起屠刀，以及几个推论

王一鹏 ☉ 文来源：虎嗅科技组 2024-02-17 @ 哈希力量

【小哈划重点：Sora使用Transformer架构，建立在DALL·E 3和GPT模型之上，可以生成长达一分钟的有运动、多机位视频。此次，Sora的世界模型，已经能帮助它还原一辆越野车在山区小路上的行驶情况，在视频中添加逼近真实的倾斜和颠簸感。目前，Sora仅开放给了少部分人进行内测，据称是一些视觉艺术家、设计师和电影制作人。】

OpenAI在凌晨发布了首个文生视频模型Sora，刷新了行业指标，重新定义了AI文生视频的技术极限，将视频生成时长提升了15倍。尽管Sora还存在问题，但AI技术的进步速度令人瞩目。

• Sora的世界模型让AI视频生成更流畅、更符合逻辑，降低训练成本，为进入自动驾驶行业铺好了路。

• AI视频生成已经快速进军视频领域，将影响短视频和短剧行业。

• OpenAI的Sora突破了AI视频生成的时长限制，给公司如Pika和Runway带来挑战。

2月16日凌晨，在没有任何预兆和消息透露的情况下，OpenAI突然发布了自己的首个文生视频模型：Sora，大幅刷新行业多个指标，重新定义了AI文生视频在现阶段的技术极限，颠覆了生成式AI在视频领域的全球市场格局。

Sora使用Transformer架构，建立在DALL·E 3和GPT模型之上，可以生成长达一分钟的有运动、多机位视频。相比业界水平，Sora将视频生成的时长一次性提升了15倍，直接迈过了市面上所有短视频的时长要求。

同时，Sora也带有世界模型的特质。世界模型不是AI视频生成的必须要素，却是这个领域较为高端的一个研究方向。所谓世界模型，简单点说，是要对真实的物理世界进行建模，让机器像人类一样，对世界有一个全面而准确的认知。视频与文字不同，大多数是在描绘一个主体，在一个真实或虚构的物理世界中的动作，因此，世界模型会让AI视频生成更流畅、更符合逻辑，降低视频模型的训练成本，提升训练效率。同时，世界模型也为生成式AI真正进入自动驾驶行业铺好了路。

此次，Sora的世界模型，已经能帮助它还原一辆越野车在山区小路上的行驶情况，在视频中添加逼近真实的倾斜和颠簸感。

但Sora的世界模型仍有非常多的问题，比如，一块饼干被咬过之后，却没有留下咬痕。OpenAI非常实在，把这些问题都写在了官网上。

目前，Sora仅开放给了少部分人进行内测，据称是一些视觉艺术家、设计师和电影制作人。同时，OpenAI内部仍在进行模型伦理侧的对抗性测试，比如错误信息、仇恨内容、偏见内容。至于色情暴力，则会在文本输入时，就被拒绝掉。

对于Sora，今天的我们，必须注意到几个显而易见的推论：

1，OpenAI一拳打在了所有人的肝上：全球的AI视频生成赛道投资逻辑，乃至相关企业的生存逻辑，在此刻都已经改变了。未来一个季度内，如果该企业的视频生成能力，仍然停留在4s，或导致直接出局；

2，AI已经快速迈过文生文、Chatbot时期，大步进军视频生成领域：当下最火的短视频、短剧，将迎接AI的到来；那些卡在瓶颈上的领域，比如自动驾驶、智慧城市，或将迎来突破。

3，不要过度神话Sora或其他AI视频生成工具，当下仍有巨量的技术、产品、商业问题等待解决；但也不要低估AI技术的进步速度，那个凝固在未来时光中、让人看不清面貌的AGI（通用人工智能），正在向我们迈步。

Sora到底牛在哪？

就在年前，2024年1月27日，虎嗅举办了一场关于AI视频生成的开放沙龙，会上有一个有趣的互动：AI视频生成多快迎来Midjourney时刻？

选项分别是半年内、一年内、1-2年或更长。

在现场，每个选项都各有拥趸，但OpenAI今日公布了准确答案：20天。

AI视频生成真正的难点是在文生视频，而非图生视频、视频生视频。各中奥妙在于，文生视频，需要根据指令，从文字解码出视频的时空逻辑，同时保证在这一逻辑下，画面中所有物体的运动、变化，符合要求，符合现实世界规律。而图生视频、视频生视频，皆有“照猫画虎”的意味，因此反倒要简单一些。这也是为什么，市面上的AI视频生成，始终停留在2-4s的时长范围内——一旦超过了这个时长，视频的可控性和质量都将大大下降。

很多视频生成，更像是个固定人物配上动态背景，画面很单调，几乎没什么动作，这也是因为从文字到视频，在时空逻辑推理层面的局限。同时，很多企业更关注所谓AI视频生成的产品化、商业化，聚焦于推出一些基于模板，快速用于营销的视频生成工具，在世界模型层面有所欠缺，一旦视频时长增加，模型不能理解真实的物理运动和相互作用逻辑，变得十分无力。

OpenAI的Sora，就是在文生视频，增加视频时长，建立世界模型，这几大最主要的难点上，走出了突破性的一步。但这并不代表Sora没有问题，可以以假乱真，当下最违和的问题在于凭空生成：三只小狗在嬉闹，凭空出现了第四只小狗、第五只小狗；一个人捡起一大块塑料片，凭空出现一把塑料椅子。

另外一类主要问题，在于Sora的世界模型仍然不够完善。比如一个男人倒着跑跑步机，且跑步动作并不连贯自然。或者一个篮球撞在篮筐上，发出符合物理规律的弹跳，然而下一秒就撞破了篮网，发生爆炸。一群考古学家，在沙漠里挖出一个塑料椅子，煞有介事的清理灰尘，而椅子本身则在诡异的漂浮和变形。

世界模型一直处于一个相当狭窄的研究领域，这概念研究难度大，目标太高，带有相当的学术色彩，因此一度参与者寥寥。

值得一提的是，Meta首席人工智能科学家、图灵奖得主杨立昆（Yann LeCun）本人，尽管在Meta的生成式AI落后问题上，正承受着巨大的压力，但其却是世界模型构想的主要提出者。

杨立昆一向对生成式AI的幻觉和一系列反智行为嗤之以鼻，并认为AI只有真正理解物理世界，才具备真正的价值，断言GPT模型活不过五年。他在2023年6月基于自己的构想，推出了I-JEPA模型，用真实世界的背景知识，补充图像缺失的片段，但这仍然是个技术研究层面的概念。

2023年12月，AI视频生成的领头羊之一Runway，官宣下场通用世界模型，高调发布系列招聘，宣称要用生成式AI来模拟整个世界，以应对Pika的步步紧逼。

这是一个信号，或许在杨立昆看来，局面一度在向着好的方向发展：自己的研究方向得到认同，拖累Meta的谣言不攻自破。

可这快乐还没持续三个月，啪，没了。

Sora革了谁的命？

Sora发布前，有很多烟雾弹式的讯息更新，比如：OpenAI组建研究儿童安全的新团队、OpenAI正准备推出GPT-4.5-turbo，但真正的“杀手级更新”被隐藏的很好，这也导致像Pika、Runway一样的明星创业公司，措手不及。何况OpenAI的联合创始人Andrej Karpathy本来就是Pika的资方之一。

源码资本副总裁李露霖在虎嗅主办的沙龙上表示，短视频是当前硬件基础设施MassMarket渗透率最高的形态。

有数据透露，目前国内短视频用户的规模在10亿以上，有数据称抖音2022年年收入700亿美金以上，快手也在900亿人民币以上。不过面对这样一个市场，在Sora发布前，所有的视频生成工具，均没有达到可付诸商业或工业化生产的水平。

有专家对虎嗅表示，大厂目前对于AI视频生成的态度相当模棱两可。根本问题在于，现在的人工视频生成效果更好，且成本也能接受，AI视频生成，在此前没有大家想象的那么颠覆，所以整体策略偏向“防御”，而非“进攻”。

这一切，既麻痹了像Pika、Runway一样的创业公司，让他们以为机会已至、前景够好；也让这些公司及其投资人，低估了视频生成赛道的竞争烈度，以为窗口期仍然足够长。

所有的AI视频生成公司，在这种麻痹里，都陷入了同质化竞争：过多关注更高画质、更高成功率、更低成本，而非更大时长以及世界模型。

Pika、Runway、Meta，大体都是如此，在时长不超过4s的范围内，可以做到画质极度精美，但物体本身的运动幅度极低，且会变形。

国内的字节跳动，反倒是其中的另类。在视频领域，字节的嗅觉更加敏锐。2023年11月，字节跳动发布PixelDance，通过上一个视频片段尾帧，为下一个视频片段头帧提供指导的思路，在视频时长上有所突破，但截止到发稿时间，仍然没有开放用户测试。

接下来在资本市场的影响，很可能是隐性的。Pika创始团队曾被打上“学霸”、“完美”等标签，并在2023年11月底完成5500万美元融资，可下一轮的资本将在怎样的时间点，以什么样的数额进入？Runway 2023年5月完成1.41亿美元融资，但主攻世界模型的团队还在组建中，下一步融资的节奏也存疑。

如果说Pika、Runway身上还有布局价值，那么对于国内AI出海的企业而言，形式（此处应为“形势”——哈希力量校准）将变得更加艰难。换句话说，从移动时代迁移至今的、基于场景和产品能力，快速上线一个插件的商业模式，正在海外AI市场失效——

因为像OpenAI这样的企业，正屹立在市场上。他们几乎重现了当年Oracle市场领导力，一步快，步步快，降维打击所有竞争者。对于所有做模式、赶风口的机会主义创始人而言，巨头若要杀死你，恐怕也只会发生在一夜之间。

（文中小视频未收录）

https://www.huxiu.com/article/2676836.html

收录来源链接或附上。内容并不代表投资建议。

本文收录后固定可引用URL链接

http://www.haxililiang.com/huodong/luyan/36424.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库