【小哈划重点:大模型的解决方案是准备一个视频格式的“世界知识库”,这个知识库的最小单位是“三维时空碎片”,英文叫做“Spacetime Patches”,形象来说就是“时空马赛克”。每一块马赛克都是活体动画块,物理意义上,既有长宽高这样的体积标准,也有随时间演进而动态变化的形状尺度。】
这个世界上,时不时能让全人类“哇哦”一下的东西,可能也就剩下人工智能了。这不是嘛,哇哦,Sora:
一年多前,GPT-3的横空出世可以说真正奠定了大模型时代。从中我们看到的可能性是,文本撰写者的工作将有可能被大模型以“多快好省”的方式全方位取代。此外,Open AI的另一项技术DALL-E也大放异彩,揭开了“文生图模式”的大幕——给出提示文字,获得表达文字含义的图片。这一次,Sora带给我们的是足足60秒钟具有故事连贯性的高清视频,这就达到了“文生剧”的新境界了。
怎么做到的?
简单来讲,想要达到“文生剧”的程度,得具备几个方面的能力:其一,机器得具有解读并延展提示文本的能力(为什么必须“延展”呢?因为现在模型还至多只能理解130个字的意思,当然未来是有拓展潜力的);其二,机器得有建构剧情视频的“材料”,也就是音画素材,当然音和画可以分开处理,首当其冲的重点是连续画面,也就是视频,而视频是有时间箭头的;其三,得有一套编织故事情节的机制,且需要保持连贯性,角色和场景的演化应该逻辑化自然迭进,不能随机乱入。
针对第一个问题,大模型的解决方案是“Diffusion模型”,可以称之为“文本条件化模型”,它的工作原理是根据人类给出的提示主题来迭代最终视频输出的蓝图,相当于拼图的轮廓,这个轮廓一开始可能很模糊,但经过很多次迭代以后就会变得越来越清晰,直到栩栩如生。而迭代的依据,就来自于对人类提示文本的意义解读以及合乎逻辑的演绎。
针对第二个问题,大模型的解决方案是准备一个视频格式的“世界知识库”,这个知识库的最小单位是“三维时空碎片”,英文叫做“Spacetime Patches”,形象来说就是“时空马赛克”。每一块马赛克都是活体动画块,物理意义上,既有长宽高这样的体积标准,也有随时间演进而动态变化的形状尺度。你可以想象成是,用一个大布袋子装了一大堆大小不一、形状各异的马赛克,而这个布袋子就是世界知识库。
接下来就该“导演”上场了,承担这一角色的是大名鼎鼎的“Transformer模型”,顾名思义,这是一个转换器,这个转换器是经过预训练生成的,它搭配上前面提到的Diffusion模型,就能识别每块马赛克的内容,并根据给定的文本提示进行相应的修改。举例来讲,如果文本提示是“佛罗伦萨大街上行走的旅客”,那么模型就会从世界知识库中挑出与“佛罗伦萨”、“大街上”和“行走的旅客”相关的马赛克,并相应调整这些马赛克,以生成与文本提示相匹配的视频内容。
如此一来,随着提示文本的继续读入,Sora就可以咔咔生成视频内容了。当然,现在Sora的潜力还远没有完全发挥出来,一方面的原因是世界知识库的规模还不够丰富,导致其对物理世界的理解还存在很大的局限性,尤其是对于物理世界中细微场景,Sora还缺乏再现能力,做不到极致的“栩栩如生”,倘若它把现在网络空间里所有的视频内容都看上一遍,那么Sora就能建立起最完备的世界知识库了;另一方面,时间尺度还有待进一步突破,现在的60秒已经非常难得,因为视频的时间推进一旦拉长,那么保持人物、场景与情节的连贯性和逻辑一致性就会困难陡增,这是“演进复杂性”所致,这方面也还需要很多研发努力。
即便存在诸多局限,但60秒的高清视频已经足以承载大量的信息,稍稍努力就可以演变成“微短剧”的模式,当然应付短视频已经绰绰有余了。所以,从这个角度来讲,Sora正在摧毁的不是好莱坞,也不是横店,很可能首当其冲的是“竖店”(竖屏短视频内容)。
结论:The more I invent you,the more I re-invent myself……