Sora震撼来袭，AI动画以假乱真了吗？专家：仍存硬伤

近日，博主“AI疯人院”在网络上发布了一部利用AI技术生成的《西游记》动画短片。短片中展现了错落有致的宫殿群、郁郁葱葱的花果山，还有山间云卷云舒、山石崩裂等动画画面，令众多网友赞叹不已。这段短片利用了AI规划分镜并绘制图片，再辅以“图片生产视频”软件让图片“动起来”。视频作者冯先生在接受媒体采访时表示，这段视频如果人工制作至少需要半年，而自己在AI的帮助下用时一周就完成了。

值得一提的是，上述动画短片并非由AI直接生成，在动作画面上也有局限性，无法实现复杂的打斗场景。然而，短视频生成模型Sora的问世，让AI根据指令直接生成复杂逼真的动画成为可能。

北京时间2月16日凌晨，Sora“横空出世”。这是OpenAI推出的一款能根据文字指令即时生成短视频的模型。OpenAI曾在2022年11月30日发布名为ChatGPT的全新聊天机器人模型，开启了AI新时代。此番，OpenAI强势推出又一王炸Sora，将带来哪些改变？

谈及OpenAI开年的这一震撼级发布，多名业内专家在连线中向南都记者表达了一个共识，即目前的Sora功能让人眼前一亮，但仍未完全进化。

眼见不再“为实”

深度生成视频以假乱真，AI监管迎新挑战

2月16日，OpenAI宣布推出文生视频大模型“Sora”，迅速引发AI圈的关注。Sora展示的全新影像画面精细生动，远胜于此前生成式AI所生产的动画内容。这款模型不仅能理解用户的要求，还了解物体在物理世界中的存在方式。

中国人工智能产业联盟安全治理委员会专委会副主委、浙江大学教授潘恩荣认为，生成式AI从文本到图像再到视频，是一个快速发展的过程。从目前Sora官方所发布的样片来看，其强大的图像视频生成能力在某种程度上确实能达到以假乱真的效果。虽然客观实践并不会因人工智能变得虚幻，但是人的认知发生了改变。

“可以认为我们改变了一些传统的观念，比方说‘眼见为实’。”潘恩荣告诉南都记者，这也会带来社会生活的一系列问题，例如视频证据要如何举证，如何证明视频证据的有效性等。“所以从人的认知的角度来讲，这个‘真实’就不存在了。”

Sora问世前，已经出现过多起不法分子利用AI技术伪造视频诈骗的事件。今年年初，有诈骗分子用AI假造香港特首李家超和马斯克的视频向香港市民推介一项投资计划。为此，1月24日香港特区政府紧急发布新闻公告，严正澄清。去年2月，浙江省一派出所接到报案。诈骗分子截取陈先生好友“阿诚”在社交平台已发布的视频，利用“AI换脸”技术，用合成的新视频假冒好友与陈先生聊天，从而实施诈骗。

Sora如果实现大规模推广，将大大降低普通人利用AI合成高质量视频的难度。据中国科学院信息工程研究所正高级工程师韩冀中介绍，Sora应用的技术与此前的深度伪造技术相互承接，又有所不同。深度伪造技术引起公众注意是从2018年开始的，当时的人脸“换脸”技术主要是基于GAN（生成式对抗网络）。后来，Transformer和扩散模型被成功用在文本生成图片和语音生成任务中，出现很多开源软件及成熟的工具平台。普通人简单学习之后就可以很快掌握并生成多媒体，比如让“孙燕姿”唱歌、“郭德纲”说英文等，技术的进步大大降低了普通大众进行自媒体创作的门槛。

在此前技术的基础上，Sora采用Transformer与扩散模型结合的技术路线，能够生成长达1分钟的高清视频，视频中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。“Sora相比于之前Runway、Pika等的文生视频产品，生成的视频内容在三维空间的一致性、在时间上的连贯性上都取得很大的进步。”

鉴于Sora生成的视频内容高度逼真，韩冀中指出，基于Sora的虚假信息传播可能在国际冲突、国内政治、社会、经济安全等领域带来新的挑战。目前，国内外互联网平台在内容审核上都建立了针对政治谣言、色情、暴恐类信息的检测机制。因此，互联网内容无论是不是伪造合成的，带有明确特征的不当内容都能被较为有效地甄别和拦截。但是，对于难以判断真假的信息，尤其是涉及热点舆情与名人明星的信息，在第一时间进行深度分析与研判，及时阻断其传播，依然有许多问题需要解决。随着未来AI生成内容越来越多，网络上将存在大量合成的文字、图片和视频，伪造合成的不一定是有害的，这就不仅需要在技术上改进，也需要建立更加完善的综合治理体系，才能有效实现安全防御。

科技跨越式发展？

应用场景有限，且仍有硬伤

其实，AI实现文字生成视频并不是新鲜事。韩冀中告诉南都记者，Diffusion网络的提出，催生了跨模态内容生成，使AI可以用文字生成视频，虽然生成的水平不及Sora。

而且，目前Sora的应用场景还很有限。“生成式AI从文本到影像世界，还没有到跨越式发展的程度。”腾讯机器学习平台部专家工程师姚军指出，目前Sora可以用来解决一些创意辅助的场景，但是不够可靠，所以应用的场景是受限的。

同时，目前官方也公布了一些Sora的“硬伤”。姚军解释道，因为其模型不是依靠内在的物理仿真引擎，所以所生成的视频常常显得“不可靠”，会出现不符合真实物理规律的地方，这是当下这类依赖大规模数据驱动的大规模参数模型迭代的技术思路难以根除的问题。

根据韩冀中的介绍，针对视频生成模型是否构建通用物理世界模拟器的一条有前景的道路,在学术界依然有不同观点。比如Meta的Yann Lecunn在Sora推出之前，就一直认为LLM（大型语言模型）不是世界模型的正确路径。“从Sora发布的一些失败视频中，也看到目前Sora对物体交互场景的理解还有缺陷。”

近两年可实现AGI？

“过于乐观，但Sora大规模推广在望”

针对此次Sora所带来的讨论，360创始人周鸿祎在社交网络上也分享了自己的看法。他认为，Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。

谈到Sora最大的优势，周鸿祎表示，以往文字视频软件都是在2D平面上对图形元素进行操作，可以把视频看成多个真实图片的组合，并没有真正掌握这个世界的知识。但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况，“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube和TikTok的视频都看一遍，对世界的理解将远远超过文字学习。一幅图胜过千言万语，而视频传递的信息量又远远超过一张图，这就离AGI真的不远了，不是10年20年的问题，可能一两年很快就可以实现。”

然而，在业内专家看来，认为AGI能在一两年内实现的观点过于乐观。姚军表示，“从原理上不难得出，这类模型不具备世界模型，没有真正的一套知识框架内核，只是依赖数据中体现的‘大数原理’，与现实世界有一定的重合，但远达不到‘世界模型’的门槛。”

潘恩荣也认为，AGI在一两年内实现不能作为一种真实的预测。“因为我们讲的通用人工智能往往指的是‘人’作为主体所作用的能力，然而现在人工智能能实现的事情，更像是‘物’的能力。”

对于公众何时能够大规模使用此类产品，姚军告诉南都记者，“预计很快。”姚军表示，在未见到严肃论文的情况下，仅凭感觉目前Sora是在吸取了很多LLM和文生图的迭代经验，部分解决了训练数据的约束，据说是用到了游戏引擎生成的视频数据，同时，由于传闻该模型的规模并不大，所以其成果预计可以很快进行应用落地。

但不论如何，有一件事毋庸置疑，模型后续效果的优化速度会越来越快，就像当时文生图技术出现后一样，一个季度一次升级，一年一个大变样。

采写：实习生陈奕帆南都记者吕虹