如何知道你正在观看的视频是否是人工智能生成的

file

人工智能公司对视频生成器非常兴奋:他们大肆宣扬这些新模型带来的创意可能性,并陶醉于最终结果的惊人程度。然而,在我看来,一项允许任何人只需简单提示就能创建逼真视频的技术并不好玩,也不令人鼓舞,反而令人感到可怕。你真的想生活在一个网络上的任何视频都可能通过人工智能凭空创造出来的世界吗?不管你喜不喜欢,我们都在朝这个方向发展。

当你给坏人提供工具来操纵视频,使其在很大程度上让许多人,甚至大多数人相信这是真实的,那么你就是在给一直在互联网上燃烧的火焰浇油。现在,比以往任何时候都更重要的是,我们要警惕我们在网上看到的东西,并对任何声称代表现实的视频持批判态度——尤其是当这种现实旨在激怒我们或影响我们对世界的看法时。

AI视频并非都相同

目前,我们确实需要警惕两种AI视频。第一种是完全由AI模型生成的视频,整个序列没有使用任何真实镜头,在生成之前也从未存在过。想想OpenAI的Sora模型,它能够渲染出短小但高质量的视频,很容易让人误以为它们是真实的。幸运的是,Sora仍在开发中,尚未向公众开放,但知情人士可以使用其他工具从头开始生成这些视频。

目前,与AI视频更相关且更令人担忧的短期影响是AI篡改的视频。想想深度伪造(deepfakes):使用AI将一个人的脸叠加到另一个人的脸上,或者将真实的脸部修改为与篡改的音频内容相匹配的真实视频。

我们将介绍如何识别这两种类型的AI视频内容:随着AI视频生成器的不断改进和普及,你可能会像AI图像爆炸式增长一样,开始在网上看到这些视频。保持警惕。

AI视频生成器的工作原理

与其他生成式AI模型一样,AI视频生成器需要输入大量数据才能工作。AI图像模型通过单个图像进行训练,学习识别静态图像上的模式和关系,而AI视频生成器则被训练去寻找多个图像之间的关系,以及这些图像在序列中如何变化。毕竟,视频只是一系列单个图像,以产生运动错觉的速度回放。如果你想让程序凭空生成视频,你不仅需要它们能够生成视频中的主题,还需要知道这些主题应该如何在帧与帧之间变化。

Deepfake程序是专门针对人脸进行训练的,旨在模仿它们所覆盖的视频中的面部动作和表情。它们经常使用生成对抗网络(GAN),该网络将两个AI模型设置为对立面:一个生成AI内容,另一个则试图识别该内容是否为AI生成的。另一方面,像Sora这样的模型在理论上几乎可以生成你要求它生成的任何视频。Sora是一种所谓的扩散模型,它会在训练数据中添加“噪声”(实际上是静态),直到原始图像消失。从这里开始,该模型将尝试从噪声中创建该数据的新版本,从而训练它从头开始创建新内容。

全面的AI视频生成技术仍处于起步阶段,尽管Deepfake技术已经相当不错,但仍有待提高。目前这些技术可能存在的局限性在未来的迭代中可能会得到解决,但就目前而言,你可以通过观察一些线索来判断你正在观看的视频是真实的还是被篡改的。

面部表情看起来不自然

将一个人的脸叠加到另一个人脸上的技术令人印象深刻,但远非完美。在许多(如果不是大多数)情况下,深度伪造都会有明显的伪造迹象。它通常看起来像是拙劣的Photoshop作品:脸部不会与人的头部其他部位融为一体,光线与场景设置不匹配,整体给人一种诡异的感觉。

如果你正在观看一位知名人士说或做一些有争议的事情的视频,请仔细观察他们的脸:这里是否有AI的参与?这段“奥巴马总统”说荒谬之事的视频就展示了一些瑕疵。这个深度伪造视频是六年前制作的,但它展示了一些这种AI篡改视频所特有的明显视觉瑕疵。

口型与语音不匹配

同样,当前深度伪造技术的另一个缺陷是,它很难将伪造的脸部口型与基础语音相匹配——尤其是如果语音也是人工合成的。

看看去年安德森·库珀(Anderson Cooper)的这段深度伪造视频:这张伪造的脸比上面奥巴马的视频更逼真,但是口型与AI为安德森配制的语音并不匹配:

社交媒体上流传的许多深度伪造视频都制作得非常粗糙,如果你知道自己在寻找什么,就能很容易地看出这是AI的失误。但很多人并不知道,所以他们看到政客说了一些他们不喜欢的话的视频,就会信以为真——或者觉得足够有趣而不去关心。

寻找瑕疵和伪影

与AI图像生成器一样,AI视频生成器也会生成带有奇怪瑕疵和伪影的视频。你可能会注意到,当摄像头向树叶移动时,树叶会闪烁,或者背景中的人在走动时帧率与其他视频部分不同。虽然下面的视频乍一看很逼真,但它充满了这些瑕疵,尤其是在树木上。(此外,请注意,左边路上的汽车总是消失。)

但最糟糕的是深度伪造视频。这些视频往往看起来非常可怕,就好像它们被下载和重新上传了1000次,在此过程中失去了所有保真度。这是有意的,旨在掩盖视频中的瑕疵。如果以4K分辨率呈现,大多数深度伪造视频会立即暴露无遗,因为高分辨率视频会突出显示上述所有瑕疵。但是,当你降低质量时,就更容易隐藏这些瑕疵,因此也更容易欺骗人们相信视频是真实的。

物理规律不符

摄像机将会捕捉到现实世界的真实画面,至少是其镜头和传感器所能捕捉到的部分。而另一方面,AI视频生成器则是基于它之前所看到的内容来创建视频的,但没有任何额外的上下文。它实际上什么都不知道,所以它只能尽其所能地填补空白。这可能会导致AI生成的视频中出现一些奇怪的物理现象。

例如,Sora生成了一段关于阿马尔菲海岸悬崖边教堂的视频。乍一看,它看起来相当令人信服。然而,如果你仔细观察海洋,你会发现海浪实际上是朝着远离海岸的方向移动,这与它们应该移动的方向相反。

生成器还制作了一段表面上看起来很逼真的视频,视频中一个人在跑步机上跑步。这里最明显的问题是,该模型并不完全了解跑步机的工作原理,因此该男子是背对跑步机“向前”跑的。但仔细观察,你会发现该男子的步伐并不正常:就好像他上半身时不时停下来,而下半身却在继续跑。在现实中,这种情况是不可能的,但Sora并不了解跑步的物理原理应该如何运作。

在另一段视频中,“考古学家”在沙漠的沙土中发现了一把塑料椅子,把它拉出来并掸去灰尘。虽然这对模型来说是一个复杂的请求,并且它也渲染出了一些逼真的时刻,但整个过程中涉及的物理现象完全不符:椅子似乎是从空气中出现的,拿着它的人以一种没人会这样拿的方式拿着它,最后椅子还自己飘走了,在视频结尾时完全扭曲成了别的东西。

四肢太多了

制作这段视频内容的AI模型无法理解你应该有多少四肢。它们能识别出四肢在帧与帧之间的移动,但无法完全理解场景中的四肢应该是相同的。

这就是为什么你会在视频中看到手臂、腿和爪子出现和消失。虽然这种情况并不总是发生,但你可以在这个索拉(Sora)的视频中看到它:当“摄像机”追踪女子向前走时,她的左手臂和左侧之间出现了一个第三只手,上下摆动。虽然这很不明显,但这就是AI视频生成器会做的事情。

在这个例子中,请非常仔细地观察这只猫:在视频快结束时,它突然多出了一只爪子,因为模型不理解在现实中这类事情通常不会发生。另一方面,当这名女子在床上翻身时,她的“手臂”似乎变成了床单。

在这个例子中,请非常仔细地观察这只猫:在视频快结束时,它突然多出了一只爪子,因为模型不理解在现实中这类事情通常是不会发生的。反过来,当这位女士在床上翻身时,她的“手臂”似乎变成了床单。

事情就是不合逻辑

多出四肢已经够不合逻辑了,但在AI视频中往往不止这些。再说一次,这些模型实际上什么都不知道:它们只是试图根据训练所用的数据集来复制提示。例如,它们知道阿马尔菲海岸的一个小镇应该有很多石阶,但它们似乎并不理解这些台阶必须通向某个地方。在OpenAI的演示视频中,许多台阶都被随意放置,没有真正的目的地。

在同一个视频中,请注意人群中的“人”。一开始,他们可能看起来像是一群在镇上闲逛的游客,但其中一些游客却凭空消失了。有些看起来像是正在下楼,但他们并没有走那些没有尽头的台阶:他们只是在平地上“下楼”。

你看,对于你在互联网上看到的东西,已经有一段时间需要持保留态度了。你不需要人工智能来编写误导性的博客文章来歪曲事实,也不需要操纵视频片段来按照你想要的方式讲述故事。但AI视频是不同的:不仅视频本身被操纵了,而且整个事情可能从未发生过。我们不得不如此愤世嫉俗地对待互联网(以及更广阔的世界)真是令人遗憾,但当一个简单的提示就能从无到有地制作出一个完整的视频时,我们还能有什么选择呢?