骗人还是文字强!MIT最新研究:DeepFake换脸还不如编辑动动笔
【新智元导读】最近MIT的一项研究展示,费时费力的DeepFake换脸大法甚至还不如单纯的文字假消息能唬人。
DeepFake,自面世以来就被列为了潜在的「坏AI」。不论是闻名的「加朵换头色情片」,还是各种用DeepFake变声的银行转账骗局,DeepFake的相关消息似乎都摆脱不了负面背景。不过MIT的最新研究表明,伪造文字信息的破坏力要远高过伪造的图片或视频。这与传播领域的旧看点相反,过往学界认为当同一版本的内容以视频而不是文本形式显现时,人们会更轻易被假消息哄骗。
DeepFake还是太「年轻」
超现实视觉效果技术的最新进展引发了人们的担忧,即政治演讲的DeepFake视频很快将与真实的视频在视觉上无法区分。
然而,视听信息如何影响人们对假消息的易感性,针对此项目的实证研究很少。
最近,MIT媒体实验室的科学家向5727人展示了16篇真实的政治演讲片段和16篇被DeepFake加工篡改过的演讲片段。
声音片段以文本、视频和音频的排列形式显现,例如带有字幕的视频等。
展开全文
受试者被告知其中一半的内容是假的,并被询问他们认为其中哪些片段是伪造的。
在仅展示文本时,受访者在识别谎言(57%的正确率)方面仅比随机推测好一点。
当给出带字幕的视频时,受访者的推测更正确(66%),而在同时展示视频和音频时更成功(82%)。
也就是说,受试者在看看视频或听音频时比阅读文字笔录时更能识别事件是否真的发生。
这些发现还表明,普通人有时(但并非总是)能够识别出由DeepFake同步变造产生的视觉失真效果。
受试者在带音轨视频上的推断率比无声视频更正确、在无声视频上的推断率又比文字更正确,是因为影、音、文字三种载体中,影、音除了内容本身,还有说话人的各种微小表情、动作、语音模式等方面的细微差异。
假如旁看者无法看察这些细微差异,光从书面文字上判定何为真实演讲、何为AI生成,正确率是只能达到一半一半的抛硬币程度。
不过此研究有明显局限:研究者生成的DeepFake素材并不是真实性超级出众的。
研究者自己都警告:「真正危急的伪造视频,可能并不是普通算法随便生成的DeepFake视频,而是经过精加工、极引人进信的单一视频。」
总统DeepFake数据集中的32个视频
在当下时局中,这一警示尤有现实意义。公众一直在怀疑东欧冲突中的一方会制造另一方总统公布投降的DeepFake视频。
这些担忧可以理解,不过当下散播的各种假消息还几乎没用到DeepFake技术。
按《今日美国》事实核查组的成员称,在动荡时局中,造假者搜索、剪裁旧的影音素材,安上时下新消息的名目再贴出,这种造假行为的难度比DeepFake低多了。
当然,这并不意味着DeepFake没有危急。
只不过更原始的哄骗技术可能威逼更大。
弥补实验
与不同演讲和模式条件下正确性的高变异性相比,受试者的确信程度转变较小。
在文字笔录中,受试者的平均确信度为81%。在视频和音频显现的演讲上,受试者的确信度分别提高了6%和9%。假如把所有内容都提给予受试者,则可以让确信度提高12%。
也就是说当受试者通过视频和音频接收到更多的信息时,受试者的加权正确性、确信度、对伪造的演讲的辨认力和对真实演讲的辨认力都会平均增加。
不过,研究人员发现字幕似乎对结果并没有明显的影响。
受试者反应时间的中位数是24秒,比视频的平均长度长3秒。无声的、有字幕的视频的反应时间中位数是31秒,比其他所有模式条件的反应时间略长。
在所有7种模式条件下,受试者对伪造内容的反应时间比真实内容要短。其中,文字、视频和音频分别为3.8秒、2.5秒和3.7秒。
此外研究人员发现,相对于所有其他模式的条件,受试者对识别文字笔录的真实性有更大的偏差。
下图a展示,受试者对文字稿的正确度大多低于无声的字幕视频。同样地,c展示受试者对有声视频的正确率始终高于无声字幕视频。与此相反,b展示了受试者在有字幕和无字幕的情状下表现的异质性。
受试者对32个演讲中的每个演讲的文字笔录、无声视频和有声视频推断的正确性
总的来说,信息载体的确影响辨认正确性:受试者在推断有音频的视频时,比无声视频更正确;在推断无声视频时,比文本笔录更正确。同时,研究者发现受试者更多地依靠于说话人的语言方式、微表情、动作等视听线索,而非内容本身来推断。
评估伪造和非伪造演讲之间的这种难度上的不对称加剧了「说谎者的红利」,即消息会被伪造的普及可能性,会让公众质疑所有消息都是伪造的,从而使撒谎者能够避免对真实的负面新闻负责。
不过,研究者发现当演讲与政治家固有的公众印象不符时,会降低参与者对视觉线索的依靠。演讲者所说的话与受试者对说话者的期看相匹配的程度,被研究者称为「期看违反启发式」。
而且,研究者发现反思性推理会影响受试者依靠视觉信息的程度:受试者「认知反思测试」的低分数,与对视觉线索的依靠不足、对内容的同时过度依靠是正相关的。
用白话说,越笨、越不动脑子的人,越轻易单纯取信于政客演讲的内容,而不看察政客说话时的表情与动作。
如何辨认
MIT的研究人员从100,000个DeepFake视频和19,154个在公开的Kaggle竞赛中,练习了一系列神经网络来检测DeepFake。
依据机器学习模型的表现,研究人员筛选出了3000个最轻易被误判的视频。这些视频不仅仅是机器学习模型难以辨认的,而且对许多人来说也很难辨认真假。
虽然不能靠着单一的线索来辨认哪个是假的,不过可以留意一下以下这8个要点。
注重脸部:DeepFake几乎都是面部改造。注重脸颊和额头:皮肤是否显得太光滑或皱纹过多?皮肤的老化程度是否与头发和眼睛的老化程度相似?DeepFake在某些方面往往是不协调的。请注重眼睛和眉毛:阴影是否出现在应该出现的地方?DeepFake往往不能对真实的物理学进行重现。注重眼镜:是否存在眩光,还是炫光过多?移动时,眩光的角度是否改变?再一次,DeepFake表现出了物理学方面的弱点。注重面部的毛发:看起来是否真实?DeepFake可能会添加或往掉鬓角或胡须,但通常会有违和感。注重面部的痣:看起来真实吗?注重眨眼:次数是否正常还是过多?注重嘴唇的大小和颜色:是否与此人面部的其他部分相匹配?
参考资料:
我来回答