通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 信息科技

Google's deepfake hunter sees what you can’t—even in videos without faces

本站发布时间:2025-08-22 11:10:42
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

加州大学河滨分校电气和计算机工程教授阿米特·罗伊-乔杜里与博士生罗希特·昆杜,均来自该校马兰与罗斯玛丽·伯恩斯工程学院,共同与谷歌科学家合作开发了一种人工智能模型,用于检测视频篡改——即使在篡改远超面部交换和语音修改的情况下也能识别。(罗伊-乔杜里也是加州大学河滨分校新成立的跨学科研究中心——河滨人工智能研究与教育(RAISE)研究所的共同主任。)

他们的新系统名为通用篡改和合成视频识别网络(UNITE),通过检测不仅仅是面部,而是整个视频帧(包括背景和运动模式)来识别伪造。这种分析使其成为首批能够识别不依赖面部内容的合成或篡改视频的工具之一。

“深层伪造已经进化,”昆杜说。“它们不再仅仅是面部交换。人们现在使用强大的生成模型创建完全虚假的视频——从面部到背景。我们的系统就是为了捕捉所有这些而构建的。”

UNITE的开发正值文本到视频和图像到视频生成在线广泛可用之际。这些AI平台使得几乎任何人都能制造高度逼真的视频,对个人、机构和民主本身构成严重风险。

“这些工具的可达性变得多么可怕,”昆杜说。“任何具备中等技能的人都可以绕过安全过滤器,生成公众人物说他们从未说过的话的逼真视频。”

昆杜解释说,早期的深层伪造检测器几乎完全专注于面部线索。

 

“如果画面中没有脸,许多检测器根本不起作用,”他说。“但虚假信息可以以多种形式出现。篡改场景背景同样可以轻易扭曲真相。”

为了解决这个问题,UNITE使用基于Transformer的深度学习模型来分析视频片段。它检测细微的空间和时间不一致性——这些线索经常被之前的系统忽略。该模型基于名为SigLIP的基础AI框架,该框架提取不绑定于特定人或对象的特征。一种名为“注意力多样性损失”的新型训练方法促使系统监控每一帧中的多个视觉区域,防止其仅专注于面部。

结果是一个通用检测器,能够标记一系列伪造——从简单的面部交换到复杂的、完全合成的视频,这些视频没有任何真实素材生成。

“这是一个模型处理所有这些场景,”昆杜说。“这就是它的通用之处。”

研究人员在田纳西州纳什维尔举行的2025年计算机视觉与模式识别会议(CVPR)上展示了他们的发现。该论文题为“迈向通用合成视频检测器:从面部或背景操控到完全AI生成的内容”,由昆杜领导,概述了UNITE的架构和训练方法。合著者包括谷歌研究人员熊浩(Hao Xiong)、维沙尔·莫汉蒂(Vishal Mohanty)和阿图拉·巴拉钱德拉(Athula Balachandra)。由IEEE计算机协会和计算机视觉基金会共同赞助,CVPR是世界上最高影响力的科学出版物场所之一。

与谷歌的合作(昆杜曾在那里实习)提供了访问广泛数据集和计算资源的途径,这些资源用于在广泛的合成内容上训练模型,包括从文本或静止图像生成的视频——这些格式经常难住现有的检测器。

尽管仍在开发中,UNITE可能很快就会在防御视频虚假信息方面发挥关键作用。潜在用户包括社交媒体平台、事实核查机构和新闻编辑室,它们致力于防止篡改视频传播。

“人们有权知道他们所看到的是否属实,”昆杜说。“随着AI在伪造现实方面变得更好,我们必须变得更好以揭示真相。”

Story Source:

Materialsprovided byUniversity of California - Riverside.Note: Content may be edited for style and length.

Journal Reference:

Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury.Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.arXiv, 16 Dec 2024 DOI:10.48550/arXiv.2412.12278

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号