通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 基础科学

Google's deepfake hunter sees what you can’t—even in videos without faces

本站发布时间:2025-08-01 22:10:18
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

加州大学河滨分校玛兰与罗斯玛丽·伯恩斯工程学院的电气与计算机工程学教授Amit Roy-Chowdhury及其博士生Rohit Kundu与谷歌科学家合作,开发了一种能检测视频篡改的人工智能模型——即使篡改手段远超换脸和修改语音(Roy-Chowdhury同时兼任加州大学河滨分校人工智能研究与教育(RAISE)研究所联合主任,该研究所是校内新成立的跨学科研究中心)。

他们名为"通用篡改与合成视频识别网络"(UNITE)的新系统通过分析完整视频帧(包括背景和运动模式)而非仅限于人脸来检测伪造内容。这项分析使其成为首批能识别不依赖面部内容的合成或篡改视频的工具之一。

"深度伪造技术已升级换代,"Kundu表示,"不再局限于换脸。人们正利用强大的生成模型制作从头到尾完全伪造的视频——从面部到背景。我们的系统正是为捕捉所有这类伪造而设计。"

UNITE的研发正值文本转视频和图像转视频技术在线广泛普及之际。这些AI平台使几乎任何人都能伪造极具欺骗性的视频,对个人、机构乃至民主制度构成严重威胁。

"这些工具的易得性令人不安,"Kundu指出,"稍有技术者就能绕过安全过滤器,生成公众人物发表从未有过的言论的逼真视频。"

Kundu解释道,早期的深度伪造检测器几乎完全专注于面部特征。

 

"若画面中无人脸,多数检测器直接失效,"他说,"但虚假信息形式多样。篡改场景背景同样能轻易歪曲事实。"

为解决此问题,UNITE采用基于Transformer的深度学习模型分析视频片段。它能检测细微的空间与时间不一致性——这些线索常被先前系统忽略。该模型依托名为SigLIP的基础AI框架,可提取不特定于人/物的特征。创新的"注意力多样性损失"训练法促使系统监控每帧中的多个视觉区域,避免其仅聚焦人脸。

由此诞生的通用检测器能标记各类伪造内容——从简单的面部替换到完全无真实素材的复杂合成视频。

"单个模型即可应对所有场景,"Kundu强调,"这正是其通用性的核心所在。"

研究人员在田纳西州纳什维尔举行的2025年计算机视觉与模式识别会议(CVPR)上展示了成果。由Kundu领衔发表的论文《迈向通用合成视频检测器:从面部/背景篡改到全AI生成内容》阐述了UNITE的架构与训练方法。合著者包括谷歌研究员Hao Xiong、Vishal Mohanty和Athula Balachandra。由IEEE计算机学会与计算机视觉基金会联合赞助的CVPR是全球最具影响力的科学出版平台之一。

与谷歌的合作(Kundu曾在此实习)提供了海量数据集和计算资源,使模型能基于各类合成内容进行训练,包括文本或静态图像生成的视频——这些格式常使现有检测器失效。

虽仍处开发阶段,UNITE有望在防御视频虚假信息领域发挥关键作用。潜在用户包括社交媒体平台、事实核查机构及新闻编辑部,这些机构正竭力阻止篡改视频的病毒式传播。

"公众有权知晓所见是否真实,"Kundu郑重表示,"当AI伪造现实的能力日益精进,我们必须更擅于揭示真相。"

Story Source:

Materialsprovided byUniversity of California - Riverside.Note: Content may be edited for style and length.

Journal Reference:

Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury.Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.arXiv, 16 Dec 2024 DOI:10.48550/arXiv.2412.12278

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号