通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 前沿信息

Google's deepfake hunter sees what you can’t—even in videos without faces

本站发布时间:2025-08-01 20:24:37
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

加州大学河滨分校(UCR)玛兰与罗斯玛丽·伯恩斯工程学院电气与计算机工程学教授 Amit Roy-Chowdhury 与博士生 Rohit Kundu 携手谷歌科学家,共同开发了一种能检测视频篡改的人工智能模型——即使篡改操作远超换脸和语音篡改范畴(Roy-Chowdhury 同时兼任 UCR 新成立的跨学科研究中心"河滨人工智能研究与教育研究所 (RAISE)"联合主任)。

这套名为"通用篡改与合成视频识别网络 (UNITE)"的新系统通过分析完整视频帧(包括背景和运动模式)而非仅面部特征来检测伪造内容。该分析能力使其成为首批能识别不依赖面部内容的合成或篡改视频的工具之一。

"深度伪造技术已经进化了," Kundu 表示,"不再仅限于换脸。人们现在利用强大的生成模型制作完全虚假的视频——从面部到背景。我们的系统正是为捕捉所有这些伪造内容而构建。"

UNITE 的研发正值文本到视频和图像到视频生成技术在线广泛普及之际。这些AI平台使几乎任何人都能伪造高度逼真的视频,对个人、机构乃至民主制度本身构成严重威胁。

"这些工具的可及性令人不寒而栗," Kundu 指出,"具备中等技术能力者即可绕过安全过滤器,生成公众人物发表从未有过言论的逼真视频。"

Kundu 解释道,早期的深度伪造检测器几乎完全聚焦于面部特征。

 

"若画面中没有面部,许多检测器根本不起作用,"他说,"但虚假信息可呈现多种形态。篡改场景背景同样能轻易扭曲事实。"

为解决此问题,UNITE 采用基于 Transformer 的深度学习模型分析视频片段。它能检测细微的空间和时间不一致性——这些线索常被先前系统忽略。该模型依托名为 SigLIP 的基础AI框架,该框架可提取不绑定于特定人物或物体的特征。一项称为"注意力多样性损失"的创新训练方法,促使系统监测每帧中的多个视觉区域,避免其仅聚焦于面部。

由此诞生的通用检测器能标记多种伪造内容——从简单的面部替换到完全无真实素材生成的复杂合成视频。

"单一模型即可处理所有这些场景," Kundu 强调,"这正是其通用性的核心所在。"

研究团队在田纳西州纳什维尔举行的顶级学术会议"2025年计算机视觉与模式识别会议 (CVPR)"上公布了研究成果。由 Kundu 领衔的论文《迈向通用合成视频检测器:从面部或背景篡改到全AI生成内容》阐述了UNITE的架构与训练方法。合著者包括谷歌研究员 Hao Xiong、Vishal Mohanty 和 Athula Balachandra。由 IEEE 计算机协会和计算机视觉基金会联合主办的CVPR是全球最具影响力的科学出版平台之一。

通过与Kundu实习单位谷歌的合作,团队获得了训练模型所需的海量数据集和计算资源,使其能学习包括文本生成视频和静态图像生成视频在内的各类合成内容——这些格式常使现有检测器失效。

尽管仍在开发阶段,UNITE 有望在防御视频虚假信息领域发挥关键作用。潜在用户包括社交媒体平台、事实核查机构及新闻编辑部,这些机构正竭力阻止篡改视频的病毒式传播。

"人们有权知晓所见是否真实," Kundu 郑重表示,"当AI更擅长伪造现实时,我们必须更精于揭示真相。"

Story Source:

Materialsprovided byUniversity of California - Riverside.Note: Content may be edited for style and length.

Journal Reference:

Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury.Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.arXiv, 16 Dec 2024 DOI:10.48550/arXiv.2412.12278

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号