加州大学河滨分校(UCR)伯恩斯工程学院电气与计算机工程教授 Amit Roy-Chowdhury 和博士研究生 Rohit Kundu 与谷歌科学家合作,开发了一种人工智能模型,专门检测视频篡改——即使篡改手段远超换脸和修改语音。(Roy-Chowdhury 同时兼任 UCR 新成立的跨学科研究中心——加州大学河滨分校人工智能研究与教育(RAISE)研究所的联合主任。)
他们的新系统名为“通用篡改与合成视频识别网络(UNITE)”,通过分析完整视频帧(包括背景和运动模式)而非仅面部特征来检测伪造内容。这一分析方式使其成为首批能够识别不依赖于面部内容的合成或篡改视频的工具之一。
"深度伪造技术已经进化了," Kundu 表示。"不再仅限于换脸。如今人们正利用强大的生成式模型创建完全虚假的视频——从面部到背景。我们的系统就是为捕捉所有这些而构建的。"
UNITE 的研发正值文生视频和图生视频技术在网络上广泛普及之际。这些 AI 平台使几乎任何人都能伪造极具欺骗性的视频,给个人、机构和民主制度本身带来严重风险。
"这些工具的普及程度令人担忧," Kundu 说。"具备中等技能的人都能绕过安全过滤器,生成公众人物说他们从未说过的话的逼真视频。"
Kundu 解释道,早期的深度伪造检测器几乎完全集中于面部线索。
"如果画面中没有脸部,很多检测器就完全失效了,"他说。"但虚假信息可以多种形式出现。篡改场景背景同样能轻易歪曲事实。"
为解决此问题,UNITE 采用基于 Transformer 的深度学习模型分析视频片段。它能检测细微的空间和时间不一致性——这些线索常被先前的系统忽略。该模型基于名为 SigLIP 的基础 AI 框架,可提取不限于特定人物或物体的特征。一种名为‘注意力多样性损失’的新型训练方法,驱使系统监测每帧中的多个视觉区域,防止其仅专注于面部。
最终成果是一个通用检测器,能够标记各类伪造内容——从简单的换脸到完全无需真实素材生成的复杂合成视频。
"这是一个能处理所有场景的单一模型," Kundu 说。"这正是其通用性所在。"
研究人员在田纳西州纳什维尔市举行的顶级会议——2025 年计算机视觉与模式识别大会(CVPR)上公布了研究成果。由 Kundu 领衔撰写的论文题为《迈向通用合成视频检测器:从面部或背景篡改到全 AI 生成内容》,文中详述了 UNITE 的架构与训练方法。合著者包括谷歌研究员 Hao Xiong、Vishal Mohanty 和 Athula Balachandra。IEEE 计算机学会和计算机视觉基金会联合赞助的 CVPR 是全球最具影响力的科学出版物发布平台之一。
通过与 Kundu 曾实习的谷歌合作,研究者获得了海量数据集和计算资源,得以在广泛的合成内容(包括文本或静态图像生成的视频)上训练模型——这些格式常使现有检测器失效。
尽管仍在开发中,UNITE 可能很快在抵御视频虚假信息方面发挥关键作用。潜在用户包括社交媒体平台、事实核查机构及新闻编辑室,它们致力于阻止篡改视频的病毒式传播。
"人们有权知晓所见是否为真," Kundu 强调。"随着 AI 伪造现实的能力日益增强,我们必须更擅长揭示真相。"
Story Source:
Materialsprovided byUniversity of California - Riverside.Note: Content may be edited for style and length.
Journal Reference:
Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury.Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.arXiv, 16 Dec 2024 DOI:10.48550/arXiv.2412.12278
2025-08-02
2025-08-02
2025-08-02
2025-08-02