2. 精准传递"scanning background"/>
加州大学河滨分校马兰和罗斯玛丽·伯恩斯工程学院电气与计算机工程教授Amit Roy-Chowdhury及其博士生Rohit Kundu与谷歌科学家合作,开发了一种能检测视频篡改的人工智能模型——即使篡改内容远超换脸和篡改语音。(Roy-Chowdhury同时担任河滨分校新兴跨学科研究中心——加州大学河滨分校人工智能研究与教育(RAISE)研究所的联合主任。)
他们名为"通用篡改与合成视频识别网络(UNITE)"的新系统通过分析完整视频帧(包含背景和运动模式)而非仅人脸来检测伪造痕迹。该分析方法使其成为首批能识别不依赖人脸内容的合成或篡改视频的工具之一。
"深度伪造技术已升级,"Kundu表示,"不再局限于换脸。人们现在使用强大的生成式模型制作从头到尾完全伪造的视频——从人脸到背景。我们的系统正是为捕捉所有这些伪造痕迹而设计。"
UNITE的开发正值文本生成视频和图像生成视频技术在线普及之际。这些AI平台使几乎任何人都能制作高度逼真的伪造视频,对个人、机构和民主制度构成严重威胁。
"这些工具的普及程度令人不安,"Kundu指出,"具备中等技能者就能绕过安全过滤器,生成公众人物发表从未有过言论的逼真视频。"
Kundu解释说,早期深度伪造检测器几乎完全聚焦于面部特征。
"若画面中无人脸,多数检测器直接失效,"他表示,"但虚假信息形式多样。篡改场景背景同样能轻易歪曲事实。"
为此,UNITE采用基于Transformer的深度学习模型分析视频片段,检测细微的空间和时间不一致性——这些线索常被先前系统忽略。该模型基于名为SigLIP的基础AI框架,可提取不限于特定人或物体的特征。名为"注意力多样性损失"的创新训练方法促使系统监控每帧中的多个视觉区域,避免其仅聚焦人脸。
由此诞生的通用检测器能识别各类伪造内容——从简单换脸到完全使用生成式AI制作、不含任何真实素材的复杂合成视频。
"单一模型即可应对所有这些场景,"Kundu强调,"这正是其通用性的核心所在。"
研究团队在田纳西州纳什维尔举行的顶级学术会议——2025年计算机视觉与模式识别会议(CVPR)上公布了研究成果。由Kundu领衔发表的论文《迈向通用合成视频检测器:从人脸/背景篡改到全AI生成内容》阐述了UNITE的架构与训练方法。合著者包括谷歌科学家Hao Xiong、Vishal Mohanty和Athula Balachandra。由IEEE计算机协会和计算机视觉基金会联合主办的CVPR是全球最具影响力的科学发布平台之一。
得益于Kundu实习期间建立的谷歌合作,项目获得了训练模型所需的海量数据集和算力资源,使其能处理各类合成内容(包括文本或静态图像生成的视频)——这些格式常使现有检测器失效。
虽然仍在开发阶段,UNITE有望在防御视频虚假信息领域发挥关键作用。潜在用户包括社交媒体平台、事实核查机构及新闻编辑部,这些机构正致力阻止篡改视频的病毒式传播。
"人们有权知晓所见内容的真实性,"Kundu郑重表示,"当AI日益擅长伪造现实时,我们必须更精于揭示真相。"
Story Source:
Materialsprovided byUniversity of California - Riverside.Note: Content may be edited for style and length.
Journal Reference:
Rohit Kundu, Hao Xiong, Vishal Mohanty, Athula Balachandran, Amit K. Roy-Chowdhury.Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content.arXiv, 16 Dec 2024 DOI:10.48550/arXiv.2412.12278
2025-08-31
2025-08-31
2025-08-31
2025-08-31
2025-08-31