通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 信息科技

新的deepfake检测器旨在减少偏差

本站发布时间:2024-01-20 16:01:37

布法罗大学的计算机科学家和deepfake专家Siwei Lyu用数百张被他的检测算法错误地归类为伪造的人脸创建了一张照片拼贴画-新的组合明显具有较深的肤色。

“检测算法的准确性在统计上应该独立于种族等因素,”Lyu说,“但显然许多现有算法,包括我们自己的算法,都继承了一种偏见。”

UB信息完整性中心的联合主任Lyu博士和他的团队现在开发了他们认为是有史以来第一个专门设计的更少偏见的deepfake检测算法。

他们的两种机器学习方法——一种使算法意识到人口统计数据,另一种使算法对人口统计数据视而不见——减少了种族和性别之间的准确性差距,同时在某些情况下仍能提高整体准确性。

这项研究在1月4日至8日举行的计算机视觉应用冬季会议(WACV)上发表,并得到了美国国防高级研究计划局(DARPA)的部分支持。

该研究的资深作者Lyu与他以前的学生Shu Hu博士和陈南飞博士合作,Shu Hu博士现在是印第安纳大学普渡大学印第安纳波利斯分校计算机和信息技术助理教授,而Shu Hu博士则是卡耐基梅隆大学信息系统助理教授。其他贡献者包括闫菊(Yan Ju)和博士后研究员山甲。

该研究的第一作者Ju表示,与人工智能工具相比,检测工具往往没有受到严格审查,但这并不意味着它们也不需要承担责任。

“Deepfakes对社会的破坏性如此之大,以至于研究界急于找到解决方案,”她说,“但即使这些算法是为了一个良好的事业而设计的,我们仍然需要意识到它们的附带后果。”

人口统计意识与人口统计不可知

最近的研究发现,deepfake检测算法的错误率在不同种族之间存在很大差异——一项研究中的差异高达10.7%。特别是,研究表明,一些人比深色皮肤的人更擅长猜测浅色皮肤对象的真实性。

这可能会导致某些群体更有可能被认为他们的真实形象是假的,或者更具破坏性的是,他们被认为是真实的。

问题不一定是算法本身,而是它们接受训练的数据。UB工程与应用科学学院计算机科学与工程系SUNY帝国教授Lyu表示,中年白人男性在此类照片和视频数据集中的比例往往过高,因此算法更善于分析他们,而不是他们的比例偏低。

“假设一个人口统计组在数据集中有10,000个样本,而另一个只有100个样本。该算法将牺牲较小群体的准确性,以尽量减少较大群体的错误。“因此,它减少了整体错误,但以牺牲较小的群体为代价。“

虽然其他研究试图使数据库在人口统计学上更加平衡-这是一个耗时的过程-但Lyu表示,他的团队的研究是第一次尝试真正改善算法本身的公平性。

为了解释他们的方法,Lyu使用了一个由学生考试成绩评估教师的类比。

“如果一名教师有80名学生成绩好,20名学生成绩差,他们最终的平均成绩仍然会很好,”他说。“因此,我们想给中间的学生一个加权平均值,迫使他们更多地关注每个人,而不是占主导地位的群体。”

首先,他们的人口统计感知方法提供了带有数据集的算法,这些数据集标注了受试者的性别-男性或女性-以及种族-白人、黑人、亚洲人或其他人-并指示它尽量减少代表性较低的群体的错误。

“我们本质上是在告诉算法,我们关心整体性能,但我们也希望保证每个组的性能都达到一定的阈值,或者至少只比整体性能低这么多,”Lyu说。

然而,数据集通常不会标注种族和性别。因此,该团队的人口统计不可知方法不是基于受试者的人口统计数据而是基于视频中人眼无法立即看到的特征来分类deepfake视频。

Lyu说:“数据集中的一组视频可能对应于特定的人口统计组,也可能对应于视频的其他一些特征,但我们不需要人口统计信息来识别它们。“这样,我们就不必亲自挑选应该强调哪些群体。这一切都是基于中间数据部分由哪些组组成而自动完成的。”

提高公平性和准确性

该团队使用流行的FaceForensic++数据集和最先进的异常检测算法测试了他们的方法。这改善了算法的所有公平性指标,例如种族之间的相同假阳性率,其中人口统计感知方法表现最好。

Lyu表示,最重要的是,他们的方法实际上提高了算法的整体检测精度-从91.49%提高到高达94.17%。

然而,当使用具有不同数据集的Xception算法和具有不同算法的FF+数据集时,这些方法虽然仍然改善了大多数公平性指标,但总体检测精度略有下降。

Lyu说:“在性能和公平性之间可能会有一个小的权衡,但我们可以保证性能下降是有限的。”“当然,偏见问题的根本解决方案是提高数据集的质量,但就目前而言,我们应该将公平性纳入算法本身。”


来源: Materials provided by University at Buffalo. Original written by Tom Dinki.
注明: Content may be edited for style and length. Related Multimedia: Deepfake detection mosaics
排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567