图像本身就说明了一切。
布法罗大学计算机科学家兼深度换脸专家 Siwei Lyu 根据他的检测算法错误地将数百张面孔分类为假脸创建了一张照片拼贴画,而新的构图显然主要是较暗的肤色。
“检测算法的准确性在统计上应该独立于种族等因素,”Lyu 说,“但显然许多现有算法,包括我们自己的算法,都继承了偏见。”
Lyu 博士是布法罗大学信息完整性中心的联合主任,他和他的团队现已开发出他们认为是有史以来第一个专门为减少偏见而设计的深度造假检测算法。
他们的两种机器学习方法——一种让算法了解人口统计数据,另一种让算法对人口统计数据视而不见——减少了种族和性别之间的准确性差异,同时在某些情况下仍然提高了整体准确性。
该研究在 1 月 4 日至 8 日举行的计算机视觉应用冬季会议 (WACV) 上进行了展示,并得到了美国国防高级研究计划局 (DARPA) 的部分支持。
该研究的资深作者 Lyu 与他以前的学生、现任印第安纳大学-普渡大学印第安纳波利斯分校计算机和信息技术助理教授 Shu Hu 博士以及卡内基信息系统助理教授 George Chen 博士合作梅隆大学。其他贡献者包括布法罗大学 Lyu 媒体取证实验室的博士生 Yan Ju 和博士后研究员 Shan Jia。
该研究的第一作者 Ju 表示,检测工具通常比它们所控制的人工智能工具受到的审查要少,但这并不意味着它们也不需要承担责任。
“深度造假对社会造成了如此大的破坏,以至于研究界急于寻找解决方案,”她说,“但即使这些算法是出于好的原因而制定的,我们仍然需要意识到它们的附带后果。”
人口统计意识与人口统计不可知论
最近的研究发现,不同种族之间的 Deepfake 检测算法的错误率存在巨大差异,一项研究中差异高达 10.7%。特别是,研究表明,有些人比深色皮肤的人更能猜测浅肤色的人的真实性。
这可能会导致某些群体的真实形象更有可能被认为是假的,或者可能更具破坏性的是,他们的被篡改的图像被认为是真实的。
问题不一定是算法本身,而是它们所训练的数据。纽约州立大学布法罗分校计算机科学与工程系教授 Lyu 表示,中年白人男性在此类照片和视频数据集中的代表性往往过高,因此算法比对代表性不足的群体更能分析他们。工程和应用科学。
“假设一个人口统计群体在数据集中有 10,000 个样本,而另一个群体只有 100 个。该算法将牺牲较小群体的准确性,以尽量减少较大群体的错误,”他补充道。“因此它减少了总体错误,但代价是较小的群体。”
虽然其他研究试图使数据库在人口统计上更加平衡——这是一个耗时的过程——Lyu 表示,他的团队的研究是真正提高算法本身公平性的第一次尝试。
为了解释他们的方法,Lyu 使用了一个通过学生考试成绩来评估老师的类比。
“如果一位老师让 80 名学生表现出色,20 名学生表现不佳,他们最终的平均成绩仍然会相当不错,”他说。“因此,我们想给中间的学生一个加权平均值,迫使他们更多地关注每个人而不是主导群体。”
首先,他们的人口统计方法为算法提供了数据集,这些数据集标记了受试者的性别(男性或女性)和种族(白人、黑人、亚洲人或其他人),并指示它最大限度地减少代表性较低群体的错误。
“我们本质上是告诉算法我们关心整体性能,但我们也希望保证每个组的性能都满足一定的阈值,或者至少只比整体性能低很多,”Lyu 说。
然而,数据集通常不会标记种族和性别。因此,该团队的人口统计不可知论方法对深度伪造视频进行分类时,不是根据受试者的人口统计数据,而是根据视频中人眼无法立即看到的特征。
“也许数据集中的一组视频对应于特定的人口统计群体,或者可能对应于视频的某些其他特征,但我们不需要人口统计信息来识别它们,”Lyu 说。“这样,我们就不必手工挑选应该强调哪些组。这一切都是根据哪些组构成中间数据部分而自动进行的。”
提高公平性和准确性
该团队使用流行的 FaceForensic++ 数据集和最先进的 Xception 检测算法测试了他们的方法。这改进了算法的所有公平性指标,例如种族之间相同的误报率,其中人口统计感知方法的表现最好。
Lyu 说,最重要的是,他们的方法实际上提高了算法的整体检测精度——从 91.49% 提高到 94.17%。
然而,当使用具有不同数据集的 Xception 算法和具有不同算法的 FF+ 数据集时,这些方法虽然仍然改进了大多数公平性指标,但总体检测精度略有下降。
“性能和公平性之间可能存在很小的权衡,但我们可以保证性能下降是有限的,”Lyu 说。“当然,解决偏差问题的根本方法是提高数据集的质量,但目前,我们应该将公平性纳入算法本身。”
2024-01-20
2024-01-20
2024-01-20
2024-01-20
2024-01-20