马萨诸塞大学阿默斯特分校机器学习研究员、主要作者菲利普·托马斯表示,确保机器行为的安全与公正至今仍是一个难题。"当人们应用机器学习算法时,很难控制其行为,"他指出。他和合著者们认为,这种风险可能导致不良后果,因为这些算法控制着从自动驾驶汽车、胰岛素泵到刑事判决等方方面面。
本周,托马斯及其同事——马萨诸塞大学阿默斯特分校的尤里·布鲁恩、安德鲁·巴托和研究生斯蒂芬·吉盖尔,巴西南里奥格兰德联邦大学的布鲁诺·卡斯特罗·达席尔瓦,以及斯坦福大学的艾玛·布鲁恩斯基尔在《科学》杂志撰文,提出了一种设计机器学习算法的新框架。该框架使算法使用者能更便捷地设定安全性与公平性约束条件。
"我们借鉴阿西莫夫笔下的哈里·谢顿,将新框架创建的算法命名为'谢顿算法',"托马斯解释道,"若将谢顿算法用于糖尿病治疗,我可以明确定义'危险的低血糖症状'属于不良行为。我可以对机器说:'在优化胰岛素泵控制器时,禁止进行可能导致低血糖发生频率增加的改动。'多数算法无法让用户施加此类行为约束,早期设计并未包含这项功能。"
他强调:"随着机器学习算法对生活的影响日益加深,提升保障公平性、避免伤害的能力正变得至关重要。"
然而,"近期有论文列举了机器学习领域21种不同的公平性定义,"他补充道,"关键在于允许用户根据具体应用场景选择适用的定义。谢顿算法配备的交互界面正为此设计:用户可自定义其应用中'不良行为'的具体含义。"
在阿西莫夫的《基地》系列中,谢顿与《机器人》系列处于同一宇宙观。托马斯阐释道:"银河帝国分崩离析,部分原因在于机器人三定律要求绝对确定性。这种严苛的安全标准导致机器人因无法确保行动绝不伤害人类而陷入决策瘫痪。"
谢顿提出通过概率化安全推理解决困境。"这与我们的研究方向高度契合,"托马斯表示。其团队的新方法支持概率约束,并要求算法提供用户设定约束的途径。他指出:"该框架是机器学习研究者的工具,能引导他们创建更便于用户负责任地应用于现实问题的算法。"
为验证框架效能,他们将其应用于巴西43,000名学生数据集进行平均绩点预测,通过构建带约束的谢顿算法,成功规避了多种性别偏见。另一项测试中,算法在保证不增加低血糖发生率的前提下,优化了胰岛素泵控制器。
托马斯强调:"我们坚信该领域存在巨大提升空间。即使使用简单组件构建的算法,我们也取得了显著成果。期待机器学习研究者基于本框架开发更精妙的新算法,使机器学习能安全应用于以往被视为高风险的领域。这是向学界发出的研究倡议。"
Story Source:
Materialsprovided byUniversity of Massachusetts Amherst.Note: Content may be edited for style and length.
Journal Reference:
Philip S. Thomas, Bruno Castro Da Silva, Andrew G. Barto, Stephen Giguere, Yuriy Brun, Emma Brunskill.Preventing undesirable behavior of intelligent machines.Science, 2019 DOI:10.1126/science.aag3311
2025-08-04
2025-08-04
2025-08-04
2025-08-04
2025-08-04