交流合作

您所在位置:首页 > 交流合作 > 正文

科学家们可以看一下ML系统 并建议如何减少它的偏差

文章作者:www.cs-vaccine.com发布时间:2019-10-22浏览次数:1553

机器学习系统现在用于确定从股票价格到医疗诊断的所有内容,以及他们如何做出决策从未如此重要。

麻省理工学院的一种新方法表明,罪魁祸首不仅仅是算法本身,而是数据本身的收集方式。

“计算机科学家经常说,偏向这些系统的方法就是简单地设计更好的算法,”麻省理工学院教授,大卫桑塔格和博士后助理Fredrik D. Johansson的主要作者Irene Chen说。博士生。 “但算法只能与他们使用的数据一样好。我们的研究表明,你可以用更好的数据做出更大的改变。”

研究具体的例子,研究人员可以找出准确性差异的潜在原因,并量化每个因素对数据的个体影响。然后他们展示了如何改变他们收集数据的方式可以减少每种类型的偏差,同时仍然保持相同的预测准确性。

“我们将此视为一个工具箱,帮助机器学习工程师找出他们的数据所要求的问题,以便诊断他们的系统为什么会做出不公平的预测,”Sontag说。

陈说,最大的误解之一就是更多的数据总是更好。获得更多参与者并不一定有用,因为从完全相同的人群中提取通常会导致相同的亚群。即使是流行的图像数据库ImageNet,其数百万张图像也被证明偏向北半球。

根据桑塔格的说法,关键是走出去从那些代表不足的人那里获得更多数据。例如,该团队研究了一个收入预测系统,发现将女性员工错误分类为低收入和男性员工的可能性是高收入的两倍。他们发现,如果他们将数据集增加10倍,这些错误的发生率将降低40%。

在另一组数据中,研究人员发现,对于亚洲患者而言,系统预测重症监护室(ICU)死亡率的能力不太准确。现有的减少歧视的方法基本上只会降低非亚洲预测的准确性,当你谈到像医疗保健这样的环境时,预测可能会有生死攸关的问题。

陈说他们的方法允许他们查看数据集并确定来自不同人群的参与者需要多少来提高低精度组的准确性,同时仍然保持具有更高准确度的组的准确性。

“我们可以绘制轨迹曲线,看看如果我们增加超过2,000人而不是20,000人会发生什么。从这一点我们可以看出,如果我们想拥有最好的世界,数据集的大小应该是,“陈说。 “通过这种更加细致入微的方法,医院和其他机构可以更好地进行成本效益分析,看看获取更多数据是否有用。”

您还可以尝试从现有参与者那里获取其他类型的数据。但是,如果额外数据实际上不相关,那么这不会改善一些事情,例如IQ研究人员身高的统计数据。然后问题就变成了如何确定何时以及为谁收集更多信息。

一种方法是识别具有高精度差异的患者群体。对于ICU患者,一种称为主题建模的文本聚类方法表明患有心脏病和癌症的患者在准确性方面具有较大的种族差异。这一发现可能表明,对心脏病或癌症患者进行更多诊断测试可降低种族差异的准确性。

该团队将于12月在蒙特利尔的神经空间处理系统(NIPS)年会上发表论文。