漫谈人工智能的公平性 | 焦点评论-米儿火

摘要

“天公平而无私，故美恶莫不覆；地公平而无私，故小大莫不载”。人工智能算法已经开始影响到了我们生活的方方面面，在给大家生活带来便利的同时，其公平性也得到了广泛的关注和质疑，也为人工智能的进一步发展提出了极大的挑战。人工智能公平性之所以难以保障，究其根本，还是由于整个过程高度复杂，不仅对于普通用户，同样对开发人员和决策者都呈现黑箱特质。本文从科举制度这个历史遗留问题出发，从一个计算机研究人员的角度，谈谈如何利用可解释性这个工具，来检测和弥补人工智能算法的不公平性问题。

关键词：人工智能算法，公平性，可解释性

1 引言：从科举制度谈起

“朝为田舍郎，暮登天子堂”。起源于隋唐、一直到清朝结束的科举制度通过公开考试选拔官员，让社会中下层读书人可以踏入仕途，确保阶级之间可以流动，维持社会稳定，一共经历了1300多年的历史。在这段漫长的时期中，科举制度也不断地在改革，从唐朝重诗词歌赋，宋朝看重实际能力，到明清朝八股取士，重视文章格式，考试内容和形式不断变化。作为阶级流通的主要通道，历代统治者出台各种政策打击科举舞弊，确保人才选拔的公平性。仅清一朝，就有数起科场大狱，牵连数十人，轻则戍边，重则斩首。同时科举中的地域之争也是由来已久，比较出名的有洪武三十年二月会试，主考官刘三吾等人录取考生52人，全是南方人，直接引发“南北榜”事件，并导致南北分卷取士制度的确立。一直到现在每年高考录取，还会因为是否应该分省录取引发巨大的争论。

从人工智能研究者的角度再来看看科举，选拔人才可以建模成一个排序问题，各朝代的科举制度（包括现代的高考、或者欧美的录取制度）是政策制定者给出解决这个排序问题的算法，公平性是这个任务中大家最关心的问题。各朝代的统治者，现在教育部的官员，欧美大学的录取工作人员，都对选拔人才这个排序问题给出了自己的解决方案。笔者认为，在给定的时间和空间限制条件下，这些解决方案从算法层面来讲对绝大多数人还是比较公平的。之所以解决方案不断被推翻，在是否应该南北榜，是否应该分省出题和录取，是否照顾少数族裔（中美都存在）这些问题上争论不休，主要是这些问题背后涉及到的社会学、经济学、政治学、哲学等诸多问题。笔者作为人工智能和数据挖掘的研究人员，在本文中仅从数据和算法的层面给出自己的理解，涉及到其他学科的，专业的问题还是留给专业的人士去解答。

针对人工智能公平性这个问题，笔者想就数据和算法角度谈以下几点：

首先，科举制度这个算法非常简单明了，无外乎设定一个统一的标准，比如作文是否“思想健康、中心明确、内容具体、层次清楚、语句通顺”，数学应用题是否解答正确，英语选择题准确率多少，然后根据综合总分从高到低排序。但人工智能中的算法非常广泛，包括了视觉、自然语言处理、认知、机器人学等等，在完全没有人干预全自动的情况下，这些算法是否也像科举这个排序算法一样公平？或者更加公平？

第二，科举制度这个算法简单易懂，里面的排序逻辑非常清楚，谁都可以去分析以及基于自己的立场提出不同的看法甚至算法。很可惜的是，多数人工智能应用中涉及的数据数量大、维度高、模态多、更新速度快，很多算法逻辑高度复杂，近年来深度学习算法被抨击为“炼金术”。笔者在思考，如果人工智能中的数据非常规范，算法透明且可解释性强，是否能在计算机科学领域解决人工智能的公平性问题，从而像科举制度一样将其回归到社会学的范畴？

第三，笔者前文提到一句话，“这些解决方案从算法层面来讲还是比较公平的”，“比较”这个词对于一个学者来说是非常不严谨的，那么我们究竟能不能检测甚至度量这些算法的公平性，进而弥补人工智能算法的歧视问题呢？

2 起源：人工智能公平吗？

我们已经步入了一个人工智能时代，算法影响到生活中的方方面面，小到音乐、新闻、视频和购物网站上的内容推荐，大到教育资源的合理分配、求职时的简历筛选、申请银行按揭时的信用评估、司法程序中的犯罪风险评估。生活中的重要事情正愈来愈多地被算法所主宰，从某种意义上来说这些算法在支配着我们的生活。当本该由人类做决策的工作托付给人工智能，人们在享受着由此产生的便利时，一个不容忽视的问题是：人工智能算法给出的决策，是否能够做到不偏不倚、公平公正呢？

2.1 算法不公平无处不在

引言中我们介绍了科举也就是招生的故事，算法的不公平就从近年来引起轩然大波的招聘广告中的性别歧视谈起。Facebook向191个国家的用户投放了招聘广告，分析结果显示，该广告被男性用户看到的次数相比女性用户高出了20% [1]。类似的，一些求职网站的广告会自动为女性用户推送相比男性用户薪水更低的岗位信息。亚马逊公司在2014年上线的简历筛选模型，明显表现出了对男性应聘者的偏好，当简历中出现与女性相关的描述时，例如女子足球俱乐部，这套模型会对简历打相对较低的分数。

再看看搜索引擎结果中的种族歧视。哈佛大学的的一项研究结果中 [2] 表明，在谷歌搜索中，黑人名字更容易引向犯罪或者逮捕记录，而白人名字的搜索则罕见与犯罪相关的结果。例如，谷歌搜索中输入像“Rasheed”或者“Aisha”这样常用的黑人名字的时候，搜索结果中含有犯罪记录的信息或者广告相比搜索 “Geoffrey”或者“Carrie”这种白人名字要高出许多。类似地，在谷歌图像上搜索“doctor”，检索的结果中大部分都是白人男性。这里想给大家强调一下，种族歧视哪怕是倾向性在美国绝对是雷区，这个远不仅仅是政治正确的风潮所影响，背后有很深刻的历史原因，主要是受到美国黑奴制度以及黑人意识的影响。为什么在这样的大环境下，这些应用居然能出现种族歧视的结果？为什么人工智能算法会产生歧视？

2.2 算法不公平问题归因

现实中，算法歧视可以分为有意识歧视和无意识歧视。常见的一般是无意识歧视，也是本文讨论的重点，即算法供应商主观意愿上希望算法决策是中立和公平的。现有的机器学习模型，大都需要利用具体应用中所产生的海量数据进行训练，从而学习到在这些数据中不断重复出现的模式，从而用于对未知数据的预测。有一个广为流传的说法是，数据是这个时代的石油，但可惜还有一个更加准确的说法：数据是带杂质的石油。在训练过程中，算法不仅能够捕捉到数据中有用的模式，也不可避免的学习到了人类的偏见（图1）。这个过程可以被形象地描述为：偏见进，则偏见出。没有质量良好的数据，算法也做不出公平公正的决策。以亚马逊简历筛选工具的性别歧视为例：根据路透社的统计 [3]，亚马逊、Facebook、苹果、谷歌和微软五个公司的总体男性比例介于60%到74%之间，而具体到技术岗位，这一比例则高达80%。亚马逊公司使用10年间提交到公司的简历训练算法，导致训练算法的数据本身就带有很强的性别偏见，所以算法在训练过程中自然而然地学到了这种偏见，甚至进一步放大了这种偏见也就不足为奇了。

图1：训练数据的收集和标记过程，引入了不同程度的人类偏见；深度模型通过端到端的训练，进一步加剧了数据中原有的偏见；可解释性可以作为一个有效工具，去检测和弥补算法的不公平性问题。

以史为鉴，可以知兴替，以算法和数据为鉴，可以理解这个社会。人工智能中的不公平在一定程度上暴露了人类社会中长久存在的偏见，包括历史上对某些社会群体的歧视，或者现有社会在人口统计上的不公平。而算法只是在这个工程中放大了这些偏见，从而可能会进一步加剧社会不平等。由此可见，只有将公平性作为设计、部署和评价人工智能算法和系统的一个重要考量因素，才有可能减弱社会上存在的歧视，真正造福于社会上的不同人口亚群。

3 本质：人工智能的可解释性

3.1 一场歧视风波引发的信任危机

2018年，IG在英雄联盟国际赛事上夺冠，微博上一时人声鼎沸。为了庆祝这场胜利，IG老板王思聪决定通过微博抽奖平台，在转发/评论/点赞的用户中随机抽取113个人，每人赠送一万元现金。然而抽奖结果却让人大跌眼镜：两千万人参与抽奖，中奖的113人中仅有1名用户为男性，而女性用户的中奖比例是男性的112倍。不少网友开始质疑微博抽奖算法，怀疑算法背后的公正性。

为了平息这场由性别歧视引发的信任危机，微博CEO王高飞对此进行了解释，否认了微博抽奖对女性的偏好（图2）。通过他的解释，可以得知，参与抽奖男女用户比例为1:1.2，并不悬殊，和结果歧视不构成因果关系，而造成这个结果的主要原因是抽奖过程中的一个机器号过滤环节。所谓机器号，是指通过程序自动注册、被人为操纵的微博账号。这些机器号可以被用来制造虚假的转发、评论或者抽奖，严重影响了微博的正常生态，因而成为被打击的对象。而很多男性用户由于平时不活跃、不发图、没有原创内容，容易被误判为机器号，进而失去了抽奖的资格。该解释虽没有完全平息网友的声讨，但也获得了部分用户的谅解。

图2：微博CEO王高飞针对抽奖事件提供的解释。

多数人工智能应用中涉及的数据数量大、维度高、模态多、迭代快、算法逻辑高度复杂，以至于变成对人类来说难以理解的黑箱。算法公平性问题之所以难以解决，归根结底在于其黑箱问题，如果人们不能理解算法的运行方式，自然也就无法得知算法产生歧视和偏见的根源，更无法解决这些不公平性问题。笔者认为，可解释性是解决算法不公平性隐患的一种有效途径。通俗地讲，如果能把算法究竟是怎么运行得到结果以及具体到某一个预测是怎样得到的解释清楚了，大家自然就能够理解，也就不会产生误会了，一个极好的例子是上文提到的微博CEO的解释。

图3：为什么需要算法可解释性？

算法可解释性可以分为科研/开发者、用户、政府监管三个层面，缓解算法歧视问题：

3.2 算法可解释性分类

算法可解释性是一个涵盖面甚广的话题，感兴趣的读者，可以参考笔者团队最近在ACM通讯杂志上发表的一篇综述 [4]。本文以深度学习算法为例，总结两类最常见的解释模式（图4），包括基于单个预测的和对模型的解释。简单来讲，这两类模式分别对应于一个考生为什么会落榜（数学考差了还是作文跑题了）和整个高考评分系统怎么设计的（大综合还是分科考试）。

图4：算法可解释性分类。(a)单个预测的解释（local/instance interpretation）；(b) 模型的解释（global/model interpretation）。

第一类对于单个预测的解释，其旨在解释深度模型对特定的输入做出某种预测的原因。最后的解释以“特征重要性热力图”的形式说明 (图4(a))。相应的算法大致可以分为四类 [4]：基于输入扰动的，基于反向传播的，基于局部近似的，基于模型分解的。这些解释方法都能对深度模型的单个预测产生特征重要性热力图，表明不同特征对模型预测输出的贡献程度。以微博抽奖中的判断用户是否为机器号子问题为例，模型的输入是一个包含多个特征的向量，解释结果是热力图，其中得分较高的特征表示与模型分类结果的相关性更高。

第二类是对模型的解释，其目标是提供关于一个预先已训练好的深度模型学习了哪些知识的全局理解，并以一种对人类直观的方式阐明所学习的知识，如自然语言描述或者可视化 (图4(b))。解释可以看作是一个函数 f: Eh->Em，从深度模型中间层的表征 Eh映射到人类可理解的概念 Em。最简单的实现方法是理解单个神经元学习到的概念，也就是说 Eh是来自特定层的某个神经元。例如近期的一篇研究表明 [5]，AlexNet最后一个卷积层的第151个通道，对应的神经元学到的概念可以对应于动物和人类的面孔。多个神经元的组合可以代表更抽象的概念，在这种情况下，Eh代表来自不同通道甚至不同层的多个神经元。与单个神经元学到的概念相比，神经元组合产生的概念与深度模型公平性更密切相关。

4 现状：怎样解决人工智能的公平性

本章我们将以上文介绍的两种深度学习可解释性做为调试工具，来检测算法是否公平，并且针对不公平的算法提出弥补措施 [6]。

4.1 检测算法不公平性

模型预测结果歧视的来源，有时可以追溯到输入特征。在很多应用场景中，人群属性（例如性别、种族和年龄）不一定是原始输入特征的一部分。然而由于特征冗余编码的原因，一些看似寻常的显性输入特征可以很容易和人群属性相关联。例如在美国，邮编、姓氏可以用来和种族相关联。针对这种情况，算法一般间接地把输入特征映射到人群属性，然后将人群属性和模型预测过度关联，最终导致了对某些人群的歧视。以上文提到的微博抽奖案中筛选机器号子问题为例，利用深度模型单个预测的解释做为工具，来检测算法歧视的原因 (图4(a))。根据解释结果可知，“只转发、少原创”和“不发图”等特征对模型将一个用户分类为机器号有很高的贡献得分。这些特征可以映射到男性人群，使模型将男性人群和机器号相关联，进而导致对男性的歧视。一方面，这些特征可以更好地将机器号检测出来，使模型拥有很高的召回率，而另一方面，这些特征又使很多男性用户被误判断为机器号，导致模型的精确率不高。

图5：TCAV检测算法歧视。

在一些应用场景中，显性输入特征不容易和人群属性相关联。在这种情况下，模型可以挖掘更深层的隐形特征作为其歧视的依据。例如对一个购物网站来说，虽然在用户注册时不会输入自己的性别、年龄等信息，模型可以通过购物历史、浏览记录、收藏、购物时间等信息来生成用户画像。随后这些用户画像可以被用来产生价格歧视。这里可以利用深度模型解释作为调试工具 (图4(b))，旨在分析深度模型的中间层表征是否学到了人群属性，以及该人群属性对模型预测的贡献程度，从而来分析算法歧视。我们利用近期谷歌提出的深度模型模型解释算法TCAV（概念激活向量测试）[7]，以一个基于图像的医生分类器为例，来展示这一检测过程 (图5)。在这一任务中，算法的目标是判断一张图像中的人是否为医生。任务本身和性别没有关系，但是根据TCAV的结果，我们得知，算法实际操作中完成了“输入图像->性别->是否医生”的一个逻辑推理过程。确实这个卷积神经网络在中间层，通过多个神经元的组合学到了男女性别概念，不仅如此，男性这一概念会极大地增加这个分类器判断输入图片是医生的概率，而女性概念则相反。借由TCAV对男女性别得分的不同，可以直观上了解这个算法在该任务中对女性的歧视程度。另一方面，根据模型的歧视行为，也能推断出训练数据集乃至现实社会中医生群体的男女性别比例存在一定的偏差。

4.2弥补算法不公平性

对于检测算法不公平性中所提到的两种情况，可以分别设计相应的措施来弥补算法歧视行为，这些弥补措施又可从训练数据预处理和模型训练正则化两个角度分为两类。

对两种情况来说，构建平衡的训练数据集都是减轻算法歧视的一个有效途径。在算法训练过程中，不平衡数据的存在，使算法发现了“输入->人群->任务预测”这一捷径，进而表现出对某个群体的歧视行为。在一定程度上，平衡的训练数据抑制了算法采用这一捷径，促使算法学习任务相关的更本质特征。例如亚马逊的简历筛选工具，可以将训练集中技术岗位的男性比例由80%调整50%。类似地，在微博抽奖时的机器号筛选中，可以将现有的男女比例由1:1.2调整为1:1。当然平衡数据集的构建，需要针对不同的应用场景采用不同的平衡化策略。那么有了“平衡”的训练数据，是否可以完全消除算法的歧视行为呢？遗憾的是，答案是否定的。平衡是相对的，即使在一个角度上数据平衡了，在另一个角度来看，数据还是不均衡的。例如在亚马逊简历筛选案例中，虽然调整后男女比例是均衡的，但是男女的投递录用比依然存在区别。这些不均衡，仍然可以使算法学到对某个群体的偏见。因而还需要通过模型训练过程中的正则化，来进一步弥补算法的歧视行为。

图6：用额外的特征级标记作为正则化，来弥补算法预测结果歧视。

对第一种情况，模型歧视来源可以追溯到输入特征，可以通过模型正则化训练消除算法歧视（图6）。除了传统的训练数据（输入和标签）之外，还需要额外的特征级别的标记，来达到正则化的目的。特征级别的标记需要指明哪些特征可能会和人群属性相关联，导致模型产生歧视。以贷款模型为例，模型输入特征为[邮编，收入，信用得分，...]，其对应的额外特征级别标记为[1,0,0，...]，表明“邮编”这个特征有一定概率产生模型的歧视，而其余的特征是和预测任务密切相关的。随后这些数据用于模型的训练，目标函数如下：

其中第二项中 f loc(x) 是模型对单个预测解释的特征重要性向量，d2是距离度量函数，这项的目的是使算法对那些公平敏感性特征（如邮编）赋予很小的权重，而更多地利用剩余真正任务相关的特征去做决策。需要注意的是 f loc(x)需要端到端可导，进而可以用反向传播来更新模型的参数。一个具有代表性的示例 [8] 用基于梯度的方法来得到单个预测的解释向量 f loc(x)，用L2范式距离作为距离度量函数d2。经由这样训练的模型，既可以在公平性指标上有所增加，又不至于牺牲模型的预测准确率。

图7：对抗训练弥补算法预测结果歧视。

算法可以通过挖掘更深层的隐形特征作为其歧视的依据，这种情形下，对抗训练（adversarial training）是消除算法歧视的一个有效途径。其目标是学习一个高层的输入表征 h(x)，它能最大限度地为主要预测任务 y 提供信息，同时最大限度地抑制预测人群属性 z 的能力（图7）。主任务分类器c(h(x) 和一个对抗分类器 g(h(x) 同时训练，其中对抗分类器的任务是抑制表征 h(x) 来预测人群属性 z。对抗训练的过程可以表示为：

在训练过程中主任务分类器和对抗分类器的训练交替进行，通过一定次数的迭代后，可以得到一个消除偏见的深度模型。以图5中基于图像的医生分类器为例，对抗训练打破了“输入图像->性别->是否医生”的逻辑推理链，迫使模型去学习区分医生需要的更本质特征，从而消除了该任务对女性的歧视。需要注意的是，不能仅依靠对抗分类器来判断模型是否消除了偏见，还需要通过深度模型解释性算法，例如上文中提到的TCAV，来做额外正确性检查，以确保模型消除了歧视。

5 展望：路在何方？

本文从中国封建社会的科举制度谈起，从美国的科举制度来结束。就在笔者撰稿期间，美国联邦地方法院裁定，哈佛大学在针对亚裔申请者的歧视案中获得胜诉。该项起诉的结果宣告，哈佛大学故意压低亚裔美籍学生的录取数量、涉嫌种族歧视的行为，在政府层面获得了支持。原本是有利于保护少数族裔机会均等和族裔平衡的政策，却在一定程度上损害了亚裔族群的权益。可见公平性领域还有许多未解难题：比如怎样兼顾平等和公平？有没有一种公平性准则可以更好地照顾各方利益？前文中，笔者从数据和算法两个层面，简要论述了人工智能算法公平性问题的表现、归因以及解决方案。算法的公平性从本质上来讲是一个宏大的命题，远远不止包含数据和算法。在图8中，我们给出了公平性问题的层级，可以看到，在数据和模型之上，还有公平性的定义、道德伦理/法律。

图8：公平性问题的层级。

许多公平性的定义，在机器学习科研层面陆续被提出 [6]。其中两个常用的公平性准则是：人口统计平等和机会平等。前者要求算法对于两个不同的群体有相同比例的正向预测，例如两个群体获得相同比例的贷款批准。而后者要求两个群体的真阳性率（true positive rate）相等。仍然以贷款为例，机会平等要求算法给出正向预测的比例，和两个群体偿还贷款能力相同。对于不同行业来说，相关领域的专家需要根据领域的特殊情况，对公平性进行合理地定义，以保证算法符合人类社会中的道德伦理和法律规定约束。

由此可见，算法公平性的落实，需要政府监管方、行业专家、科研开发者、用户的共同努力。首先，政府监管方与行业专家，根据行业需求制定合理的公平性准则，并制定算法歧视的问责法律。然后，科研开发者在此基础上通过设计实现算法公平。在算法设计之初，就将算法公平性准则、算法可解释性、算法问责等价值需求囊括在算法设计之中，这也督促设计者在设计阶段严格遵守公平性的伦理和法律规则。最后，在算法的应用阶段，政府监管方与用户，共同监督算法公平性实施。对严重的算法歧视行为，由政府监管方进行问责。通过各方联合起来，解决算法的不公平问题，人工智能才能够被放心地应用于民生中的各个领域，并真正地造福全社会。

最后，感兴趣的读者，可以继续阅读这篇关于深度学习公平性的综述论文 [6]，或者参考这个Github列表中罗列的论文及相关资料 [9]。

致谢

特别感谢我的博士生杜梦楠为本文提供的大量资料及建议，以及与Yijun Bian，王浩帆，林远森的讨论。

参考文献

[1] LAMBRECHT A, TUCKER C. Algorithmic bias? an empirical study of apparent gender-based discrimination in the display of stem career ads[J]. Management Science, 2019.

[2] SWEENEY L. Discrimination in online ad delivery[J]. arXiv preprint arXiv:1301.6822, 2013.

[3] 路透社. Amazon scraps secret AI recruiting tool that showed bias against women[J]. , 2018.

[4] DU M, LIU N, HU X. Techniques for interpretable machine learning[J]. Communications of the ACM (CACM), 2020.

[5] YOSINSKI J, CLUNE J, NGUYEN A, et al. Understanding neural networks through deep visualization[J]. ICML workshop, 2015.

[6] DU M, YANG F, ZOU N, et al. Fairness in deep learning: A computational perspective[J]. arXiv preprint arXiv:1908.08843, 2019.

[7] KIM B, WATTENBERG M, GILMER J, et al. Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav)[J]. International Conference on Machine Learning (ICML), 2018.

[8] ROSS A S, HUGHES M C, DOSHI-VELEZ F. Right for the right reasons: Training differentiable models by constraining their explanations [J]. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI), 2017.

[9] DATALAB. Awesome fairness machine learning[J]. , 2019.

作者简介

胡侠，现任美国德州农工大学计算机学院助理教授, 数据挖掘实验室主任。长期从事数据挖掘、机器学习和人工智能研究，在相关顶级国际会议及期刊发表论文100余篇。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一，参与开发的NCF系统成为主流AI框架TensorFlow的官方推荐系统。他获得多次最佳论文奖，美国国家科学基金委杰出青年奖，IEEE Atluri学者奖等，现担任TIST、Big Data副编辑，DMKD编委，WSDM 2020大会主席。