Loading... # 论文研读 #4: 可信机器学习的公平性综述 <button class="btn m-b-xs btn-info btn-addon" onclick='window.open("https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=RJXB202105011&uniplatform=NZKPT&v=ed6oAmHPQrIv1ueyGRakmD3A%25mmd2FttaqV2Fk3y%25mmd2FEh%25mmd2BbO1DB%25mmd2BNZW2Anl5RhyAwT986IB","_blank")'><i><i data-feather="external-link"></i></i>CNKI</button> > **标题**: 可信机器学习的公平性综述 > **作者**: 刘文炎, 沈楚云, 王祥丰, 金博, 卢兴见, 王晓玲, 查宏远, 何积丰 > **通讯作者**: 王祥丰 (xfwang@cs.ecnu.edu.cn), 王晓玲(xlwang@cs.ecnu.edu.cn) > **单位**: 华东师范大学, 上海自主智能无人系统科学中心 ## Abstract 可信机器学习时为了解决人工智能进行自主决策时可能会遇到法律或伦理的问题和风险, 从公平表征, 公平建模和公平决策三个角度分析数据和算法中造成的不公平的潜在原因, 建立机器学习中的公平性抽象定义, 用于消除不公平的机制. ## Introduction 机器学习影响人们的生活, 如果引用不当会损害人类利益. 机器学习算法因为是数据驱动的, 因此可能存在编码偏见, 容易对决策产生偏见. 因此算法的公平性是机器学习向善的一个重要的主题之一, 建立合理的模型保证算法的决策客观, 是加速推广机器学习的必要条件. 机器学习算法通常包括几个**关键环节**: 数据所有者采集数据, 模型提供者设计算法, 算法使用者运行并做出决策. 公平机器学习研究的**关键问题**: 如何建立以法律, 伦理, 社会学为引导的公平性定义; 如何设计公平性定义驱动的公平机器学习算法. 公平机器学习算法设计流程框架: 1. 明确公平目标 2. 明确公平任务 3. 从理论分析和实验评估两个角度分别验证公平机器学习的表现. ## 公平机器学习的问题定义 机器学习算法可能存在一些不公平现象: 1. 累犯预判 2. 电商杀熟 3. 保险定价 ### 不公平的潜在原因 造成不公平的原因时多方面的. 比如: 错误解读并使用算法造成不公平 偏差不是孤立存在的, 而是互相相关的. #### 数据的偏差 数据收集方式的不同, 因此数据的质量也有不同. 数据可能存在现实世界人的认知偏差, 认知偏差又可分为: - 历史偏差: 现实世界长期存在的, 可能导致下游学习任务有偏或者不准确的预测. - 交互偏差: 来自有偏差策略的运用, 用户有偏差的行为和有偏差的反馈. #### 模型的偏差 建模过程中多个步骤以来人进行参与和决定: 描述样本特征需要人类专家设计, 可能引入**属性偏差**; 模型运行可能引入**探索偏差**; 观察并解释实验现象可能引入**归纳偏差**. ### 消除偏差的机制 根据机器学习算法的阶段不同, 可以使用: 预处理, 处理中和后处理机制, 介入算法实现公平机器学习. - 当能够参与数据生成或修改采集到的数据时, 采用**预处理机制**清洗数据 - 对算法拥有完全控制时, 采用**处理中机制**调整算法 - 如果都没有能力控制, 使用**后处理机制**就该算法的输出结果. ## 机器学习算法的公平性定义 公平机器算法的基本任务时将一般的机器学习算法扩展到保证公平性的算法. 在现实世界中不同的机器学习任务关注的焦点也不同, 难以用通用的公平性进行定义. 现有公平性定义可以划分为三类: 感知公平性, 统计公平性, 因果公平性. - 感知公平性: 关注如何直接处理受保护属性以获得公平. - 统计公平性: 要求受保护群体的待遇与非弱势群体或整个群体相似 - 因果公平性: 基于因果公平性定义, 通过干预因果模型研究受保护属性对输出结果的影响. ## 公平机器学习 公平机器学习算法目标是发布近似的算法模型, 同时输出结果也符合某种定义的公平性. 解决公平表征任务, 公平建模任务, 公平决策任务这三个任务, 可以实现机器学习模型到公平机器学习模型的衍化. ### 公平表征任务 数据所有者从公平表征任务切入, 寻找一种作用到非保护集合$X$和受保护集合$A$的特征变换方法, 输出保留与输出空间 $Y$有关的信息且近似的与$A$无关的特征$Z$. $$ (X,A) \to^g Z \to^{f'} Y $$ 公平表征任务重点集中在数据预处理阶段, 主要方法有基于信息论, 基于生成对抗网络, 基于解耦学习的公平表征任务. ### 公平建模任务 公平建模任务即关心预测准确率, 又关注如何减少预测结果的歧视. 通过调整原有算法获得 $f'$, 使 $$ (X,A) \to^{f'} Y $$ 公平建模任务重点介入处理中阶段. 以解决任务的角度进行分类, 可以分为: 分类任务, 回归任务, 组合优化任务, 集成学习任务, 图计算任务, 聚类任务等. ### 公平决策任务 算法使用者需要承担公平决策任务, 确保机器学习算法输出结果对每个群体都是公平的. 公平决策任务重点在于后处理阶段, 根据解决任务的角度进行分类, 可以分为: 分类任务, 隐私保护任务. ## 公平机器学习的应用 ### 常见应用案例 - 计算机视觉的公平机器学习 - 自然语言处理的公平机器学习 - 信息检索和推荐系统的公平机器学习 - 多智能体系的公平机器学习 - 联邦学习的公平机器学习 ### 常用数据集和仿真环境 - Adult数据集 - German Credit数据集 - COMPAS数据集 - Communities&Crime数据集 - LSAC National Bar Passage数据集 - The UCI Bank Marketing数据集 - Tetrad生成数据集 - Diversity in Faces (DiF)数据集 - iNaturalist 数据集 - ML-fairness-gym仿真环境 ### 公平检测工具 ![](/usr/uploads/2021/09/2462256926.png) 最后修改:2021 年 09 月 09 日 © 允许规范转载 赞 1 如果觉得我的文章对你有用,请随意赞赏