没有正确地查看此页面?清除浏览器缓存!

信息通信技术

2021年11月20日

数据和技术中的性别偏见

贡献:斯蒂芬妮·麦克尔森

本文详细介绍了技术促进的对妇女和女孩的直接伤害(在线性别暴力)和间接伤害(算法偏见、数据偏见、数据安全、性别盲技术)。这是一篇后续文章检查仪表板下:数据技术中的性别偏见

直接伤害/基于性别的暴力(GBV)/针对妇女的暴力(VAW)

对妇女和女孩的直接伤害包括故意暴力,如:在线骚扰、仇恨言论、跟踪、威胁、冒充、黑客攻击、基于图像的虐待、打人、人口贩运、虚假信息和诽谤、殴打、astroturfing、物联网相关骚扰以及虚拟现实骚扰和虐待。这些类型的暴力可以很容易地归类为基于性别的暴力/对妇女的暴力,tech-facilitated GBV/ VAW,或在线GBV/ VAW,因为行为背后的意图很明显,是为了伤害个人或群体。关于这些主题的研究虽不多,但仍在不断增加。

有一段时间以来,关注这种技术促进的直接伤害的团体是APC对于记者来说,尽管历史上的工作并不以女性为重点,但针对女性的做法很常见,因此女记者联盟最近成立了一个反对网络暴力的组织。儿童保护社区也有很大的影响力,因为它特别涉及儿童。传统的GBV社区也开始讨论这类话题,因为科技推动的性别暴力也是由男女权力不平衡这一世代问题引起的。

其中包括一份由来自世界各地的个人讨论、在线活动和多个会议的来源汇编的技术促进的直接危害清单。本列表并非详尽无遗,只是为了分享信息。

间接伤害/ GBV/ VAW

今天,大多数技术,特别是数字技术的创造方式正在扩大性别不平等,并歧视妇女和女孩。尽管阻止妇女获得工作、资金、公共服务和信息在美国,滥用数据和技术对女性的间接伤害几乎完全被忽视了。

这里我们谈论的是算法偏见(即人工智能和机器学习中的编码偏见)、数据偏见(即丢失或错误标记的数据集)、数据安全(即共享可识别信息)以及其他没有纳入女性和女孩声音的性别盲技术(如机器人、车祸假人和持续存在有害的性别规范的人力资源软件)。让我们通过分解不同的元素和术语来更深入地研究这些间接伤害。

算法的偏见,

算法本身是没有偏见的,但它们是由带有无意识偏见的人类编写的.每一项数字技术都是由算法构建的。一个算法基本上就是一组指令,告诉计算机做什么。算法是由程序员或编码人员编写的。举个简单的例子,如果编写了一个算法来根据我们的世界人口做出决定,它的指令(又名代码)说要查找“所有数据”,但计算机和程序员都没有意识到它的“所有”数据集实际上是由90%的男性和10%的女性组成的,那么显然女性没有在比例上得到代表。如果我们的社会90%是男性,这就不是问题,但由于我们的世界人口大约50%是男性和50%是女性,这个算法现在错误地将男性数据放大到几乎整个人口,无意中使女性的比例非常小,她们的担忧几乎是无形的。如果不明显的话,这对女性来说是个大问题。

让我们思考一下,如果这种算法或类似的算法被用于招聘新员工,会意味着什么。亚马逊),选择贷款对象(例如苹果卡),提供公共服务,或者仅仅是为一半的人口提供基本信息(例如:谷歌搜索引擎).这就意味着我们现在雇用更多的男性,向男性提供更多的贷款和公共服务,所有的基本信息都是从男性的角度提供的。90%男性和10%女性的例子是一个极端和简化的例子,用来描绘一个算法如何只捕捉它被告知要看的东西的清晰画面算法是如何编写的,它可以访问哪些数据集,这真的很重要

尽管亚马逊和苹果支付是算法歧视女性的最新例子。亚马逊我做了一个机器学习工具,在它被拔出之前只能识别男性候选人。苹果卡正在接受调查,因为根据他们的算法,他们给男性比女性更高的信用额度,但他们无法向客户解释原因。研究还表明,目前使用的语言模型谷歌谷歌的搜索引擎也存在性别偏见,延续了有害的性别刻板印象。这些公司正在寻找上述问题的补救办法,但它们的存在需要更多的审查和全面的方法来解决问题。

这里我们提供更多关于算法的定义。我们有机器学习(ML),它们是用来自动分析数据的算法。ML算法在特定的数据集上进行训练;或者换句话说,通过类似于训练手册的东西(由人类)教会他们应该寻找什么。ML非常常见,当您希望快速对大量数据进行分组或分类时,它非常有用。当构建一个ML算法来寻找自己的训练数据集时,ML可以被提升到另一个层次;或者换句话说,编写自己的手册,自学。这种ML被称为“无监督学习”。

甚至更高级的ML子集包括深度学习(DL)和不同神经网络(神经网络)。人工智能(AI)是一个广泛而流动的术语,目前包含了我们所描述的所有内容(ML、DL、NN)等,但随着计算变得更加先进,它将继续发生变化。人工智能的定义因为“使计算机按照以下方式运行的[过程和机制],直到最近我们认为,这需要人类的智慧。”根据这个定义,AI的例子只会继续扩大,但目前是可以与ML互换的。

当今ML和AI的一些最大问题包括黑箱问题、概念漂移和过拟合。的黑盒的问题可能是两件事的结合,一,可能是根本无法访问原始算法(例如知识产权),二,也可能是算法变得如此复杂以至于即使是创造者也无法解释这个决策过程.为了让我们了解算法是否存在偏差,它的男女比例是否正确,或者它对世界人口的最初设想是否偏向于男性,我们需要回顾原始算法、原始训练数据集,以及它在“学习”过程中可能发生的任何变化。在使用无监督ML算法时,要知道为什么算法会做出某些决策是很困难的。在使用ML预测未来事件或趋势时,要记住的另一个问题是概念漂移,当一个变量(即你试图预测的事物周围的事物)以不可预见的方式发生变化,导致预测随着时间的推移变得不那么准确时。最后,另一个问题,特别是与性别偏见有关的问题是过度拟合.这是指一个算法在特定类型的数据(如男性)上训练太多,然后很难识别新数据(如女性)中的细微差异,从而产生与原始数据(如男性)相同的输出。应该注意的是,过拟合是可以修复的,但是它需要大量的手工工作,以便有人将特定的差异编程到算法中。工作的价值可能大于也可能不大于成本。

数据偏差

数据偏差有多种形式和大小,有模拟的,也有数字的。数据偏差并不是什么新鲜事,只是当我们谈论ML时,它是一个更大的问题。一个看起来很小的偏差会变得指数式地重要,而且算法或模型运行的时间越长,就越难以检测。例如,假设我们有一个用于训练工作模型的基本数据集。在这个数据集中,所有的男性都是医生、工程师和建筑工人,所有的女性都是护士、秘书和教师。这本身不是问题,因为男性可以成为医生、工程师和建筑工人,而女性可以成为护士、秘书和教师,但由于我们谈论的是计算机而不是人,计算机将无法检测到女性可以成为工程师,除非我们用数据证明这一点。

现在让我们假设这个最初的模型被用在一家大公司中寻找工作的新候选人。一名员工在搜索工程师候选人时,得到的结果都是男性,有人可能会觉得这很奇怪,但也有人可能会想,“好吧,大家都知道女工程师不多,所以我想这是有道理的……肯定是管道问题”,然后继续他们的下一个任务。这当然不是因为没有女工程师,而是因为算法只能识别男性工程师。这是一个会从后端强化性别刻板印象的问题,这意味着作为一个普通的前端仪表板用户,如果不是不可能的话,将非常困难地检测到这个问题。

这是一个基于挖掘的人工智能要清楚地描述问题,但数据偏差可以通过许多不同的方式影响结果。数据偏差中最紧迫的问题是妇女和女童的总体缺席适当的表示特别是训练数据集。如果它们在数据集中没有得到恰当的表示,那么就好像这些关注点根本不存在一样。

研究中数据偏差的三个主要类别是选择偏差(规划)、信息偏差(数据收集)和混杂偏差(分析)。认知偏见,在我们的例子中是性别偏见,可以跨越所有的数据偏见。数据中性别偏见的结果是,解决方案或证据要么是忽略了整体情况,最好的情况是小规模影响,最坏的情况是在全球强化了几代人的性别刻板印象。世界比以往任何时候都更密切地关注数据偏差,因为我们认识到,我们的世界越是数字化,我们的生活中就会以指数级编码更多的主义。想想技术的发展有多快,想想它是如何跨越每一个工作领域的。数据和技术是性别歧视或平等未来的关键。

数据安全,

我们将从基于性别的暴力(GBV)的角度来看待数据安全——这主要是关于尚未完全承担相关风险的技术解决方案收集而且分享个人资料的考虑。这适用于大多数性别平等项目,因为甚至对性别规范或赋予妇女权力的质疑(或质疑)也往往是敏感和政治性的。在与性别暴力幸存者合作时,情况更是如此。

当进入性别平等或基于性别的暴力领域时,新行为者的第一个可以理解的冲动是根据位置找到流行数据,但这可能是危险的。我们都希望了解这方面的信息,但人们常常忽视的是,性别平等和基于性别的暴力数据是复杂的,不能像对待其他类型的数据一样对待。基于性别的暴力事件数据尤其如此,但随后采用了代理指标(与性别平等指标即使不完全相同,也非常相似)。分享任何特定地区的学校或学生数量可能不会有问题,但如果性别暴力幸存者的姓名和或位置或感知到的妇女赋权活动人士被分享给了错误的人或团体,那么结果可能是反弹,暴力增加,甚至可能是死亡。

在处理性别平等数据时,整个过程需要从全球范围内的理解出发有三分之一的女性在他们的一生中遭受过身体或性暴力,大多数针对妇女的暴力是由亲密伴侣.这意味着,仅仅询问关于性别平等或基于性别的暴力的问题就可能使三分之一的女性面临风险。因此,所有的性别平等项目都应该仔细审查其收益是否大于风险。

充分评估性别平等和基于性别的暴力项目数据收集的风险对妇女安全至关重要。

在具体处理基于性别的暴力事件数据时需要注意的是,同样重要的是要认识到,基于性别的暴力数据在很大程度上被低估了,因此任何使用数据的人都必须了解在ML工具中使用这些数据的局限性和可能的算法偏差。此外,在没有适当的性别暴力应对服务的情况下收集这类信息是一种行为道德有问题

性别科技-

性别盲技术是指任何未分析产品对男性和女性的不同影响的技术解决方案。这意味着不仅要看产品对不同性别的危害是大还是小,还要看它的用处是大还是小。不考虑性别的后果可能有很大不同。最好的情况是,这项技术对男性和女性的积极和消极结果是一样的,但最坏的情况是,它可能对男性只有积极的结果,对女性只有消极的结果。这真的适用于任何科技产品,数字或不.本文中给出的许多例子都是性别盲技术,如果我们从一开始就考虑到性别因素,这些技术很可能会被避免或最小化。

虽然我们不能客观地说任何技术是真正的性别盲,除非创造者明确承认他们没有进行性别影响分析,但我们可以基于我们所拥有的信息做出假设。

让我们以Siri为例。Siri是一款女声机器人或虚拟助手,旨在为数百万日常用户提供信息。当用户说“嘿,Siri,你是双性恋”或其他粗糙性的命令对方的回答是一个轻浮的“如果可以我会脸红”。这并不能证明科技是不分性别的,但它显然预示着一个更大的问题。当我们仔细观察Siri、Alexa和谷歌Home的内部工作原理时,我们发现它们都使用ML并与之操作自然语言处理(NLP),使用大语言模型(LM)通常包括传统性别字嵌入例如:男人之于电脑程序员,犹如女人之于家庭主妇。这意味着,Siri除了会对口头性骚扰做出轻浮的回应外,还会做出性别偏见的回应。

尽管据称开发这些机器人的公司存在偏见,但我认为可以肯定的是,它们没有进行彻底的性别影响评估,Siri绝对属于性别盲技术类别。

除非我们有意分析并纳入不同女性和女孩的声音,否则科技将继续由她们创造,并为她们服务。”默认的男人”。


关于作者

斯蒂芬妮·米克尔森(Stephanie Mikkelson)是一名发展实践者和全球研究员,专注于为大型国际非政府组织和联合国机构提供负责任的性别数据和数字解决方案。

本文最初发表于Medium,经授权在此转载。参见原文和其他文章斯蒂芬妮·麦克尔森

标签:性别数字鸿沟性别平等ICT访问

斯蒂芬妮·麦克尔森

留下你的评论

登录置评。

    由工程师。
    适合所有人。

    E4C会员资格是精心策划的体验!当您成为会员后,我们将根据您长期使用我们内容的方式为您定制独特的用户资料。您的行为和偏好将使我们能够为您提供与您最相关的内容。此外,成为E4C会员将使您获得独家参与的机会和E4C通讯。

    加入E4C,成为相信工程可以改变世界的全球社区的一员!

    成为一员