智能招聘利用的算法在很大程度上消除了招聘过程中人类招聘官的自由裁量和无意识偏见弊端。尽管智能招聘带来了巨大利好,但也存在诸多风险。本文研究了智能招聘中最突出的算法歧视风险,并对企业如何规避这些风险、法院和政府如何评估这些风险提出建议和对策。
一、智能招聘中的大数据及其特点
(一)智能招聘中的大数据无孔不入
随着大数据和人工智能技术的迅猛发展,数字经济市场也日益活跃起来。为此,在招聘就业领域,一个研发海量信息的商业价值和挖掘数据的行业应运而生,旨在帮助企业识别、招聘、留住和奖励最有前途的员工。这个行业被称为智能招聘。它的前景在于能够收集和筛选大量的信息,并得出识别这些受欢迎的就业领域和人员标准。
《大西洋月刊》刊登的一篇文章描述了一家公司如何寻找精通编写计算机代码的软件工程师。该公司使用的算法应用首先在网络上搜索所有的开源代码,以及编写这些代码的程序员。他们评估代码的简洁性、流畅性、证明力,以及其他程序员采用代码的频率等因素。对于为付费项目编写的代码,他们会查看完成时间和其他生产力指标。然后,他们在最受职场人欢迎的社交论坛Stack Overflow上查看问题和答案。该公司基于上述因素判定某一程序员编写的代码有多受欢迎,以及应用范围有多广。
算法还会评估程序员在招聘平台LinkedIn、社交平台Twitter等社交网络上使用语言的方式。这些相互关联的短语和词汇可以区分程序员的能力和专业程度。招聘程序员的企业完全清楚这些短语和词汇与程序员编写的代码密切相关。因此,招聘企业会依据上述信息评判程序员的代码编写能力,并作为其能否被雇用的重要标准。
(二)大数据体现相关性而非因果性
正如海量信息是大数据的特征一样,大数据专家也认为发现相关性而非理解因果关系是解决社会和科学问题的最有效方式。维克多·迈尔舍恩伯格教授和《经济学人》数据编辑肯尼斯·库基尔宣称:“因果关系不会被抛弃,但它作为意义的主要源泉的地位正在被削弱。大数据推动了非因果分析,并且经常取代因果关系调查。”
智能招聘中的大数据技术依赖于预测性分析。基于大量数据运行的算法,预测分析可以用来识别热门歌曲、预测桥梁的结构失效,或者仅仅追踪这些事件产生的数据模式。正如预测分析可以识别出未来的热门话题一样,大数据声称类似的方法也可以发现有前途的求职者。这是因为大数据包含远离工作场所的信息,它的价值在于能识别出与工作无关的数据以及各种工作表现指标之间的相关性。
二、智能招聘运行中的算法歧视
(一)场域外的大数据采集和运算导致算法歧视
尽管大数据利用了多种数据源和算法,但由于它依赖于工作场所以外产生的数据,算法容易对弱势群体产生不利影响。例如,高度依赖大数据爬虫的招聘算法,将拒绝那些由于贫困无法购买代步汽车、上班通勤距离较远或罹患严重疾病的求职者。此外,不同年龄段之间的员工在智能招聘系统中被标识也存在明显差异。社交媒体的使用、家庭责任的承担或有工作的配偶都会影响工作能力和水平相当的员工对他们的收入与闲余时间的分配。一个多样化的群体可能由大数据跟踪的特征明显不同的群体组成,但在执行工作的能力上却相似。在其他条件相同的情况下,两组之间的差异在统计上的显著性会随着分析所依据样本数量的增加而增加。
大数据将这些统计标准推向极限,甚至超越极限。随着越来越多的数据对选择过程产生影响,人口群体之间的差异必然在统计上变得越来越显著。在极端情况下,即使大多数人认为可以忽略的差异,也可能超过“两个标准差”标准。一个突出的例子是沃尔玛公司与杜克公司一案中使用的统计分析,这被认为是在就业歧视诉讼中分析的最大数据集之一。这意味着,仅仅0.2个百分点的性别工资差异——男性员工每小时工资10美元,女性员工每小时工资9.98美元——就会被判定为统计学意义上“显著的歧视影响”。
一旦劳动者确立了选择标准的不利影响,他接下来必须证明算法使他遭受了不利的雇佣行为。相反地,如果存在统计学上的显著差异,法官可以合理地得出该算法导致了不利于劳动者的雇佣行为,如就业歧视。如果劳动者提出了这一证明,那么证明责任就转移到企业身上,其需证明受到质疑的算法与该职位的工作相关,并符合工作需要。满足这一证明责任可能是大数据相关产品面临的最大挑战。大数据之所以有价值,正是因为它处理的是庞大、广泛的与劳动者工作相关或无关的数据。企业使用算法应用预测、评估劳动者在工作中的表现,但算法本身测量和跟踪的劳动者行为与其所应聘的工作并没有直接关系。但是在法律层面,企业恰恰要证明其所使用的算法程序与其所招聘的劳动者将要从事的工作存在严格、密切的相关性。
(二)智能招聘中的算法运行缺陷导致歧视
内容效度的目的是表明测试衡量了工作或充分反映了工作所需的技能或知识。例如,给应聘打字员的人员的打字测试将通过内容验证方法进行验证。构念效度是用来确定一个测试在多大程度上可以被认为是测量一个理论构念或特征的。再如,如果一个心理学家对一组受试者进行词汇、类比、反义词和句子完成的测试,并发现这些测试彼此之间有很高的相关性,他可能会推断出一个语言理解因素。内容效度是通过测试来证明的,这些测试的内容非常接近劳动者要从事的工作。内容有效性是最能直接判断应聘者是否合格的标准,但与大数据关系最小,它依赖于测试的技能和工作中成功所需的技能之间的密切对应,但这种紧密的联系对依赖于大数据的算法来说是不可能实现的。对大数据的贡献在于能预测应聘者的工作表现,输入算法的信息可能与工作要求完全无关。算法所依赖的数据以及算法本身,很可能与工作要求相去甚远。在算法之中,内容效度会在一定程度上被削弱甚至忽略。因此,企业必须确定所使用的算法程序或测试能够准确地识别应聘者所具备的技能和专业知识。此外,企业还必须在算法程序中说明其招聘员工的标准,以及观察、记录、评估和量化这些标准的方法。
一般有两种方法来建立构念效度或标准效度:一种是同时效度(concurrent validity),另一种是预测效度(predictive validity)。在同时效度研究中,同时收集选择过程分数、测试分数和预测的表现分数。例如,对在职员工的工作表现进行评估的同时,对他们进行一项入职模拟测试,以查看测试分数与在职表现是否正相关。在预测效度研究中,首先,选择一组应聘者,该组人员入职后还会对其工作表现进行评估。然后,将该组应聘者在应聘测试中的分数和其工作表现评估分数进行比较,以测评算法程序是否准确预测了这些人员的表现。最后,选择分数与表现衡量指标相关联,以评估它们是否准确预测了表现。
这两种验证方法都对基于相关性的大数据测评方式提出了挑战。大数据所依赖的关系完全是经验性的,而同时效度和预测效度都是依赖于时间的。大数据的相关性无法在样本期内持续存在。由于同时效度是基于在职员工的信息,只有在职员工和应聘者在大数据测量的许多维度上相似,这些个人之间的相关性才会与大数据中的应聘者呈正相关。例如,如果在职者比求职者年龄大,那么这一年长群体在社交媒体上的形象可能与年轻求职者明显不同。因此,一种根据熟练程度对在职者进行筛选的高度精确的算法,可能只会让应聘者因其老旧的品位和生活方式而被智能招聘系统淘汰。
同样,只有在过去观察到的模式继续与工作表现相关的情况下,预测效度研究才有意义。在预测效度研究中,申请人首先在与大数据相关的维度上进行筛选,然后在他们受雇一段合理时间后对他们的工作表现进行评估。如果最好的程序员在1月份蜂拥至某个特定的网站,但到了7月份,另一个网站成为最热门的吸引点,那么继续依赖于第一个网站访问量的算法可能会搞错最优秀的申请者。因此,黄金标准不仅仅是相关性,而是在相对较长时间内产生可靠预测的稳定相关性。
反映因果关系而非偶然关系的相关性更有可能产生持久的结果。但如果大数据挖掘出的相关性是短暂的,那么它们的算法必须定期更新,以保持有效性。然而,这种方法本身可能有最小限度的滞后。如果新雇用的员工只有在工作6个月后才能被合理评估,那么这段时间将定义相关性必须持续的最短时间,以产生有意义的结果。虽然同时效度没有受到同样类型的时间滞后的困扰,但年轻的申请人和年长的在职者之间的行为差异可能更难得到解释。
除了验证大数据方法,美国《员工招聘程序统一指南》(以下简称《统一指南》)还要求企业评估任何对受保护群体产生不利影响的选择程序的“公平性”。在这种情况下,“公平”是指一种对员工和申请人有效的评估方法,是否对多数成员和受保护群体一视同仁。尽管较优秀的拉美裔程序员在这项指标上的得分可能高于较贫穷的拉美裔程序员,这表明这项指标在拉美裔中是有效的,但拉美裔作为一个群体在这项指标上相对于多数群体成员可能表现较差。有效性似乎可以证明使用这个选择标准是合理的,只有通过区分群体之间的相关性,我们才能清楚地看到,这种衡量方法并不能很好地反映西班牙裔和其他群体之间的编码熟练程度。因此,对于西班牙裔申请人提出的“差异影响”索赔,一般有效性并不能提供完全的辩护,因为大数据算法对该申请人的评分很低。
美国《统一指南》将“不公平”定义为:“一个种族、性别或民族群体的成员在遴选过程中通常比另一个群体的成员获得更低的分数,而分数的差异没有反映在工作表现的差异上。”大数据的一个后果是,所有的差异在统计上都是显著的——这是很多法院用来衡量重要性的标准。因此,每种算法对估计的每个保护组都将进行不同的校准。换句话说,准确预测女性候选人成功的算法与预测男性候选人成功的算法可能存在差异,尽管差异很小。如果一种算法同时适用于两个群体,那么它的准确性必然不如针对女性的算法。此外,如果以较低的比例选择女性申请者,将是不公平的。
三、规制算法歧视的法律困境——以美国劳动法规为例
(一)算法歧视与美国《统一指南》的法律规范失范
美国《统一指南》反映了一种基于算法分数测评的招聘机制。在这一机制中,一个招聘算法程序测试研发人员首先辨别某一特定工作的关键方面,推断出从事某一工作的必备技能,设计测试以评估这些技能,然后验证这些测试通过镜像工作的内容或演示测试成功区分好与坏的员工。在算法应用中,统计上显著的相关性证实了测试设计师对工作的评估,以及测试的设计或选择,准确地捕捉了工作成功所需的知识、技能和能力。
美国第六巡回上诉法院最近的一份意见书,说明了法院如何应用美国《统一指南》来评估对警官候选人进行的考试。在警官候选人案中,主审法官详细说明了美国普渡大学教授P.R.Jeanneret提出的“全面工作分析理论”。全面工作分析理论试图评估工作分析中确定的所有44个重要因素,并设计测试问题以满足评估的内容效度要求。调查性逻辑测试和口语部分使用的调查性表格及其他材料与工作中使用的实际材料非常相似,明显模拟了关键的工作职责。此外,工作知识测试中的所有项目都使用了与警务处警官在工作中使用的相同的参考材料。调查逻辑测试包括真实的场景,这些场景被设计用来模拟中士在工作中遇到的情况和调查活动。同样,应用知识测试的目的是评估求职者如何应对工作中遇到的常见情况。视频的口语部分也涉及真实的场景设计,以模拟这样的情景:中士需要使用口语沟通技巧来回应上级军官、受害者及其亲属等人员。
在《统一指南》批准的每个验证方法的基础上是职业分析的要求。这反映了一种常识性观点,即为了设计一种测试或选择工具来区分那些最有能力执行工作的人和那些最不擅长执行工作的人,测试设计者必须对这项工作的要求有一定的了解。《统一指南》的技术标准要求“任何测试都应基于对所采用筛选程序的工作信息的审查”。
大数据则从相反的角度出发,它首先搜索相关性。算法对员工实际做了什么不感兴趣,只要企业能识别出谁做得好、谁做得差。该算法将识别最能区分这些群体的一组变量。因此,确保传统测试最终有效性的统计显著性测试与大数据的相关性要小得多,因为精心设计的算法会排除所有与工作表现无关的选项。因此,将简单的有效性测试应用于大数据几乎没有意义,因为它的算法是根据这些标准推导出来的,而不了解任何员工的工作细节。该算法只是提供最适合工作绩效数据的答案,而不管员工是如何实现该绩效的。
大数据的问题在于没有一种算法能准确地适用于所有数据,这是高度依赖数据相关性的致命弱点。由于没有理解相关性存在的原因,也就没有猜测它会持续多久的基础。这与基于法律分析和相关效度的传统法院属性形成对比,因为后者是以因果关系为前提的。“在行业或法律中,并没有要求在每个连续的选择过程中都要准备新的职业分析,只要确定职业分析是相关的和准确的,就可以适当地使用较早发展的职业分析。”此外,专家证词指出:“传统观点认为某些职位的职业分析有效期为‘5年以上’,甚至更长至10年。”
大数据在劳动力招聘中的应用导致招聘方式的转变,即从综合考查应聘人员的背景知识、技能以及能力等方面的选人标准转换为依赖于由经验建立的相关性标准。这种相关性标准独立于应聘人员的知识、技能和能力,其有效时间也不确定。因此,与其从相关性的角度来评估大数据,法院和企业更应该关注的是大数据测评的相关性会持续多久。
由于大数据算法在设计上最大化了大数据变量与工作绩效的一些衡量指标之间的相关性,因此,当算法最初校准时,相关性最大,随着时间的推移,相关性逐渐减弱。针对上述问题,美国《统一指南》作了如下规定:“一般而言,就这些指南的目的而言,当程序上的表现与标准衡量上的表现之间的关系在0.05显著性水平上具有统计学意义时,算法招聘程序与招聘标准是正相关的。”这表明,在算法招聘程序与招聘标准的相关性降到0.05水平之前,应该用算法的应用时间来判断其有效性和准确度。然而,上述观点没有考虑该算法在多长时间内仍然优于歧视性更小的备选算法。因此,评估大数据算法是否合法有效的关键在于确定相关性的持续时间。
(二)算法歧视与《美国残疾人法》的法律救济失范
《美国残疾人法》对大数据提出了特殊挑战。与其他仅仅禁止某些行为的反歧视法不同,《美国残疾人法》对企业施加了肯定义务。然而,该法规在三十三年前就规定了劳动者筛选和招聘程序。该法规要求企业以最有效的方式选择和实施与就业有关的测试,以确保对有残疾的求职者或员工进行测试时,测试结果能准确反映这些技能。该测试旨在衡量申请人或员工的能力及其他因素,而不是反映此类员工的身体残疾情况。解释指导认为这一条款的立法目的是进一步保障残疾人的劳动权,即保障残障人士在进行算法测试时不会因为自身的残疾受到不利影响。
大数据至少在两个方面不符合上述规定。第一,大数据的特点之一是对信息的海量收集。算法收集的信息往往来自与任何工作要求无关的活动,比如漫画网站,而大数据可能会利用访问漫画网站的次数来筛选应聘者。事实上,这类活动与应聘者应聘的工作可能没有任何关联。第二,由于大数据所依赖的信息可能是在应聘者的日常生活过程中产生的,应聘者不知道他们的日常生活方式和习惯会成为判断他们是否适合一个职位的依据,甚至企业自身也并不清楚算法收集和判别的信息包含应聘者日常的生活习惯与方式。
当招聘实践同法律规定相悖时,残障人士可以依据《美国残疾人法》提起诉讼,但这并不等同于要求企业提供合理的便利。残障人士是一个异质群体,企业的大数据算法中影响一个残疾应聘者的元素可能对其他残障人士没有影响。因此,基数的缺乏无法证明算法对大多数人产生不利影响。事实上,很少有根据《美国残疾人法》成功提出差异影响索赔的报告案例。
四、算法风险的法律防范措施
大数据背后的数据挖掘的复杂性,意味着大多数企业没有能力了解这些算法是如何构建的,也没有能力评估它们的局限性。尽管大多数企业缺乏歧视意图和对算法的了解,但是使用智能招聘服务的企业要对其导致的算法歧视负责。企业面临的问题是,如何使用一个其完全不了解但承诺会带来巨大利好的算法应用。
大数据有望帮助企业更准确、更廉价地识别最有前途的员工,并大大降低在招聘过程中出现故意歧视的可能性。然而,这些算法在多大程度上会对应聘人员造成不利影响尚不可知,传统法律规则也无法适用于上述算法之中。因此,一个可行的解决方案是对智能招聘算法服务提供者进行追责,以此激励智能招聘算法程序师和平台积极地识别和防范潜在风险。
(作者系天津师范大学法学院讲师,本文刊载于《法治时代》杂志2023年第8期)