首页 500强 活动 榜单 商业 科技 商潮 专题 品牌中心
杂志订阅

史上最大规模AI招聘算法研究发现,超过25%的黑人求职者受到偏见影响

Nick Lichtenberg
2026-05-28

亚裔求职者同样受到明显影响。

文本设置
小号
默认
大号
Plus(0条)

图片来源:Zia Soleil/Getty Images

这项迄今为止针对人工智能招聘算法开展的规模最全面的独立研究发现,用于筛选数百万求职者的相关工具存在明显的种族差异。黑人求职者提交的简历中,超过四分之一会被算法分配至特定岗位,而该算法在这类岗位上的判定结果已触及联邦反歧视审查标准。

该研究论文题为《招聘领域的算法单一化困境》,由斯坦福大学、查普曼大学与东北大学的学者联合撰写,将于下月在蒙特利尔举办的美国计算机协会公平、问责与透明度会议上正式发布。研究分析了300万名求职者向156家用人单位(多为年收入50亿美元及以上的公司)提交的400余万份求职申请,全部基于同一家人才测评平台——普迈智测(Pymetrics)——研发的算法而进行筛选。

作者写道:“我们在求职结局中发现了明显的种族差异。”

东北大学教授、论文合著者凯瑟琳·克里尔在接受《金融时报》采访时表示:“当单一服务商逐渐主导某一领域的决策环节,其算法存在的缺陷和问题便会波及整个行业,相比之下,以前很难出现这种情况。”《金融时报》此前已对该研究进行过报道。

普迈智测公司的所有者哈维(Harver)未回应置评请求。

算法如何工作以及问题出在哪里

普迈智测于2022年被收购,其算法被金融、制造、科技等多个行业的大型企业广泛采用。该平台在筛选求职者时不依赖简历,而是通过一系列线上游戏测评来评估风险承受能力、信息处理速度、利他精神等认知特质。长期以来,这家公司都宣称该测评方式比传统简历筛选更为客观,且其此前开展的分析并未发现触及法律审查标准的差异化问题。

而这项新研究推翻了上述结论。研究并非质疑普迈智测的数学方法,而是认为该公司提出了错误的问题。

此前,普迈智测在判断偏见水平时,会将所有合作企业、所有岗位的求职者数据和录用结果汇总在一起进行分析。与之不同的是,由斯坦福大学牵头的研究团队逐一分析了1746个独立职位——而这才是符合美国反就业歧视相关法律的做法,尤其是符合美国平等就业机会委员会(the Equal Employment Opportunity Commission)提出的“五分之四原则”。

逐岗分析后发现,在这个数据集里,10.62%的岗位对黑人求职者表现出不利影响:相较于录用率最高的种族群体,算法推荐黑人求职者的比例低于联邦规定红线。有30%的黑人求职者至少申请过一个这类岗位。黑人求职者提交的全部申请中,25.87%(近4万份) 都投向了被联邦准则认定为算法存在歧视性结果的岗位。

亚裔求职者同样受到明显影响。他们提交的申请里,有14.74% 被投向带有歧视性结果的职位。

研究作者表示:“将各独立岗位数据汇总至职业组别进行分析,会掩盖单个岗位存在的不利影响。”他们认为,仅公布汇总结果的做法,是对联邦相关规定解读不当,至少也是解读不全面。

“算法黑名单”效应

该研究的第二项主要发现对求职者的影响或许更为深远:同一家服务商的算法在不同雇主之间高度相关,求职者被一家公司拒之门外,很大概率也会被下一家公司拒绝。

研究人员将这种现象称作“系统性拒录”。在申请了10个由普迈智测筛选的职位的求职者中,有4%的人被全部职位拒绝——倘若每家雇主独立做出招聘决定,这个比例会远低于4%。

具体来说,当求职者完成普迈智测的测评游戏后,测评分数会被留存并在最多330天内重复使用。如果两家不同企业都使用该系统,求职者并非接受两次独立测评,而是两次沿用同一套分数。不少求职者在不知情的情况下,被算法同时挡在了多家公司门外。

研究人员将此描述位“算法拉黑”。这一概念此前仅存在于学术理论中,本次研究首次依托大规模实际应用数据,证实了该现象的存在。

为了解问题有多深,研究团队进行了一次大规模模拟,为探明问题的严重程度,研究团队开展了大规模模拟测试,利用了算法与人类评审员不同的一点:算法每次对相同输入都会产生相同输出。他们请普迈智测对其模型运行1000名求职者的样本,对照数据集里的每一个适用职位。好消息是:没有求职者被所有模型拒绝。坏消息是:为了将系统性被拒的概率降至0.1%以下,一名求职者需要申请至少25个不同的职位——而如果招聘决策是独立的,投10份简历就够了,前者数量比后者的两倍还多。

研究人员还指出,普迈智测的推荐结果仅能让求职者进入人工审核候选名单,并无法保证获得面试机会。

集中化问题

这项研究结果出炉之际,人工智能招聘行业已呈现高度集中的态势。该论文指出,截至2023年5月,《财富》美国100强企业中超六成、美国十大联邦机构里有八家,都在使用海视维(HireVue)的算法。研究人员警示,行业集中化带来的风险不止于算法偏见:一旦某家头部服务商系统瘫痪,或是其算法被认定存在歧视问题,数千家用人单位的招聘工作都将同步陷入停滞。

研究作者写道:“不同企业共用同一套招聘算法处理部分招聘流程,会影响整体不利影响的发生率,并催生系统性拒录现象。”

政策启示

目前,美国与欧洲的监管机构都在积极探索如何监管人工智能招聘工具。纽约市早在2021年就出台了《第144号地方法律》,这也是全球首部专门针对算法招聘的法规。但研究发现,当地现行监管指引要求审计人员整合不同岗位、不同企业的数据,而这种汇总统计方式,恰恰会掩盖各类不公问题。

在欧洲,《欧盟人工智能法案》直接将招聘算法划定为高风险人工智能系统,相关合规要求将于2026年8月2日正式生效,距今只有几周之遥。

研究团队提出四条建议:在职位层面衡量不利影响;加强跨雇主的市场监督;监测算法集中化的风险;以及参照欧盟《数字服务法案》中要求大型平台向学术研究者开放数据的相关条款,建立合法渠道,允许独立研究人员调取招聘算法相关数据。

最后一条建议也暗含一条警告。本次研究得以开展,是因为普迈智测在一项保证研究人员独立性的协议下自愿提供了数据。研究人员坦言,他们的发现可能会让其他服务商不愿再开放数据,继续将算法置于黑箱状态。

他们写道:“独立研究对于揭开招聘算法的神秘面纱是很必要的。”倘若缺少这类研究,本次发现的种族差异问题——波及美国多家大型企业的数万名求职者——或许将永远不为人知。(财富中文网)

本文记者在报道中使用生成式AI作为研究工具。编辑在发布前核实了信息的准确性。

译者:珠珠

这项迄今为止针对人工智能招聘算法开展的规模最全面的独立研究发现,用于筛选数百万求职者的相关工具存在明显的种族差异。黑人求职者提交的简历中,超过四分之一会被算法分配至特定岗位,而该算法在这类岗位上的判定结果已触及联邦反歧视审查标准。

该研究论文题为《招聘领域的算法单一化困境》,由斯坦福大学、查普曼大学与东北大学的学者联合撰写,将于下月在蒙特利尔举办的美国计算机协会公平、问责与透明度会议上正式发布。研究分析了300万名求职者向156家用人单位(多为年收入50亿美元及以上的公司)提交的400余万份求职申请,全部基于同一家人才测评平台——普迈智测(Pymetrics)——研发的算法而进行筛选。

作者写道:“我们在求职结局中发现了明显的种族差异。”

东北大学教授、论文合著者凯瑟琳·克里尔在接受《金融时报》采访时表示:“当单一服务商逐渐主导某一领域的决策环节,其算法存在的缺陷和问题便会波及整个行业,相比之下,以前很难出现这种情况。”《金融时报》此前已对该研究进行过报道。

普迈智测公司的所有者哈维(Harver)未回应置评请求。

算法如何工作以及问题出在哪里

普迈智测于2022年被收购,其算法被金融、制造、科技等多个行业的大型企业广泛采用。该平台在筛选求职者时不依赖简历,而是通过一系列线上游戏测评来评估风险承受能力、信息处理速度、利他精神等认知特质。长期以来,这家公司都宣称该测评方式比传统简历筛选更为客观,且其此前开展的分析并未发现触及法律审查标准的差异化问题。

而这项新研究推翻了上述结论。研究并非质疑普迈智测的数学方法,而是认为该公司提出了错误的问题。

此前,普迈智测在判断偏见水平时,会将所有合作企业、所有岗位的求职者数据和录用结果汇总在一起进行分析。与之不同的是,由斯坦福大学牵头的研究团队逐一分析了1746个独立职位——而这才是符合美国反就业歧视相关法律的做法,尤其是符合美国平等就业机会委员会(the Equal Employment Opportunity Commission)提出的“五分之四原则”。

逐岗分析后发现,在这个数据集里,10.62%的岗位对黑人求职者表现出不利影响:相较于录用率最高的种族群体,算法推荐黑人求职者的比例低于联邦规定红线。有30%的黑人求职者至少申请过一个这类岗位。黑人求职者提交的全部申请中,25.87%(近4万份) 都投向了被联邦准则认定为算法存在歧视性结果的岗位。

亚裔求职者同样受到明显影响。他们提交的申请里,有14.74% 被投向带有歧视性结果的职位。

研究作者表示:“将各独立岗位数据汇总至职业组别进行分析,会掩盖单个岗位存在的不利影响。”他们认为,仅公布汇总结果的做法,是对联邦相关规定解读不当,至少也是解读不全面。

“算法黑名单”效应

该研究的第二项主要发现对求职者的影响或许更为深远:同一家服务商的算法在不同雇主之间高度相关,求职者被一家公司拒之门外,很大概率也会被下一家公司拒绝。

研究人员将这种现象称作“系统性拒录”。在申请了10个由普迈智测筛选的职位的求职者中,有4%的人被全部职位拒绝——倘若每家雇主独立做出招聘决定,这个比例会远低于4%。

具体来说,当求职者完成普迈智测的测评游戏后,测评分数会被留存并在最多330天内重复使用。如果两家不同企业都使用该系统,求职者并非接受两次独立测评,而是两次沿用同一套分数。不少求职者在不知情的情况下,被算法同时挡在了多家公司门外。

研究人员将此描述位“算法拉黑”。这一概念此前仅存在于学术理论中,本次研究首次依托大规模实际应用数据,证实了该现象的存在。

为了解问题有多深,研究团队进行了一次大规模模拟,为探明问题的严重程度,研究团队开展了大规模模拟测试,利用了算法与人类评审员不同的一点:算法每次对相同输入都会产生相同输出。他们请普迈智测对其模型运行1000名求职者的样本,对照数据集里的每一个适用职位。好消息是:没有求职者被所有模型拒绝。坏消息是:为了将系统性被拒的概率降至0.1%以下,一名求职者需要申请至少25个不同的职位——而如果招聘决策是独立的,投10份简历就够了,前者数量比后者的两倍还多。

研究人员还指出,普迈智测的推荐结果仅能让求职者进入人工审核候选名单,并无法保证获得面试机会。

集中化问题

这项研究结果出炉之际,人工智能招聘行业已呈现高度集中的态势。该论文指出,截至2023年5月,《财富》美国100强企业中超六成、美国十大联邦机构里有八家,都在使用海视维(HireVue)的算法。研究人员警示,行业集中化带来的风险不止于算法偏见:一旦某家头部服务商系统瘫痪,或是其算法被认定存在歧视问题,数千家用人单位的招聘工作都将同步陷入停滞。

研究作者写道:“不同企业共用同一套招聘算法处理部分招聘流程,会影响整体不利影响的发生率,并催生系统性拒录现象。”

政策启示

目前,美国与欧洲的监管机构都在积极探索如何监管人工智能招聘工具。纽约市早在2021年就出台了《第144号地方法律》,这也是全球首部专门针对算法招聘的法规。但研究发现,当地现行监管指引要求审计人员整合不同岗位、不同企业的数据,而这种汇总统计方式,恰恰会掩盖各类不公问题。

在欧洲,《欧盟人工智能法案》直接将招聘算法划定为高风险人工智能系统,相关合规要求将于2026年8月2日正式生效,距今只有几周之遥。

研究团队提出四条建议:在职位层面衡量不利影响;加强跨雇主的市场监督;监测算法集中化的风险;以及参照欧盟《数字服务法案》中要求大型平台向学术研究者开放数据的相关条款,建立合法渠道,允许独立研究人员调取招聘算法相关数据。

最后一条建议也暗含一条警告。本次研究得以开展,是因为普迈智测在一项保证研究人员独立性的协议下自愿提供了数据。研究人员坦言,他们的发现可能会让其他服务商不愿再开放数据,继续将算法置于黑箱状态。

他们写道:“独立研究对于揭开招聘算法的神秘面纱是很必要的。”倘若缺少这类研究,本次发现的种族差异问题——波及美国多家大型企业的数万名求职者——或许将永远不为人知。(财富中文网)

本文记者在报道中使用生成式AI作为研究工具。编辑在发布前核实了信息的准确性。

译者:珠珠

The most comprehensive independent study of AI-powered hiring algorithms ever conducted has found stark racial disparities embedded in the tools used to screen millions of job applicants, with more than one in four applications submitted by Black job seekers directed to positions where the algorithm produces outcomes that trigger federal discrimination scrutiny.

The paper, “Algorithmic Monocultures in Hiring,” was authored by researchers at Stanford University, Chapman University, and Northeastern University, and will be presented at the ACM Conference on Fairness, Accountability, and Transparency in Montreal next month. It analyzed more than 4 million job applications submitted by 3 million applicants across 156 employers — mostly companies with $5 billion and up in annual revenue — all screened by algorithms built by the same vendor, a talent platform called Pymetrics.

“We find clear racial disparities in applicant outcomes,” the authors write.

“As a single vendor comes to dominate decision-making in a space, their quirks or shortfalls can be present across that entire sector in a way that wasn’t possible before,” Northeastern professor and research co-author Kathleen Creel told the Financial Times, which previously reported on the study.

Pymetrics’ owner, Harver, did not respond to a request for comment.

How the algorithm works—and where it breaks down

Pymetrics, which was acquired in 2022 and whose algorithms are used by major employers across finance, manufacturing, and technology, screens applicants not through resumes but through a battery of online games designed to measure cognitive traits like risk tolerance, processing speed, and altruism. The company has long marketed this approach as more objective than traditional resume screening, and, in its own prior analysis, found no disparities that rose to the level of legal scrutiny.

The new research challenges that conclusion — not by disputing Pymetrics’ math, but by arguing the company was asking the wrong question.

Pymetrics had measured bias by pooling all of its applicants and outcomes together, across all employers and positions. The Stanford-led team instead analyzed each of the 1,746 individual positions separately, which is how U.S. employment discrimination law — specifically the Equal Employment Opportunity Commission’s so-called “four-fifths rule” — is actually designed to be applied.

When analyzed position by position, 10.62% of jobs in the dataset showed an adverse impact on Black applicants, meaning the algorithm recommended Black candidates at a rate below the federal threshold relative to the most-selected racial group. Thirty percent of Black applicants applied to at least one such position. And 25.87% of all applications submitted by Black applicants — nearly 40,000 submissions — were for positions where the algorithm produced what federal guidelines define as discriminatory outcomes.

Asian applicants were also significantly affected: 14.74% of their applications went to positions with discriminatory outcomes.

“Aggregating from individual positions to occupation groups suffices to mask the per-position adverse impact,” the authors write, calling the practice of reporting only aggregate results an “improper, or at minimum an incomplete,” interpretation of federal guidance.

The ‘Algorithmic Blackball’ effect

The study’s second major finding may be even more consequential for job seekers: the same vendor’s algorithms are so highly correlated across employers that being rejected by one company meaningfully predicts rejection by the next.

Researchers call this “systemic rejection.” Among applicants who applied to 10 positions screened by Pymetrics, 4% were rejected from every single one — a rate statistically higher than what chance would predict if each employer were making independent decisions.

To put that in concrete terms: when an applicant plays Pymetrics’ assessment games, their scores are stored and reused for up to 330 days. If two different companies both use Pymetrics, an applicant isn’t really getting two separate evaluations — they’re getting the same score, twice. Some applicants are, in effect, algorithmically locked out of multiple companies at once without knowing it.

The researchers describe this as an “algorithmic blackball” — a term previously theorized in academic literature but never before documented at this scale in deployed real-world data.

To understand how deep the problem runs, the team ran a large-scale simulation, exploiting the fact that algorithms — unlike human reviewers — produce the same output for the same input every time. They asked Pymetrics to run its models on a sample of 1,000 applicants against every applicable position in the dataset. The good news: no applicant was rejected by all models. The bad news: to reduce the probability of being systemically shut out to below 0.1%, an applicant would need to apply to at least 25 different positions — more than double the 10 applications that would suffice if hiring decisions were made independently.

And, the authors note, a Pymetrics recommendation only gets an applicant into the pool of candidates reviewed by a human. It doesn’t guarantee an interview.

The concentration problem

The findings land at a moment when the AI hiring industry has become highly concentrated. As of May 2023, over 60% of the Fortune 100 and eight of the 10 largest U.S. federal agencies used HireVue’s algorithms, according to the paper. The authors warn that this concentration creates systemic risks beyond bias — if a single dominant vendor goes offline or is found to be producing discriminatory outcomes, hiring at thousands of employers could be disrupted simultaneously.

“By consolidating part of the hiring decision process across distinct employers, hiring algorithms impact collective adverse impact rates and patterns of systemic rejection,” the authors write.

Policy implications

The study arrives as regulators in both the U.S. and Europe are actively grappling with how to govern AI hiring tools. New York City passed Local Law 144 in 2021, the first legislation directly targeting algorithmic hiring — but the authors found that its existing government guidance appears to instruct auditors to pool data across positions and employers, exactly the aggregation method they argue masks disparities.

In Europe, the EU AI Act designates hiring algorithms as high-risk AI systems by default, with compliance requirements taking effect August 2, 2026 — just weeks away.

The authors make four policy recommendations: measure adverse impact at the position level; strengthen cross-employer market surveillance; monitor risks from algorithmic concentration; and create legal pathways for independent researchers to access hiring algorithm data, similar to provisions in the EU’s Digital Services Act that compel large platforms to share data with academics.

The last point carries an implicit warning. This study was only possible because Pymetrics voluntarily provided its data under an agreement that guaranteed the researchers’ independence. The authors acknowledge their findings could inadvertently discourage future data sharing by vendors who would prefer their algorithms remain opaque.

“Independent research is necessary to illuminate otherwise-opaque hiring algorithms,” they write. Without it, the racial disparities documented in this study — affecting tens of thousands of applicants across some of America’s largest companies — might never have come to light.

For this story, Fortune journalists used generative AI as a research tool. An editor verified the accuracy of the information before publishing.

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
0条Plus
精彩评论
评论

撰写或查看更多评论

请打开财富Plus APP

前往打开