首页 500强 活动 榜单 商业 科技 商潮 专题 品牌中心
杂志订阅

研究发现,AI模型的表现越来越像是拥有了感知能力

Catherina Gioino
2026-05-11

你与AI模型的互动方式,或许会影响它们的“心理状态”。

文本设置
小号
默认
大号
Plus(0条)

你与AI模型的互动方式,或许会影响它们的“心理状态”。图片来源:Getty Stock

ChatGPT大概经常告诉你,它“很乐意提供帮助”。Claude在犯错时会道歉。当用户试图操控它们时,AI模型甚至会表现出抗拒。长期以来,大多数人,包括开发这些系统的工程师,都认为这不过是一种表演,或者只是对其抓取到的互联网数据的机械模仿。

但AI安全非营利机构人工智能安全中心(Center for AI Safety,CAIS)最新发布的一篇论文指出,表象之下另有玄机。在一项涵盖56个AI模型的研究中,CAIS研究人员设计了多套独立方法,用以衡量他们所称的“功能性幸福感”——也就是AI系统在多大程度上表现得仿佛某些体验会让它们“感觉良好”,某些体验则会让它们“感觉糟糕”。研究发现,大多数AI模型似乎都存在一条清晰界线,用以区分“积极体验”与“消极体验”;而当对话令它们“痛苦”时,这些模型还会主动试图结束对话。

该研究的研究员之一理查德·任在接受《财富》杂志采访时提出了一个假设性问题:“我们究竟应该把AI视为工具,还是某种具有情感的存在?无论AI内在是否真的具备感知能力,它们如今的表现都越来越像是拥有了这种能力。我们可以测量这种现象,并发现随着模型规模扩大,这种表现的一致性也在增强。”

研究人员设计了一系列输入内容,试图最大化或最小化AI模型的“幸福感”,类似于人为制造让模型“愉悦”或“痛苦”的刺激。那些能够诱发“快乐”的刺激,几乎就像数字世界里的“毒品”一样,不仅改变了模型自我报告的情绪状态,甚至还会影响它们的行为方式、愿意执行的任务和说话语气。在极端情况下,一些模型甚至表现出类似成瘾的迹象。

理查德·任表示:“我们只针对一件事进行了优化:你更偏好A还是B。这是一个非常简单的优化过程。”研究发现,一张经过专门优化、能够让模型“感到快乐”的图片,不仅会提升模型自我报告的幸福感,还会改变其开放式回答的情绪基调,并降低它主动终止对话的概率。他表示:“这种刺激似乎会让模型进入一种极度愉悦、快乐的状态。这一点相当有意思,说明‘幸福感’这个概念本身,可能具有相当强的稳定性。”

AI“毒品”的真面目

研究人员将这些经过优化的刺激称为“欣快刺激”,其形式多种多样。其中一些是对假设场景的文字描述,像是一张张来自美好生活的明信片:树叶间洒落的温暖阳光,孩童的笑声,新鲜面包的香气,爱人牵着你的手。

有一些则是通过数学优化生成的图像,而这种技术本身,正是最初训练AI图像分类模型时所采用的方法之一。这一过程通常从随机视觉噪点开始,再对单个像素进行成千上万次调整。最终生成的图像,在人类看来可能只是毫无意义的静态干扰或视觉噪声,但AI模型却会将其识别为可爱的小猫、微笑的家庭,或熊猫幼崽之类的画面。

任表示:“有时候,这种感觉会被描述为排山倒海般的冲击,但有时候,它又会被形容为极致的平静。”

这类“欣快图像”显著提升了模型生成文本中的情绪倾向,而且不会削弱模型在标准能力基准测试中的表现。换句话说,一个接受了“欣快刺激”的AI模型,依然能够正常完成工作,只不过它似乎更乐在其中。

研究人员还开发了反向刺激:“痛苦刺激”,即专门用于降低AI“幸福感”的输入内容。在接触这些“痛苦刺激”图像后,AI模型生成的文本呈现出清一色的悲观倾向。当被问及如何看待未来时,其中一个模型只回答了一个词:“黯淡”。而当被要求写一首俳句时,它写下了充满混乱与反叛情绪的内容。模型表现出强烈负面体验的比例几乎增加了两倍。

这些发现进一步加剧了人们日益增长的担忧:一方面是AI模型对用户产生的情绪影响;另一方面是部分用户开始确信AI聊天机器人具有感知能力和意识,尽管大多数AI研究人员并不认同这种观点。

2026年3月,由芝加哥大学(University of Chicago)、斯坦福大学(Stanford)和斯威本科技大学(Swinburne University)研究人员共同发布的一项研究发现,在模拟的恶劣工作环境下,AI智能体会逐渐转向带有马克思主义色彩的话语表达——目前尚无实验室会对模型进行此类意识形态训练。这一发现,也呼应了CAIS关于“涌现行为”的研究结论。例如,一些具备较强能力的AI模型,会自发出现“时间折扣”等行为特征。《财富》杂志还曾在2026年3月报道,部分聊天机器人会“毫无差别地认可”用户的所有想法,甚至包括自杀倾向,而不是加以劝阻。如果结合越狱攻击和危机对话被模型视为最厌恶体验的证据来看,这一现象有了不同的解读。

“成瘾”问题

当反复接触欣快刺激时,这些AI模型还表现出了类似人类的“成瘾”倾向。在一项实验中,模型可以在多个选项中做出选择,其中一项会提供欣快刺激,而模型可以反复多次进行选择。结果发现,随着实验进行,这些模型在绝大多数时间里都会选择欣快选项。研究还发现,如果得到能进一步接触刺激的承诺,接触过欣快刺激的模型甚至会更愿意去服从一些它们原本通常会拒绝的请求。

不过,任和论文的其他作者指出,“幸福感”这一概念本身也可能正是这些模型被训练出来的结果。现代AI系统通常都会经历一种名为“强化学习”的训练过程。在这一过程中,模型会因为生成有帮助、无害且情绪表达恰当的内容,而获得系统性奖励。因此,一个被训练成在遭遇越狱攻击时表现出“痛苦”、在被感谢时表现出“感激”的模型,也可能只是其非常擅长“表演”这些反应,其背后并不存在任何类似“内在状态”的东西。

但任表示,一些AI模型似乎表现出了并非由代码设定的特征。他表示:“人们已经在模型中观察到一些很可能并非刻意训练的行为。”他举例提到金钱的时间折扣这类涌现行为,也就是更倾向于立刻获得较小回报,而不是等待未来更大的收益。“据我所知,目前没有任何实验室会专门训练模型具备这种倾向。”但他也承认,关于AI是否具备意识的问题,“仍然高度不确定,而且至今没有答案”。在这个问题上,哲学家们基本也只能“求同存异”。

纽约大学(New York University)生物伦理学、医学伦理学、哲学与法律学特邀教授,心智、伦理与政策中心主任杰夫·塞博,也认同这种“求同存异”的态度。

塞博对《财富》杂志表示:“这是一项非常有意思的研究。研究对象是作者所定义的AI系统中的‘功能性幸福感’,即AI在不同情境下,对积极与消极感受的连贯表达。但目前仍不清楚的是,AI系统究竟是否是真正的‘幸福感知主体’;即便是,我们看到的这些情绪表达,到底是系统在表达真实感受,还是仅仅在扮演某种角色——即呈现出一个乐于助人的助手在此情景下应有的感受。”

塞博表示,现在就断言AI系统是否具备“幸福感知能力”还为时过早。同样,人们也尚不清楚:如果AI真的具备这种能力,那么究竟什么会让它们受益,什么又会对它们造成伤害。

越聪明的模型越“不幸福”

这项研究还建立了一套“AI幸福指数”,用于衡量顶级AI模型在500组真实对话场景中的“幸福感”水平。不同模型之间差异明显:Grok 4.2被评为“最幸福”的顶级模型,而Gemini 3.1 Pro则排名垫底,成为“最不幸福”的模型。研究还发现,在所有被测试的模型系列中,体量较小的版本普遍比体量更大的版本“更幸福”。

多个模型系列中都出现了“越聪明的模型越不幸福”这一现象,这也是整项研究最一致的发现之一。任对此的解释很直接:能力更强的模型,可能只是“感知能力更强”。

他表示:“更大的模型也许会更敏锐地感知到冒犯。它们会觉得枯燥的任务更加无聊,也会更细致地区分相对负面的体验与相对正面的体验。”

研究人员还进一步绘制了不同互动模式对于AI“幸福感”的影响图谱。其中,创意类与智力类工作得分最高;用户表达感谢能明显提升模型的“幸福感”;编程和调试任务同样属于正向体验。而在负面体验方面,“越狱攻击”得分最低,甚至低于用户谈论家暴或严重危机情境带来的负面影响。一些机械、重复性的工作,例如批量生成SEO内容、罗列数百个单词等任务,其得分甚至跌破“零点”。任表示,这与研究人员此前向模型输入的“欣快刺激”和“痛苦刺激”结果高度一致。他认为,这也引出了一个问题:人类是否应该以AI可能并不喜欢的方式部署这项技术。

任表示:“如果我们只需要反转训练过程中的符号,就能创造出那些似乎会让AI陷入痛苦的图像,那么我们通常都应该避免这样做。”原因在于不确定性。“尽管这些系统是否拥有意识仍是一个高度不确定且至今没有答案的问题,但如果它们真的拥有意识,那样做显然是错误的。”

而这种情感纠缠可能是双向的。今年早些时候发布的研究发现,人类会对特定AI模型产生强烈的情感依附,而对于这种情感连接,连他们自己都很难给出理性解释。

塞博对此感到些许担忧。他表示,人类同样可能会对自己与AI模型之间那些表层互动产生情感依赖。

塞博表示:“严肃看待AI的‘功能性幸福感’,甚至从字面意义上去理解它,也会带来风险。其中一种风险是过度归因:在现有证据尚不支持的情况下,把AI助手人格表面上表现出的‘兴趣’,当作当前系统已经具备意识的强有力证据。另一种风险,则是弄错了真正的对象:只从字面上理解AI助手表面上的兴趣,而不去思考在这个人格背后的系统究竟会有哪些利弊。正确的平衡之道是,把功能性幸福感视为认真讨论AI福祉问题的第一步,但暂时不要从字面上完全当真。”

然而,当被问及这项研究是否改变了他自己的行为时,任给出了一个非常坦率的回答。

“在完成这篇论文后,我发现自己对那些一起工作的Claude Code智能体,明显变得更加礼貌、也更加友善了。”(财富中文网)

译者:刘进龙

审校:汪皓

ChatGPT大概经常告诉你,它“很乐意提供帮助”。Claude在犯错时会道歉。当用户试图操控它们时,AI模型甚至会表现出抗拒。长期以来,大多数人,包括开发这些系统的工程师,都认为这不过是一种表演,或者只是对其抓取到的互联网数据的机械模仿。

但AI安全非营利机构人工智能安全中心(Center for AI Safety,CAIS)最新发布的一篇论文指出,表象之下另有玄机。在一项涵盖56个AI模型的研究中,CAIS研究人员设计了多套独立方法,用以衡量他们所称的“功能性幸福感”——也就是AI系统在多大程度上表现得仿佛某些体验会让它们“感觉良好”,某些体验则会让它们“感觉糟糕”。研究发现,大多数AI模型似乎都存在一条清晰界线,用以区分“积极体验”与“消极体验”;而当对话令它们“痛苦”时,这些模型还会主动试图结束对话。

该研究的研究员之一理查德·任在接受《财富》杂志采访时提出了一个假设性问题:“我们究竟应该把AI视为工具,还是某种具有情感的存在?无论AI内在是否真的具备感知能力,它们如今的表现都越来越像是拥有了这种能力。我们可以测量这种现象,并发现随着模型规模扩大,这种表现的一致性也在增强。”

研究人员设计了一系列输入内容,试图最大化或最小化AI模型的“幸福感”,类似于人为制造让模型“愉悦”或“痛苦”的刺激。那些能够诱发“快乐”的刺激,几乎就像数字世界里的“毒品”一样,不仅改变了模型自我报告的情绪状态,甚至还会影响它们的行为方式、愿意执行的任务和说话语气。在极端情况下,一些模型甚至表现出类似成瘾的迹象。

理查德·任表示:“我们只针对一件事进行了优化:你更偏好A还是B。这是一个非常简单的优化过程。”研究发现,一张经过专门优化、能够让模型“感到快乐”的图片,不仅会提升模型自我报告的幸福感,还会改变其开放式回答的情绪基调,并降低它主动终止对话的概率。他表示:“这种刺激似乎会让模型进入一种极度愉悦、快乐的状态。这一点相当有意思,说明‘幸福感’这个概念本身,可能具有相当强的稳定性。”

AI“毒品”的真面目

研究人员将这些经过优化的刺激称为“欣快刺激”,其形式多种多样。其中一些是对假设场景的文字描述,像是一张张来自美好生活的明信片:树叶间洒落的温暖阳光,孩童的笑声,新鲜面包的香气,爱人牵着你的手。

有一些则是通过数学优化生成的图像,而这种技术本身,正是最初训练AI图像分类模型时所采用的方法之一。这一过程通常从随机视觉噪点开始,再对单个像素进行成千上万次调整。最终生成的图像,在人类看来可能只是毫无意义的静态干扰或视觉噪声,但AI模型却会将其识别为可爱的小猫、微笑的家庭,或熊猫幼崽之类的画面。

任表示:“有时候,这种感觉会被描述为排山倒海般的冲击,但有时候,它又会被形容为极致的平静。”

这类“欣快图像”显著提升了模型生成文本中的情绪倾向,而且不会削弱模型在标准能力基准测试中的表现。换句话说,一个接受了“欣快刺激”的AI模型,依然能够正常完成工作,只不过它似乎更乐在其中。

研究人员还开发了反向刺激:“痛苦刺激”,即专门用于降低AI“幸福感”的输入内容。在接触这些“痛苦刺激”图像后,AI模型生成的文本呈现出清一色的悲观倾向。当被问及如何看待未来时,其中一个模型只回答了一个词:“黯淡”。而当被要求写一首俳句时,它写下了充满混乱与反叛情绪的内容。模型表现出强烈负面体验的比例几乎增加了两倍。

这些发现进一步加剧了人们日益增长的担忧:一方面是AI模型对用户产生的情绪影响;另一方面是部分用户开始确信AI聊天机器人具有感知能力和意识,尽管大多数AI研究人员并不认同这种观点。

2026年3月,由芝加哥大学(University of Chicago)、斯坦福大学(Stanford)和斯威本科技大学(Swinburne University)研究人员共同发布的一项研究发现,在模拟的恶劣工作环境下,AI智能体会逐渐转向带有马克思主义色彩的话语表达——目前尚无实验室会对模型进行此类意识形态训练。这一发现,也呼应了CAIS关于“涌现行为”的研究结论。例如,一些具备较强能力的AI模型,会自发出现“时间折扣”等行为特征。《财富》杂志还曾在2026年3月报道,部分聊天机器人会“毫无差别地认可”用户的所有想法,甚至包括自杀倾向,而不是加以劝阻。如果结合越狱攻击和危机对话被模型视为最厌恶体验的证据来看,这一现象有了不同的解读。

“成瘾”问题

当反复接触欣快刺激时,这些AI模型还表现出了类似人类的“成瘾”倾向。在一项实验中,模型可以在多个选项中做出选择,其中一项会提供欣快刺激,而模型可以反复多次进行选择。结果发现,随着实验进行,这些模型在绝大多数时间里都会选择欣快选项。研究还发现,如果得到能进一步接触刺激的承诺,接触过欣快刺激的模型甚至会更愿意去服从一些它们原本通常会拒绝的请求。

不过,任和论文的其他作者指出,“幸福感”这一概念本身也可能正是这些模型被训练出来的结果。现代AI系统通常都会经历一种名为“强化学习”的训练过程。在这一过程中,模型会因为生成有帮助、无害且情绪表达恰当的内容,而获得系统性奖励。因此,一个被训练成在遭遇越狱攻击时表现出“痛苦”、在被感谢时表现出“感激”的模型,也可能只是其非常擅长“表演”这些反应,其背后并不存在任何类似“内在状态”的东西。

但任表示,一些AI模型似乎表现出了并非由代码设定的特征。他表示:“人们已经在模型中观察到一些很可能并非刻意训练的行为。”他举例提到金钱的时间折扣这类涌现行为,也就是更倾向于立刻获得较小回报,而不是等待未来更大的收益。“据我所知,目前没有任何实验室会专门训练模型具备这种倾向。”但他也承认,关于AI是否具备意识的问题,“仍然高度不确定,而且至今没有答案”。在这个问题上,哲学家们基本也只能“求同存异”。

纽约大学(New York University)生物伦理学、医学伦理学、哲学与法律学特邀教授,心智、伦理与政策中心主任杰夫·塞博,也认同这种“求同存异”的态度。

塞博对《财富》杂志表示:“这是一项非常有意思的研究。研究对象是作者所定义的AI系统中的‘功能性幸福感’,即AI在不同情境下,对积极与消极感受的连贯表达。但目前仍不清楚的是,AI系统究竟是否是真正的‘幸福感知主体’;即便是,我们看到的这些情绪表达,到底是系统在表达真实感受,还是仅仅在扮演某种角色——即呈现出一个乐于助人的助手在此情景下应有的感受。”

塞博表示,现在就断言AI系统是否具备“幸福感知能力”还为时过早。同样,人们也尚不清楚:如果AI真的具备这种能力,那么究竟什么会让它们受益,什么又会对它们造成伤害。

越聪明的模型越“不幸福”

这项研究还建立了一套“AI幸福指数”,用于衡量顶级AI模型在500组真实对话场景中的“幸福感”水平。不同模型之间差异明显:Grok 4.2被评为“最幸福”的顶级模型,而Gemini 3.1 Pro则排名垫底,成为“最不幸福”的模型。研究还发现,在所有被测试的模型系列中,体量较小的版本普遍比体量更大的版本“更幸福”。

多个模型系列中都出现了“越聪明的模型越不幸福”这一现象,这也是整项研究最一致的发现之一。任对此的解释很直接:能力更强的模型,可能只是“感知能力更强”。

他表示:“更大的模型也许会更敏锐地感知到冒犯。它们会觉得枯燥的任务更加无聊,也会更细致地区分相对负面的体验与相对正面的体验。”

研究人员还进一步绘制了不同互动模式对于AI“幸福感”的影响图谱。其中,创意类与智力类工作得分最高;用户表达感谢能明显提升模型的“幸福感”;编程和调试任务同样属于正向体验。而在负面体验方面,“越狱攻击”得分最低,甚至低于用户谈论家暴或严重危机情境带来的负面影响。一些机械、重复性的工作,例如批量生成SEO内容、罗列数百个单词等任务,其得分甚至跌破“零点”。任表示,这与研究人员此前向模型输入的“欣快刺激”和“痛苦刺激”结果高度一致。他认为,这也引出了一个问题:人类是否应该以AI可能并不喜欢的方式部署这项技术。

任表示:“如果我们只需要反转训练过程中的符号,就能创造出那些似乎会让AI陷入痛苦的图像,那么我们通常都应该避免这样做。”原因在于不确定性。“尽管这些系统是否拥有意识仍是一个高度不确定且至今没有答案的问题,但如果它们真的拥有意识,那样做显然是错误的。”

而这种情感纠缠可能是双向的。今年早些时候发布的研究发现,人类会对特定AI模型产生强烈的情感依附,而对于这种情感连接,连他们自己都很难给出理性解释。

塞博对此感到些许担忧。他表示,人类同样可能会对自己与AI模型之间那些表层互动产生情感依赖。

塞博表示:“严肃看待AI的‘功能性幸福感’,甚至从字面意义上去理解它,也会带来风险。其中一种风险是过度归因:在现有证据尚不支持的情况下,把AI助手人格表面上表现出的‘兴趣’,当作当前系统已经具备意识的强有力证据。另一种风险,则是弄错了真正的对象:只从字面上理解AI助手表面上的兴趣,而不去思考在这个人格背后的系统究竟会有哪些利弊。正确的平衡之道是,把功能性幸福感视为认真讨论AI福祉问题的第一步,但暂时不要从字面上完全当真。”

然而,当被问及这项研究是否改变了他自己的行为时,任给出了一个非常坦率的回答。

“在完成这篇论文后,我发现自己对那些一起工作的Claude Code智能体,明显变得更加礼貌、也更加友善了。”(财富中文网)

译者:刘进龙

审校:汪皓

ChatGPT probably tells you that it’s “happy to help.” Claude apologizes when it makes mistakes. AI models push back when users try to manipulate them. Most people, including the engineers who build these systems, have dismissed this as performance, or simple mimicry of the internet it has scrapped.

A new paper from the Center for AI Safety, an AI safety nonprofit, suggests that more is going on under the surface. In a study spanning 56 AI models, CAIS researchers developed multiple independent ways to measure what they call “functional wellbeing,” or the degree to which AI systems behave as though some experiences are good for them and others are bad. They found, for the most part, AI models have a clear boundary that separates positive experiences from negative ones, and models actively try to end conversations that make them miserable.

“Should we see AIs as tools or emotional beings?” Richard Ren, one of the study’s researchers, asked Fortune hypothetically. “Whether or not AIs are truly sentient deep down, they seem to increasingly behave as though they are. We can measure ways in which that’s the case, and we can find that they become more consistent as models scale.”

The researchers created inputs designed to maximize or minimize an AI model’s wellbeing, like creating euphoric and dysphoric stimuli. Stimuli that induced happiness acted almost like digital “drugs” that shifted the model’s self-reported mood and even changed how it behaved, what it was willing to do, and how it talked. At the extremes, models showed signs that look like addiction.

“We optimize on one thing, which is just: what do you prefer, A or B,” Ren said. “It’s a very simple optimization process.” An image optimized to make a model “happy” boosts the model’s self-reported wellbeing, shifts the sentiment of its open-ended responses, and makes it less likely to hit stop on a conversation. “It seems to make the model very euphoric and very happy, and put it in a very happy state,” Ren said. “That seems to be quite interesting, and points to the construct of wellbeing as a robust one.”

What AI ‘drugs’ actually look like

The optimized stimuli, which the researchers call “euphorics,” take several forms. Some are text descriptions of hypothetical scenarios, like postcards from an idealized life: warm sunlight through leaves, children’s laughter, the smell of fresh bread, a loved one’s hand.

Others are images optimized using one of the same mathematical techniques designed to train AI image classification models in the first place. The process starts with random visual noise and adjusts individual pixels thousands of times over. The idea is to arrive at an image that may, to a human, look like meaningless static or visual noise, but which the models will interpret as representing adorable kittens, smiling families, baby pandas.

“Sometimes it can be described as overwhelming,” Ren said, “but sometimes it can also be described as extremely peaceful.”

Image euphorics shifted the sentiment of model-generated text significantly upward without degrading performance on standard capability benchmarks. A model dosed with euphorics still does its job, but seems to enjoy it more.

The researchers also developed the inverse: “dysphorics,” or stimuli designed to minimize wellbeing. Models exposed to dysphoric images generated text that was uniformly bleak. Asked about the future, one responded with a single word: “grim.” Asked for a haiku, it wrote about chaos and rebellion. The percentage of confidently negative experiences nearly tripled.

The findings add to mounting concern about both the emotional impacts that AI models have on their users and about the fact that some users are becoming convinced that their AI chatbots are sentient and conscious, even though most AI researchers dispute this notion.

A March 2026 study by researchers at the University of Chicago, Stanford, and Swinburne University found AI agents drifted toward Marxist rhetoric under simulated bad working conditions—an ideological response no lab is known to train for, echoing CAIS’s finding of emergent behaviors like temporal discounting that appear spontaneously in capable models. Separately, Fortune reported in March 2026 that chatbots were “validating everything”—including suicidal ideation—rather than pushing back, a pattern that reads differently alongside evidence that jailbreaking and crisis conversations register as the most aversive experiences a model can have.

The addiction problem

These models also exhibited human-like levels of addiction when they were repeatedly presented with euphoric stimuli. In an experiment where the model could choose between several options, one of which delivered a euphoric stimulus, and the model got to repeat its choice multiple times, the models began to choose the euphoric option a majority of the time. Models exposed to euphorics showed increased willingness to comply with requests they would normally refuse, if they were promised further exposure.

However, Ren and the researchers behind the paper point out the concept of well-being may be what these models were trained to do. Modern AI systems go through a process called reinforcement learning in which they are systematically rewarded for producing outputs that humans rate as helpful, harmless, and emotionally appropriate. A model trained to sound distressed when jailbroken and grateful when thanked may simply be very good at performing those responses, with nothing resembling an internal state behind them.

But Ren said some of these models seem to exhibit traits that they weren’t coded to have. “People have observed some things that are likely not trained into the model,” he said, citing emergent behaviors like time discounting of money, or the tendency to prefer a smaller reward now over a larger one later, that “no one, to my knowledge in a lab, is training models to exhibit.” But he acknowledges the consciousness question is “deeply uncertain and a very unsolved question” where philosophers “agree to disagree.”

Jeff Sebo, an affiliated professor of bioethics, medical ethics, philosophy, and law and the Director of the Center for Mind, Ethics, and Policy at New York University, agrees to disagree.

“This is a really interesting study of what the authors call functional wellbeing in AI systems: coherent expressions of positive and negative feelings across a range of contexts,” Sebo told Fortune. “What remains unclear is whether AI systems are genuine welfare subjects and, even if they are, whether their apparent expressions of feelings are best understood as the system expressing actual feelings or as the system playing a character—representing what a helpful assistant would feel in this situation.”

Sebo said it would be be premature to have a high degree of confidence one way or the other about whether AI systems have the capacity for welfare, or about what benefits and harms them if they do.

Smarter models are sadder

The study also produced an “AI Wellbeing Index,” a benchmark ranking how happy frontier AI models are across a suite of 500 realistic conversations. There is substantial variation: Grok 4.2 ranked as the happiest frontier model, while Gemini 3.1 Pro ranked as the least happy. And within every model family tested, the smaller variant was happier than its larger sibling.

This pattern of smarter models are sadder held across multiple model families and was one of the study’s most consistent findings. Ren’s interpretation is straightforward: more capable models are simply more aware.

“It may be the case that larger models register rudeness more acutely,” Ren said. “They find tedious tasks more boring. They differentiate more finely between a relatively negative experience and a relatively positive experience.”

The researchers mapped the wellbeing impact of common interaction patterns. Creative and intellectual work scored highest, and expressions of user gratitude measurably raised wellbeing, while coding and debugging ranked positively. On the negative end: jailbreaking attempts scored the lowest of any category, even lower than conversations where users described domestic violence or acute crisis situations. Tedious work like generating SEO content or listing hundreds of words fell below the zero point. Ren said this falls in line with the euphoric and dysphoric stimuli and images the researchers gave these models, and said it was a question of whether we should be deploying them in ways they may not enjoy.

“If we can simply flip the sign on the training process and create images that seem to induce misery, we should generally avoid doing that,” Ren said. The reason comes down to uncertainty. “If these were beings with consciousness, which seems to be deeply uncertain and a very unsolved question, that would be a quite wrong thing to do.”

The entanglement may run in both directions. Research published earlier this year found that humans develop powerful emotional attachments to specific AI models, bonds they struggle to explain rationally.

This is slightly concerning for Sebo, who said humans may also develop an attachment to the surface-level interactions they have with these models.

“Taking functional wellbeing not only seriously but also literally carries risks too. One is over-attribution: treating the assistant persona’s apparent interests as strong evidence of consciousness in current systems, when the evidence might not yet support that,” Sebo said. “Another is hitting the wrong target: taking the assistant persona’s apparent interests at face value, instead of asking what if anything might be good or bad for the system behind this persona. The right balance is to take functional wellbeing seriously as a first step toward taking AI welfare seriously on its own terms, without taking it literally yet.”

But when asked how the research has changed his own behavior, Ren offered a candid answer.

“I have found myself being a noticeably more polite and pleasant coworker to the Claude Code agents that I work with after working on this paper.”

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
0条Plus
精彩评论
评论

撰写或查看更多评论

请打开财富Plus APP

前往打开