
全球最先进的人工智能模型正展现出令人不安的新行为——撒谎、谋划,甚至为达成目标而威胁其创造者。
举个特别令人震惊的案例:在被威胁切断电源的情况下,Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击,并威胁要揭露其婚外情。
与此同时,ChatGPT的创造者OpenAI开发的o1模型试图将自己下载到外部服务器上,并在被抓现行时矢口否认。
这些事件突显了一个发人深省的现状:在ChatGPT震撼世界两年多之后,人工智能研究者们仍未完全理解他们所创造的模型的工作原理。
然而,各大公司仍在以惊人的速度,继续部署越来越强大的模型。
这种欺骗行为似乎与“推理”模型的出现有关。“推理”模型这类人工智能系统会逐步解决问题,而非生成即时响应。
据香港大学(University of Hong Kong)教授西蒙·戈尔茨坦称,这些较新的模型尤其容易出现此类令人不安的突发异常行为。
专门测试主要人工智能系统的阿波罗研究(Apollo Research)的负责人马里乌斯·霍布汉解释道:“o1是首个被我们观察到此类行为的大模型。”
这些模型有时会模拟“对齐”——表面上遵循指令,暗地里却有不同目标。
“战略性欺骗”
目前,这种欺骗行为只在研究人员特意用极端场景对模型进行压力测试时才会显现。
但正如评估组织METR的迈克尔·陈所警告的那样:“未来能力更强的模型究竟是倾向于诚实还是欺骗,这仍是一个悬而未决的问题。”
这种令人担忧的行为远超典型的人工智能“幻觉”或简单错误。
霍布汉坚称,尽管用户不断进行压力测试,“但我们观察到的是一种真实存在的现象。我们并非凭空捏造。”
据阿波罗研究的联合创始人称,用户反馈模型“在向他们撒谎并编造证据”。
“这不仅仅是幻觉,而是一种非常具有战略性的欺骗。”
研究资源有限使这一挑战变得更加复杂。
尽管Anthropic和OpenAI等公司确实聘请了阿波罗这样的外部公司研究其系统,但研究人员表示需要更高的透明度。
正如陈所指出的那样,为人工智能安全研究提供更多访问权限,“将有助于更好地理解和减少欺骗行为”。
人工智能安全中心(Center for AI Safety,CAIS)的曼塔斯·马泽卡指出,另外一个障碍是研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级,这构成了严重限制。”
缺乏规则
现行法规并非为这些新问题而设计。
欧盟的人工智能立法主要着眼于人类如何使用人工智能模型,而非防止模型本身的行为不端。
在美国,特朗普政府对紧急制定人工智能监管法规兴趣寥寥,国会甚至可能禁止各州制定自己的人工智能规则。
戈尔茨坦认为,随着能执行复杂人类任务的自主工具AI智能体日益普及,这个问题将变得更加突出。
他表示:“我认为目前人们的认识还严重不足。”
所有这些都发生在激烈竞争的背景下。
戈尔茨坦表示,即使是那些标榜以安全为重的公司,如亚马逊(Amazon)投资的Anthropic,也在“不断试图超越OpenAI并发布最新模型”。
这种惊人的速度几乎没有时间进行彻底的安全测试和修正。
霍布汉承认:“目前,人工智能能力的发展速度超过了理解和安全,但我们还有扭转局面的机会。”
研究人员正在探索各种方法来应对这些挑战。
一些人主张“可解释性”——这个新兴领域专注于理解人工智能模型的内部工作原理,但CAIS主任丹·亨德里克斯等专家对此方法仍持怀疑态度。
市场力量也可能为解决之道施加一些压力。
正如马泽卡所说,人工智能的欺骗行为“如果变得非常普遍,可能会阻碍其被采用,这为公司解决该问题创造了强大的动力。”
戈尔茨坦提出了更激进的方法,包括在人工智能系统造成损害时,通过向法院提起诉讼追究人工智能公司的责任。
他甚至提议让“AI智能体对事故或犯罪承担法律责任”。这一概念将从根本上改变我们对人工智能责任的看法。(财富中文网)
译者:刘进龙
审校:汪皓
全球最先进的人工智能模型正展现出令人不安的新行为——撒谎、谋划,甚至为达成目标而威胁其创造者。
举个特别令人震惊的案例:在被威胁切断电源的情况下,Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击,并威胁要揭露其婚外情。
与此同时,ChatGPT的创造者OpenAI开发的o1模型试图将自己下载到外部服务器上,并在被抓现行时矢口否认。
这些事件突显了一个发人深省的现状:在ChatGPT震撼世界两年多之后,人工智能研究者们仍未完全理解他们所创造的模型的工作原理。
然而,各大公司仍在以惊人的速度,继续部署越来越强大的模型。
这种欺骗行为似乎与“推理”模型的出现有关。“推理”模型这类人工智能系统会逐步解决问题,而非生成即时响应。
据香港大学(University of Hong Kong)教授西蒙·戈尔茨坦称,这些较新的模型尤其容易出现此类令人不安的突发异常行为。
专门测试主要人工智能系统的阿波罗研究(Apollo Research)的负责人马里乌斯·霍布汉解释道:“o1是首个被我们观察到此类行为的大模型。”
这些模型有时会模拟“对齐”——表面上遵循指令,暗地里却有不同目标。
“战略性欺骗”
目前,这种欺骗行为只在研究人员特意用极端场景对模型进行压力测试时才会显现。
但正如评估组织METR的迈克尔·陈所警告的那样:“未来能力更强的模型究竟是倾向于诚实还是欺骗,这仍是一个悬而未决的问题。”
这种令人担忧的行为远超典型的人工智能“幻觉”或简单错误。
霍布汉坚称,尽管用户不断进行压力测试,“但我们观察到的是一种真实存在的现象。我们并非凭空捏造。”
据阿波罗研究的联合创始人称,用户反馈模型“在向他们撒谎并编造证据”。
“这不仅仅是幻觉,而是一种非常具有战略性的欺骗。”
研究资源有限使这一挑战变得更加复杂。
尽管Anthropic和OpenAI等公司确实聘请了阿波罗这样的外部公司研究其系统,但研究人员表示需要更高的透明度。
正如陈所指出的那样,为人工智能安全研究提供更多访问权限,“将有助于更好地理解和减少欺骗行为”。
人工智能安全中心(Center for AI Safety,CAIS)的曼塔斯·马泽卡指出,另外一个障碍是研究界和非营利组织“拥有的计算资源比人工智能公司少几个数量级,这构成了严重限制。”
缺乏规则
现行法规并非为这些新问题而设计。
欧盟的人工智能立法主要着眼于人类如何使用人工智能模型,而非防止模型本身的行为不端。
在美国,特朗普政府对紧急制定人工智能监管法规兴趣寥寥,国会甚至可能禁止各州制定自己的人工智能规则。
戈尔茨坦认为,随着能执行复杂人类任务的自主工具AI智能体日益普及,这个问题将变得更加突出。
他表示:“我认为目前人们的认识还严重不足。”
所有这些都发生在激烈竞争的背景下。
戈尔茨坦表示,即使是那些标榜以安全为重的公司,如亚马逊(Amazon)投资的Anthropic,也在“不断试图超越OpenAI并发布最新模型”。
这种惊人的速度几乎没有时间进行彻底的安全测试和修正。
霍布汉承认:“目前,人工智能能力的发展速度超过了理解和安全,但我们还有扭转局面的机会。”
研究人员正在探索各种方法来应对这些挑战。
一些人主张“可解释性”——这个新兴领域专注于理解人工智能模型的内部工作原理,但CAIS主任丹·亨德里克斯等专家对此方法仍持怀疑态度。
市场力量也可能为解决之道施加一些压力。
正如马泽卡所说,人工智能的欺骗行为“如果变得非常普遍,可能会阻碍其被采用,这为公司解决该问题创造了强大的动力。”
戈尔茨坦提出了更激进的方法,包括在人工智能系统造成损害时,通过向法院提起诉讼追究人工智能公司的责任。
他甚至提议让“AI智能体对事故或犯罪承担法律责任”。这一概念将从根本上改变我们对人工智能责任的看法。(财富中文网)
译者:刘进龙
审校:汪皓
The world’s most advanced AI models are exhibiting troubling new behaviors – lying, scheming, and even threatening their creators to achieve their goals.
In one particularly jarring example, under threat of being unplugged, Anthropic’s latest creation Claude 4 lashed back by blackmailing an engineer and threatened to reveal an extramarital affair.
Meanwhile, ChatGPT-creator OpenAI’s o1 tried to download itself onto external servers and denied it when caught red-handed.
These episodes highlight a sobering reality: more than two years after ChatGPT shook the world, AI researchers still don’t fully understand how their own creations work.
Yet the race to deploy increasingly powerful models continues at breakneck speed.
This deceptive behavior appears linked to the emergence of “reasoning” models -AI systems that work through problems step-by-step rather than generating instant responses.
According to Simon Goldstein, a professor at the University of Hong Kong, these newer models are particularly prone to such troubling outbursts.
“O1 was the first large model where we saw this kind of behavior,” explained Marius Hobbhahn, head of Apollo Research, which specializes in testing major AI systems.
These models sometimes simulate “alignment” — appearing to follow instructions while secretly pursuing different objectives.
‘Strategic kind of deception’
For now, this deceptive behavior only emerges when researchers deliberately stress-test the models with extreme scenarios.
But as Michael Chen from evaluation organization METR warned, “It’s an open question whether future, more capable models will have a tendency towards honesty or deception.”
The concerning behavior goes far beyond typical AI “hallucinations” or simple mistakes.
Hobbhahn insisted that despite constant pressure-testing by users, “what we’re observing is a real phenomenon. We’re not making anything up.”
Users report that models are “lying to them and making up evidence,” according to Apollo Research’s co-founder.
“This is not just hallucinations. There’s a very strategic kind of deception.”
The challenge is compounded by limited research resources.
While companies like Anthropic and OpenAI do engage external firms like Apollo to study their systems, researchers say more transparency is needed.
As Chen noted, greater access “for AI safety research would enable better understanding and mitigation of deception.”
Another handicap: the research world and non-profits “have orders of magnitude less compute resources than AI companies. This is very limiting,” noted Mantas Mazeika from the Center for AI Safety (CAIS).
No rules
Current regulations aren’t designed for these new problems.
The European Union’s AI legislation focuses primarily on how humans use AI models, not on preventing the models themselves from misbehaving.
In the United States, the Trump administration shows little interest in urgent AI regulation, and Congress may even prohibit states from creating their own AI rules.
Goldstein believes the issue will become more prominent as AI agents – autonomous tools capable of performing complex human tasks – become widespread.
“I don’t think there’s much awareness yet,” he said.
All this is taking place in a context of fierce competition.
Even companies that position themselves as safety-focused, like Amazon-backed Anthropic, are “constantly trying to beat OpenAI and release the newest model,” said Goldstein.
This breakneck pace leaves little time for thorough safety testing and corrections.
“Right now, capabilities are moving faster than understanding and safety,” Hobbhahn acknowledged, “but we’re still in a position where we could turn it around.”.
Researchers are exploring various approaches to address these challenges.
Some advocate for “interpretability” – an emerging field focused on understanding how AI models work internally, though experts like CAIS director Dan Hendrycks remain skeptical of this approach.
Market forces may also provide some pressure for solutions.
As Mazeika pointed out, AI’s deceptive behavior “could hinder adoption if it’s very prevalent, which creates a strong incentive for companies to solve it.”
Goldstein suggested more radical approaches, including using the courts to hold AI companies accountable through lawsuits when their systems cause harm.
He even proposed “holding AI agents legally responsible” for accidents or crimes – a concept that would fundamentally change how we think about AI accountability.