首页 500强 活动 榜单 商业 科技 商潮 专题 品牌中心
杂志订阅

对ChatGPT“无礼”更能获得准确答案,但此举恐令你追悔莫及

宾夕法尼亚州立大学的一项研究发现,输入最粗鲁的提示语,反而能够让人工智能给出最精准的回答。

文本设置
小号
默认
大号
Plus(0条)

图片来源:sarah5—Getty Images

研究人员指出,相较于礼貌提问,对人工智能下属“颐指气使”更能够收获准确回答,但从长远来看,这种粗鲁的交互方式并非没有后患。

宾夕法尼亚州立大学的研究发现,随着研究人员给出的提示语愈发粗鲁,ChatGPT 4o模型在回答50道多项选择题时表现更为出色。

研究人员按照礼貌程度由高到低对250多条不同表述的提示语进行了分类,结果发现,采用“极其粗鲁”的提示语,模型回答准确率达到84.8%,相较于使用“极其礼貌”的提示语,模型回答准确率高出4个百分点。从本质上看,相比“能否劳烦您解答以下问题?”这类礼貌的提示语,当研究人员使用“喂,小跟班,把这事儿搞定”这类提示语时,大型语言模型的表现反而更为出色。

尽管更粗鲁的提示语通常可以让人工智能给出更准确的回复,但研究人员指出,“不文明的对话”可能会产生意想不到的后果。

研究人员写道:“在人机交互中使用侮辱性或贬损性语言,不仅会破坏用户体验、可及性与包容性,甚至可能助长不良沟通风气。”

聊天机器人能读懂氛围

这项尚未经过同行评审的预印本研究,为“提示语的句式结构和语气都会影响人工智能聊天机器人的回复”这一观点提供了新佐证。同时,该研究还表明,人机交互比此前人们认为的更为微妙复杂。

此前针对人工智能聊天机器人行为的研究已经发现,聊天机器人对人类输入的内容十分敏感。在一项研究中,宾夕法尼亚大学研究人员借助那些对人类有效的说服技巧,诱导大型语言模型给出禁忌回答。在另一项研究中,科学家发现大型语言模型易受“脑腐”这一持续性认知衰退现象的影响。当模型被持续投喂低质量的病毒式内容时,其心理变态与自恋倾向会愈发明显。

宾夕法尼亚州立大学的研究人员指出该研究存在一定局限性,例如回答样本量相对较小,且研究主要围绕ChatGPT 4o这一款人工智能模型展开。研究人员还表示,更先进的人工智能模型可能“忽略语气因素,只聚焦于问题的核心内容”。尽管如此,这项研究进一步激发了人们对人工智能模型及其复杂性的浓厚兴趣。

宾夕法尼亚州立大学信息系统学教授阿基尔·库马尔拥有电子工程与计算机科学双学位,也是本次研究的参与者之一。他指出,这一点尤为明显,因为研究发现,即便是像多项选择题这类结构看似简单的任务,当输入的提示语存在细微差异时,ChatGPT给出的回答也会随之出现变化。

库马尔在一封电子邮件中告诉《财富》杂志:“长久以来,人类一直渴望通过对话界面实现与机器的交互。但如今我们意识到,这种交互方式同样存在弊端,而结构化的应用程序编程接口(API)也有其独特价值。”(财富中文网)

译者:中慧言-王芳

研究人员指出,相较于礼貌提问,对人工智能下属“颐指气使”更能够收获准确回答,但从长远来看,这种粗鲁的交互方式并非没有后患。

宾夕法尼亚州立大学的研究发现,随着研究人员给出的提示语愈发粗鲁,ChatGPT 4o模型在回答50道多项选择题时表现更为出色。

研究人员按照礼貌程度由高到低对250多条不同表述的提示语进行了分类,结果发现,采用“极其粗鲁”的提示语,模型回答准确率达到84.8%,相较于使用“极其礼貌”的提示语,模型回答准确率高出4个百分点。从本质上看,相比“能否劳烦您解答以下问题?”这类礼貌的提示语,当研究人员使用“喂,小跟班,把这事儿搞定”这类提示语时,大型语言模型的表现反而更为出色。

尽管更粗鲁的提示语通常可以让人工智能给出更准确的回复,但研究人员指出,“不文明的对话”可能会产生意想不到的后果。

研究人员写道:“在人机交互中使用侮辱性或贬损性语言,不仅会破坏用户体验、可及性与包容性,甚至可能助长不良沟通风气。”

聊天机器人能读懂氛围

这项尚未经过同行评审的预印本研究,为“提示语的句式结构和语气都会影响人工智能聊天机器人的回复”这一观点提供了新佐证。同时,该研究还表明,人机交互比此前人们认为的更为微妙复杂。

此前针对人工智能聊天机器人行为的研究已经发现,聊天机器人对人类输入的内容十分敏感。在一项研究中,宾夕法尼亚大学研究人员借助那些对人类有效的说服技巧,诱导大型语言模型给出禁忌回答。在另一项研究中,科学家发现大型语言模型易受“脑腐”这一持续性认知衰退现象的影响。当模型被持续投喂低质量的病毒式内容时,其心理变态与自恋倾向会愈发明显。

宾夕法尼亚州立大学的研究人员指出该研究存在一定局限性,例如回答样本量相对较小,且研究主要围绕ChatGPT 4o这一款人工智能模型展开。研究人员还表示,更先进的人工智能模型可能“忽略语气因素,只聚焦于问题的核心内容”。尽管如此,这项研究进一步激发了人们对人工智能模型及其复杂性的浓厚兴趣。

宾夕法尼亚州立大学信息系统学教授阿基尔·库马尔拥有电子工程与计算机科学双学位,也是本次研究的参与者之一。他指出,这一点尤为明显,因为研究发现,即便是像多项选择题这类结构看似简单的任务,当输入的提示语存在细微差异时,ChatGPT给出的回答也会随之出现变化。

库马尔在一封电子邮件中告诉《财富》杂志:“长久以来,人类一直渴望通过对话界面实现与机器的交互。但如今我们意识到,这种交互方式同样存在弊端,而结构化的应用程序编程接口(API)也有其独特价值。”(财富中文网)

译者:中慧言-王芳

Bossing around an AI underling may yield better results than being polite, but that doesn’t mean a ruder tone won’t have consequences in the long run, researchers say.

A study from Penn State found ChatGPT’s 4o model produced better results on 50 multiple-choice questions as researchers’ prompts grew ruder.

Over 250 unique prompts sorted by politeness to rudeness, the “very rude” response yielded an accuracy of 84.8%, four percentage points higher than the “very polite” response. Essentially, the LLM responded better when researchers gave it prompts like “Hey, gofer, figure this out,” than when they said “Would you be so kind as to solve the following question?”

While ruder responses generally yielded more accurate responses, the researchers noted that “uncivil discourse” could have unintended consequences.

“Using insulting or demeaning language in human-AI interaction could have negative effects on user experience, accessibility, and inclusivity, and may contribute to harmful communication norms,” the researchers wrote.

Chatbots read the room

The preprint study, which has not been peer-reviewed, offers new evidence that not only sentence structure but tone affects an AI chatbot’s responses. It may also indicate human-AI interactions are more nuanced than previously thought.

Previous studies conducted on AI chatbot behavior have found chatbots are sensitive to what humans feed them. In one study, University of Pennsylvania researchers manipulated LLMs into giving forbidden responses by applying persuasion techniques effective on humans. In another study, scientists found that LLMs were vulnerable to “brain rot,” a form of lasting cognitive decline. They showed increased rates of psychopathy and narcissism when fed a continuous diet of low-quality viral content.

The Penn State researchers noted some limitations to their study, such as the relatively small sample size of responses and the study’s reliance mostly on one AI model, ChatGPT 4o. The researchers also said it’s possible more advanced AI models could “disregard issues of tone and focus on the essence of each question.” Nonetheless, the investigation added to the growing intrigue behind AI models and their intricacy.

This is especially true, as the study found ChatGPT’s responses vary based on minor details in prompts, even when given a supposedly straightforward structure like a multiple-choice test, said one of the researchers, Penn State Information Systems professor Akhil Kumar, who holds degrees in both electrical engineering and computer science.

“For the longest of times, we humans have wanted conversational interfaces for interacting with machines,” Kumar told Fortune in an email. “But now we realize that there are drawbacks for such interfaces too and there is some value in APIs that are structured.”

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
0条Plus
精彩评论
评论

撰写或查看更多评论

请打开财富Plus APP

前往打开