立即打开
从安永到强生,大公司如何与AI对话?

从安永到强生,大公司如何与AI对话?

RYAN S. GLADWIN 2024-02-16
不明确的提示语可能导致错误和低效。
 
摄影:BORIS ZHITKOV —— 盖蒂图片社

公司之间在人工智能应用方面的竞争格局正在发生变化:它们不再仅仅争相采用这一技术,而更加关注如何有效地运用这些强大的工具。随着企业逐渐认识到,不明确的提示语,即指示人工智能执行特定任务的指令,以及非专业模型的使用,会导致不准确的结果和低效率,因此它们的态度开始发生改变。

这样的例子不胜枚举。强生(Johnson & Johnson)等公司正在创建提示语数据库,供员工使用,以提高人工智能输出结果的质量。星巴克(Starbucks)等其他公司则更进一步,正在创建内部模型。

需要强调的是,企业在使用大型语言模型如ChatGPT等时,应提供明确的提示语,例如“总结这篇故事”等简单的指令。这种明确的提示对于有效应用人工智能至关重要。

斯坦福大学(Stanford University)计算机科学与语言学教授、斯坦福人工智能实验室(Stanford Artificial Intelligence Laboratory)主任克里斯托弗·曼宁对《财富》杂志表示:“提示语可以分为两个部分。第一部分需要准确描述你希望完成的任务,然后需要进行不断的调整,因为人们会很快发现某些提示语的效果更佳。研究表明,那些简单、友好的指令,比如‘务必仔细考虑’等,通常能够产生良好的效果。”

提示语数据库可以是开启人工智能对话的一个话术集,就像强生公司内部使用的数据库一样,旨在降低员工使用其内部生成式人工智能聊天机器人时的困难。

强生发言人表示:“我们使用[我们的聊天机器人]上传内部文件,生成摘要或提出特定问题。我们创建了一个由启发性话题组成的提示语数据库,以帮助员工探索与不同业务领域有关的潜在使用案例。”

一些提示语的设计旨在降低“幻觉”风险,或以尽可能高效的方式生成答案。所谓的“幻觉”风险指的是人工智能频繁生成听起来合理但实际并不准确的陈述。

创意机构GUT的首席情报官兼合伙人克里斯蒂安·皮埃尔对《财富》杂志表示:“我们根据使用案例或预期结果,创建了不同提示语数据库。 [我们的]策略师和数据分析师共用一个数据库和一个“关键词参考手册”,其中列出的关键词可以明显改变输出结果。例如,我们知道,只要添加‘以布尔查询的方式回答’,ChatGPT就会编写布尔查询语句,这些语句可用于我们的社交倾听工具。”

通常情况下,导致不尽如人意的结果出现的原因之一是相关数据集中缺乏必要的知识。例如,如果一个提示语问及为什么约翰被车撞到,大型语言模型可能会尝试提供答案,尽管它之前并不了解与约翰或事故有关的任何信息。

曼宁教授表示:“如果有事实作为参考,这些模型将依据这些事实来生成答案。但如果没有相关事实可依,[它可能会]在没有事实依据的情况下尽量编写看似合理的答案。”

因此,要编写完善的提示语,需要提供丰富的背景信息,仔细思考关键词,并确切描述所期望的回应形式。那些自豪于创作出完美提示语的人通常自称为"提示语工程师"。

更进一步

很可惜,大多数经过优化的提示语,可能无法满足大公司的需求。

安永(Ernst & Young)全球咨询数据与人工智能负责人比阿特丽斯·桑斯·赛兹对《财富》杂志表示:“这些大语言模型的训练基于一般化数据。而我们正在尝试引入最优秀的人才,例如税务专业人士,真正对这些模型进行调整、维护和反复操练。”

安永创建了一个内部人工智能平台EY.ai。微软(Microsoft)为该公司提供了尽早使用Azure OpenAI的权限,用于创建一个安全、专业的系统。这帮助安永提高了系统运行速度,保护了敏感数据,而且最重要的是,使安永能够根据预期结果调整模型。

曼宁教授解释说:“假设你需要执行某项任务,比如审阅保险索赔并起草相关处理方案和理由等,如果你有大量以往的业务实例可供参考,那么你可以通过微调模型,使其特别擅长处理这种任务。”

对模型的微调由具备机器学习经验的人负责,而不是由提示语工程师进行调整。在这个阶段,公司可以决定删除不必要的内容,以精简数据集,例如写俳句的能力,或者将模型固定为提供特定的功能。

安永还创建了一个嵌入数据库,提高了系统的专业化程度。

赛兹表示:“[嵌入]可以理解为输入到模型中的附加数据集。我们可以整合税务知识、国家法规甚至行业知识,将所有信息串联起来。”

通过将这些额外的数据集添加到模型中,可以使模型更加适应其预期的用途。公司发现,最有效地利用人工智能的方法之一是创建一个受控的数据集,将其嵌入到数据库中,并使用自定义提示语进行查询。

赛兹解释称:“通常情况下,目前我们能做的是基于安永多年来积累的集体智慧,而不是个别税务团队的专业经验,对客户进行评估。而且我们不止在一个地区这样做,而是在全球多个地区采用这种做法。”

赛兹认为,通过微调内部模型和整合数据库,将人工智能模型个性化,将成为未来公司使用人工智能的关键。她还预测,随着人工智能的智能水平不断提高,提示语的重要性将逐渐降低。

然而,曼宁教授认为未来有多种可能。未来,既会有专业系统用于处理大工作量的任务,也会有广义模型,需要根据经过设计的提示语处理非常规任务,例如编写招聘广告。

曼宁教授对《财富》杂志表示:“现在你可以把这些重要的任务交给ChatGPT来完成。我认为,许多公司可以成功地培养出专门人才,学习并精通编写提示语,从而让ChatGPT生成令人满意的结果。”(财富中文网)

翻译:刘进龙

审校:汪皓

摄影:BORIS ZHITKOV —— 盖蒂图片社

公司之间在人工智能应用方面的竞争格局正在发生变化:它们不再仅仅争相采用这一技术,而更加关注如何有效地运用这些强大的工具。随着企业逐渐认识到,不明确的提示语,即指示人工智能执行特定任务的指令,以及非专业模型的使用,会导致不准确的结果和低效率,因此它们的态度开始发生改变。

这样的例子不胜枚举。强生(Johnson & Johnson)等公司正在创建提示语数据库,供员工使用,以提高人工智能输出结果的质量。星巴克(Starbucks)等其他公司则更进一步,正在创建内部模型。

需要强调的是,企业在使用大型语言模型如ChatGPT等时,应提供明确的提示语,例如“总结这篇故事”等简单的指令。这种明确的提示对于有效应用人工智能至关重要。

斯坦福大学(Stanford University)计算机科学与语言学教授、斯坦福人工智能实验室(Stanford Artificial Intelligence Laboratory)主任克里斯托弗·曼宁对《财富》杂志表示:“提示语可以分为两个部分。第一部分需要准确描述你希望完成的任务,然后需要进行不断的调整,因为人们会很快发现某些提示语的效果更佳。研究表明,那些简单、友好的指令,比如‘务必仔细考虑’等,通常能够产生良好的效果。”

提示语数据库可以是开启人工智能对话的一个话术集,就像强生公司内部使用的数据库一样,旨在降低员工使用其内部生成式人工智能聊天机器人时的困难。

强生发言人表示:“我们使用[我们的聊天机器人]上传内部文件,生成摘要或提出特定问题。我们创建了一个由启发性话题组成的提示语数据库,以帮助员工探索与不同业务领域有关的潜在使用案例。”

一些提示语的设计旨在降低“幻觉”风险,或以尽可能高效的方式生成答案。所谓的“幻觉”风险指的是人工智能频繁生成听起来合理但实际并不准确的陈述。

创意机构GUT的首席情报官兼合伙人克里斯蒂安·皮埃尔对《财富》杂志表示:“我们根据使用案例或预期结果,创建了不同提示语数据库。 [我们的]策略师和数据分析师共用一个数据库和一个“关键词参考手册”,其中列出的关键词可以明显改变输出结果。例如,我们知道,只要添加‘以布尔查询的方式回答’,ChatGPT就会编写布尔查询语句,这些语句可用于我们的社交倾听工具。”

通常情况下,导致不尽如人意的结果出现的原因之一是相关数据集中缺乏必要的知识。例如,如果一个提示语问及为什么约翰被车撞到,大型语言模型可能会尝试提供答案,尽管它之前并不了解与约翰或事故有关的任何信息。

曼宁教授表示:“如果有事实作为参考,这些模型将依据这些事实来生成答案。但如果没有相关事实可依,[它可能会]在没有事实依据的情况下尽量编写看似合理的答案。”

因此,要编写完善的提示语,需要提供丰富的背景信息,仔细思考关键词,并确切描述所期望的回应形式。那些自豪于创作出完美提示语的人通常自称为"提示语工程师"。

更进一步

很可惜,大多数经过优化的提示语,可能无法满足大公司的需求。

安永(Ernst & Young)全球咨询数据与人工智能负责人比阿特丽斯·桑斯·赛兹对《财富》杂志表示:“这些大语言模型的训练基于一般化数据。而我们正在尝试引入最优秀的人才,例如税务专业人士,真正对这些模型进行调整、维护和反复操练。”

安永创建了一个内部人工智能平台EY.ai。微软(Microsoft)为该公司提供了尽早使用Azure OpenAI的权限,用于创建一个安全、专业的系统。这帮助安永提高了系统运行速度,保护了敏感数据,而且最重要的是,使安永能够根据预期结果调整模型。

曼宁教授解释说:“假设你需要执行某项任务,比如审阅保险索赔并起草相关处理方案和理由等,如果你有大量以往的业务实例可供参考,那么你可以通过微调模型,使其特别擅长处理这种任务。”

对模型的微调由具备机器学习经验的人负责,而不是由提示语工程师进行调整。在这个阶段,公司可以决定删除不必要的内容,以精简数据集,例如写俳句的能力,或者将模型固定为提供特定的功能。

安永还创建了一个嵌入数据库,提高了系统的专业化程度。

赛兹表示:“[嵌入]可以理解为输入到模型中的附加数据集。我们可以整合税务知识、国家法规甚至行业知识,将所有信息串联起来。”

通过将这些额外的数据集添加到模型中,可以使模型更加适应其预期的用途。公司发现,最有效地利用人工智能的方法之一是创建一个受控的数据集,将其嵌入到数据库中,并使用自定义提示语进行查询。

赛兹解释称:“通常情况下,目前我们能做的是基于安永多年来积累的集体智慧,而不是个别税务团队的专业经验,对客户进行评估。而且我们不止在一个地区这样做,而是在全球多个地区采用这种做法。”

赛兹认为,通过微调内部模型和整合数据库,将人工智能模型个性化,将成为未来公司使用人工智能的关键。她还预测,随着人工智能的智能水平不断提高,提示语的重要性将逐渐降低。

然而,曼宁教授认为未来有多种可能。未来,既会有专业系统用于处理大工作量的任务,也会有广义模型,需要根据经过设计的提示语处理非常规任务,例如编写招聘广告。

曼宁教授对《财富》杂志表示:“现在你可以把这些重要的任务交给ChatGPT来完成。我认为,许多公司可以成功地培养出专门人才,学习并精通编写提示语,从而让ChatGPT生成令人满意的结果。”(财富中文网)

翻译:刘进龙

审校:汪皓

BORIS ZHITKOV—GETTY IMAGES

The race among companies to adapt AI has evolved: Instead of simply striving to be first, firms have turned their attention to learning how to deploy these powerful tools effectively. This development comes as companies discover that poorly crafted prompts—the set of instructions used to tell AI to perform a given task—and the use of unspecialized models are spawning inaccuracies and inefficiencies.

There are many examples of this evolution. Firms like Johnson & Johnson are creating libraries of prompts to share among staff to improve the quality of AI output. Other companies, including Starbucks, are taking things further by creating in-house models.

For context, it’s helpful to know that using a so-called large language model, like ChatGPT, requires entering a prompt for the AI that can be as simple as “summarize this story.”

“There are two parts of prompting. One part is just to give a good description of what you want done,” Christopher Manning, professor of computer science and linguistics at Stanford University and director of the Stanford Artificial Intelligence Laboratory, told Fortune. “After that, there’s a lot of fiddling that goes on because people quickly find that some prompts work better than others. It turns out that giving grandmotherly instructions like ‘make sure you think carefully about it’ actually tend to do good.”

Prompt libraries can be as simple as a collection of conversation starters like the library Johnson & Johnson’s uses in order to reduce friction for employees who use its internal generative AI chatbot.

“We’re using [our chatbot] to upload internal documents and create summaries or ask ad hoc questions,” a spokesperson for Johnson & Johnson said. “We created a prompt library with thought-starters to help employees explore potential use cases relevant to different areas of the business.”

Meanwhile other prompts aim to minimize the risk of hallucination—the term for the frequent occurrence of AI producing facts that sound plausible but aren’t true—or to format answers in the most efficient way possible.

“We have different prompting libraries depending on the use case or expected output,” Christian Pierre, Chief Intelligence Officer & Partner at creative agency GUT, told Fortune. “[Our] strategists and data analysts share a library and a ‘keyword cheat sheet’ with specific keywords that can drastically change the output. For instance, we know that just by adding ‘Provide it as a boolean query,’ ChatGPT will write boolean queries that we can use in our social listening tools.”

Often undesired outputs are the result of the absence of knowledge in the relevant data set. For example, a language model will likely supply an answer to a prompt asking why John got hit by a car—even if it has no information about John or the accident in the first place.

“The tendency of all of these models is that if there are facts, they will use them.” Professor Manning said, “And if there aren’t facts, [it will] write plausible ones with no basis in truth.”

Thus crafting the perfect prompt requires providing an intense level of context, the tweaking of keywords, and a precise description of the desired form. Those who pride themselves on creating these call themselves prompt engineers.

Taking it even further

Unfortunately, even the most optimized prompt can fall short of what big companies are looking for.

“These large language models are very generically trained,” Beatriz Sanz Sáiz, global consulting data and AI leader at Ernst & Young, told Fortune. “What we are trying to achieve is really bring in the best, let’s say tax professionals, to really fine-tune, retain, and retrain.”

Ernst & Young has created an in-house AI platform called EY.ai. Microsoft provided the firm early access to Azure OpenAI, in order to build a secure and specialized system. This has helped increase the speed of the system and protect sensitive data and, most importantly, provided EY with the ability to adjust the model to fit its desired outcomes.

“If there’s one task that you want to do—like reading insurance claims, writing out what we’re doing with them, and what the reason for it was—and if you’ve got a fair number of examples of that from your past business,” Professor Manning explained, “you can then fine-tune the model to be especially good at that.”

Fine-tuning is done by someone with machine learning experience, rather than a prompt engineer. At this stage, the company may decide to shrink the dataset by removing unnecessary stuff, like the ability to write haiku, to fixate the model on a specific function.

Ernst & Young has specialized its system further by creating a library of embeddings.

“Think of [embeddings] as additional data sets that you put into the model,” Sáiz said. “We can connect all the dots by bringing together the tax knowledge, the country regulation, maybe also the sector knowledge.”

By plugging-in these additional datasets, the model becomes hyper-specific to its purpose. Companies are finding the best AI recipe entails building on a controlled dataset, injecting it with a library of embeddings, and querying with customized prompts.

“Typically now what we’ll be able to do is assess clients, not on the expertise of an individual tax team but on the collective knowledge that EY has created for years,” Sáiz explained. “And not just in one jurisdiction, but globally across multiple jurisdictions.”

Sáiz believes that the personalization of AI models through finely tuned in-house models and embedding libraries will be crucial to the future of companies using AI. She also predicts that the importance of prompts will decrease as AI gets more intelligent.

However, Professor Manning believes the future will be mixed. While specialized systems will exist for high volume tasks there is also room for generalized models that require engineered prompts for irregular tasks, such as writing a job advertisement.

“Those are great tasks you can give to ChatGPT these days,” Professor Manning told Fortune. “I think a huge space of companies can very successfully have someone who learns a bit and gets perfectly decent at writing prompts and getting great results out of ChatGPT.”

热读文章
热门视频
扫描二维码下载财富APP