立即打开
对AI模型公司的终极惩罚:算法追缴

对AI模型公司的终极惩罚:算法追缴

STEPHEN PASTIS 2023-09-02
联邦贸易委员会很少动用这项权力,通常针对的是滥用数据的公司。

图片来源:JAAP ARRIENS —— NURPHOTO/盖蒂图片社

一切要从詹姆斯·邹收到的一封邮件说起。

这封邮件提出了一个貌似合理的要求,但邹意识到,这个要求几乎不可能满足。

邮件开头写道:“亲爱的研究者:如您所知,参与者可随时退出英国生物样本库(UK Biobank),并要求不得继续使用其数据。自从我们上一次审查以来,一些参加申请[经过修改]的参与者已经要求不得继续使用他们的数据。”

这封邮件来自英国生物样本库,这是一个大型健康与基因数据库,收集了50万英国人的数据。该数据库被公共和私营部门广泛应用。

邹是斯坦福大学(Stanford University)的教授,也是一位知名生物医学数据科学家。他已经将生物样本库的数据输入到算法当中,用于训练一个人工智能模型。现在,这封邮件要求他删除数据。邹在2019年举办的有关此事的研讨会上解释称:“事情变得很棘手。”

这是因为,从一个经过训练的人工智能模型中删除一个用户的数据几乎是不可能的,除非将模型重置,而这样一来为训练模型所付出的大量金钱和精力就打了水漂。如果用人类来类比的话,人工智能“看见了”某个事物,你就很难告诉模型要“忘掉”它所看到的东西。而且彻底删除模型也出奇地难。

这是人工智能时代初期,我们所遇到的最棘手的、尚未解决的挑战之一,其他问题包括人工智能“幻觉”和解释人工智能的某些输出结果时存在的困难。许多专家认为,人工智能遗忘问题,与对隐私和虚假信息监管不足这个问题产生了冲突:随着人工智能模型的规模日益庞大,并吸纳越来越多数据,如果没有从模型中删除数据甚至删除模型本身的解决方案,受影响的将不止是健康研究的参与者,这将成为一个涉及每个人的突出问题。

为什么很难彻底删除人工智能模型

在邹最初遭遇困境多年以后,ChatGPT等生成式人工智能工具引发的热度,掀起了一波创作和扩散人工智能的潮流。此外,这些模型的规模越来越大,这意味着它们在训练过程中吸收了更多数据。

许多模型被用于医疗、金融等行业,在这些行业重视数据隐私和数据使用尤为重要。

但正如邹最初所发现的情况一样,从模型中删除数据并不容易。这是因为人工智能模型不止是一行行的代码。它是经过学习后掌握的在特定数据集中不同数据点之间的统计学关系,其中包含了人类难以理解的极其复杂的微妙关系。一旦模型学会这些关系,就很难让其忽视它已经学会的某些部分。

纽约大学(New York University)的人工智能专家和计算机科学教授阿纳斯·巴里对《财富》杂志表示:“如果一个基于机器学习的系统已经接受过数据训练,要追溯性删除部分数据的唯一方法就是从零开始重新训练算法。”

这个问题不止关于个人数据隐私。如果一个人工智能模型被发现收集了存在偏见或恶意的数据,例如来自种族主义者的社交媒体帖子中的数据,要清理这些不良数据难度极大。

训练或重新训练人工智能模型成本高昂。尤其是训练超大型“基础模型”需要花费巨额成本,这类模型为当前生成式人工智能的蓬勃发展提供了动力。据报道,OpenAI公司CEO山姆·阿尔特曼曾表示,训练GPT-4的成本超过1亿美元。GPT-4是驱动GhatGPT高端版本的大语言模型。

这就是为什么开发人工智能模型的公司,会害怕美国联邦贸易委员会处罚违反美国贸易法的公司时用到的一个强大工具。这个工具名为“算法追缴”。该法律程序旨在强制违法公司彻底删除违规的人工智能模型,作为对公司的处罚。联邦贸易委员会很少动用这项权力,通常针对的是滥用数据的公司。一个著名案例是联邦贸易委员会对Everalbum这家公司行使了这项权力,因为该公司未经许可使用人们的生物识别数据训练了一个面部识别系统。

但巴里表示,算法追缴假设创建人工智能系统的公司可以识别一个数据集中非法收集的部分,但事实上并非如此。数据很容易在互联网上四处传播,而且越来越多数据未经许可从原始来源被“抓取”,这给确定数据的原始所有权带来了挑战。

算法追缴存在的另外一个问题是,在实践中,彻底删除人工智能模型,可能像消灭僵尸一样困难。

人工智能专家兰斯·埃利奥特通过电子邮件对《财富》杂志表示:“试图删除一个人工智能模型,或许看起来很容易,似乎只要按下删除键就能彻底解决问题,但实际情况并非如此。”

埃利奥特写道,人工智能模型被删除后很容易复原,因为可能还有模型的其他数字拷贝存在,很容易复原。

邹表示,对于目前的状况,要么对技术进行大幅调整,使公司遵守法律,要么立法者重新制定法规,并重新思考如何让公司遵守规定。

创建小模型有利于保护隐私

邹和他的合作伙伴在研究中确实提出了在不破坏整个模型的前提下,从基于聚类的简单机器学习模型中删除数据的一些方法。但这些方法不适用于更复杂的模型,例如支撑当前生成式人工智能繁荣发展的大多数深度学习模型。邹和他的合作伙伴在2019年发表的一篇研究论文中建议,这些更复杂的模型可能在最开始就需要使用一种不同训练机制,才能在不影响整个模型运行也不需要重新训练整个模型的情况下,删除模型中的特定统计路径。

如果公司担心要求其依据规定删除用户数据,例如欧洲多项数据隐私法律中都有这样的规定,他们或许需要采用其他方法。事实上,至少有一家人工智能公司的业务就是完全围绕这种观念展开的。

德国公司Xayn从事私人个性化人工智能搜索和推荐技术研发。该公司的技术使用一个基础模型,为每一位用户单独训练一个小模型。这样一来,该公司很容易就能根据用户的要求删除用户个人的模型。

Xayn CEO兼联合创始人列夫-尼森·伦德班克表示:“我们绝不会遇到将用户数据输入一个大模型的问题。”

伦德班克表示,他认为Xayn独立的人工智能小模型比OpenAI、谷歌(Google)、Anthropic、Inflection等公司开发的庞大的大语言模型,在开发符合数据隐私规定的人工智能方面更可行。庞大的模型从互联网中抓取了海量数据,包括个人信息,以至于公司自己通常都不能准确了解其训练数据集中包含了哪些数据。而且,伦德班克表示,这些庞大的模型需要巨额的训练和维护成本。

他表示,目前隐私公司和人工智能公司处在一种并行发展的状态。

另外一家人工智能公司SpotLab试图填补隐私与人工智能之间的空白。该公司致力于开发临床研究模型。其创始人兼CEO米格尔·卢恩格-奥罗斯曾是一名联合国的研究员和首席科学家。他表示,在研究人工智能的20年间,他经常思考这个缺失的环节:人工智能系统的遗忘能力。

他表示,在这方面之所以鲜有进展,原因之一是,到目前为止,没有任何数据隐私法能迫使公司和研究人员必须认真解决这个问题。欧洲在这方面已经有所转变,但美国仍然缺少要求公司为删除用户个人数据提供便利的规定。

立法者到目前为止在这方面毫无作为,因此有人希望法院能够介入。最近有一项诉讼指控OpenAI盗用“数以百万计美国人的”数据训练ChatGPT模型。

而且有迹象表明,一些大型科技公司可能开始认真对待这个问题。6月,谷歌宣布发起一项研究竞赛,邀请研究人员解决人工智能无法遗忘的问题。

但在这些工作取得任何进展之前,用户的数据将继续在日益庞大的人工智能模型中传播,很容易成为可疑甚至危险行为针对的对象。

伦德班克表示:“我认为这是很危险的。如果有人能够获取这些数据,例如某些情报机构或者其他国家,这些数据很有可能被恶意利用。”(财富中文网)

翻译:刘进龙

审校:汪皓

一切要从詹姆斯·邹收到的一封邮件说起。

这封邮件提出了一个貌似合理的要求,但邹意识到,这个要求几乎不可能满足。

邮件开头写道:“亲爱的研究者:如您所知,参与者可随时退出英国生物样本库(UK Biobank),并要求不得继续使用其数据。自从我们上一次审查以来,一些参加申请[经过修改]的参与者已经要求不得继续使用他们的数据。”

这封邮件来自英国生物样本库,这是一个大型健康与基因数据库,收集了50万英国人的数据。该数据库被公共和私营部门广泛应用。

邹是斯坦福大学(Stanford University)的教授,也是一位知名生物医学数据科学家。他已经将生物样本库的数据输入到算法当中,用于训练一个人工智能模型。现在,这封邮件要求他删除数据。邹在2019年举办的有关此事的研讨会上解释称:“事情变得很棘手。”

这是因为,从一个经过训练的人工智能模型中删除一个用户的数据几乎是不可能的,除非将模型重置,而这样一来为训练模型所付出的大量金钱和精力就打了水漂。如果用人类来类比的话,人工智能“看见了”某个事物,你就很难告诉模型要“忘掉”它所看到的东西。而且彻底删除模型也出奇地难。

这是人工智能时代初期,我们所遇到的最棘手的、尚未解决的挑战之一,其他问题包括人工智能“幻觉”和解释人工智能的某些输出结果时存在的困难。许多专家认为,人工智能遗忘问题,与对隐私和虚假信息监管不足这个问题产生了冲突:随着人工智能模型的规模日益庞大,并吸纳越来越多数据,如果没有从模型中删除数据甚至删除模型本身的解决方案,受影响的将不止是健康研究的参与者,这将成为一个涉及每个人的突出问题。

为什么很难彻底删除人工智能模型

在邹最初遭遇困境多年以后,ChatGPT等生成式人工智能工具引发的热度,掀起了一波创作和扩散人工智能的潮流。此外,这些模型的规模越来越大,这意味着它们在训练过程中吸收了更多数据。

许多模型被用于医疗、金融等行业,在这些行业重视数据隐私和数据使用尤为重要。

但正如邹最初所发现的情况一样,从模型中删除数据并不容易。这是因为人工智能模型不止是一行行的代码。它是经过学习后掌握的在特定数据集中不同数据点之间的统计学关系,其中包含了人类难以理解的极其复杂的微妙关系。一旦模型学会这些关系,就很难让其忽视它已经学会的某些部分。

纽约大学(New York University)的人工智能专家和计算机科学教授阿纳斯·巴里对《财富》杂志表示:“如果一个基于机器学习的系统已经接受过数据训练,要追溯性删除部分数据的唯一方法就是从零开始重新训练算法。”

这个问题不止关于个人数据隐私。如果一个人工智能模型被发现收集了存在偏见或恶意的数据,例如来自种族主义者的社交媒体帖子中的数据,要清理这些不良数据难度极大。

训练或重新训练人工智能模型成本高昂。尤其是训练超大型“基础模型”需要花费巨额成本,这类模型为当前生成式人工智能的蓬勃发展提供了动力。据报道,OpenAI公司CEO山姆·阿尔特曼曾表示,训练GPT-4的成本超过1亿美元。GPT-4是驱动GhatGPT高端版本的大语言模型。

这就是为什么开发人工智能模型的公司,会害怕美国联邦贸易委员会处罚违反美国贸易法的公司时用到的一个强大工具。这个工具名为“算法追缴”。该法律程序旨在强制违法公司彻底删除违规的人工智能模型,作为对公司的处罚。联邦贸易委员会很少动用这项权力,通常针对的是滥用数据的公司。一个著名案例是联邦贸易委员会对Everalbum这家公司行使了这项权力,因为该公司未经许可使用人们的生物识别数据训练了一个面部识别系统。

但巴里表示,算法追缴假设创建人工智能系统的公司可以识别一个数据集中非法收集的部分,但事实上并非如此。数据很容易在互联网上四处传播,而且越来越多数据未经许可从原始来源被“抓取”,这给确定数据的原始所有权带来了挑战。

算法追缴存在的另外一个问题是,在实践中,彻底删除人工智能模型,可能像消灭僵尸一样困难。

人工智能专家兰斯·埃利奥特通过电子邮件对《财富》杂志表示:“试图删除一个人工智能模型,或许看起来很容易,似乎只要按下删除键就能彻底解决问题,但实际情况并非如此。”

埃利奥特写道,人工智能模型被删除后很容易复原,因为可能还有模型的其他数字拷贝存在,很容易复原。

邹表示,对于目前的状况,要么对技术进行大幅调整,使公司遵守法律,要么立法者重新制定法规,并重新思考如何让公司遵守规定。

创建小模型有利于保护隐私

邹和他的合作伙伴在研究中确实提出了在不破坏整个模型的前提下,从基于聚类的简单机器学习模型中删除数据的一些方法。但这些方法不适用于更复杂的模型,例如支撑当前生成式人工智能繁荣发展的大多数深度学习模型。邹和他的合作伙伴在2019年发表的一篇研究论文中建议,这些更复杂的模型可能在最开始就需要使用一种不同训练机制,才能在不影响整个模型运行也不需要重新训练整个模型的情况下,删除模型中的特定统计路径。

如果公司担心要求其依据规定删除用户数据,例如欧洲多项数据隐私法律中都有这样的规定,他们或许需要采用其他方法。事实上,至少有一家人工智能公司的业务就是完全围绕这种观念展开的。

德国公司Xayn从事私人个性化人工智能搜索和推荐技术研发。该公司的技术使用一个基础模型,为每一位用户单独训练一个小模型。这样一来,该公司很容易就能根据用户的要求删除用户个人的模型。

Xayn CEO兼联合创始人列夫-尼森·伦德班克表示:“我们绝不会遇到将用户数据输入一个大模型的问题。”

伦德班克表示,他认为Xayn独立的人工智能小模型比OpenAI、谷歌(Google)、Anthropic、Inflection等公司开发的庞大的大语言模型,在开发符合数据隐私规定的人工智能方面更可行。庞大的模型从互联网中抓取了海量数据,包括个人信息,以至于公司自己通常都不能准确了解其训练数据集中包含了哪些数据。而且,伦德班克表示,这些庞大的模型需要巨额的训练和维护成本。

他表示,目前隐私公司和人工智能公司处在一种并行发展的状态。

另外一家人工智能公司SpotLab试图填补隐私与人工智能之间的空白。该公司致力于开发临床研究模型。其创始人兼CEO米格尔·卢恩格-奥罗斯曾是一名联合国的研究员和首席科学家。他表示,在研究人工智能的20年间,他经常思考这个缺失的环节:人工智能系统的遗忘能力。

他表示,在这方面之所以鲜有进展,原因之一是,到目前为止,没有任何数据隐私法能迫使公司和研究人员必须认真解决这个问题。欧洲在这方面已经有所转变,但美国仍然缺少要求公司为删除用户个人数据提供便利的规定。

立法者到目前为止在这方面毫无作为,因此有人希望法院能够介入。最近有一项诉讼指控OpenAI盗用“数以百万计美国人的”数据训练ChatGPT模型。

而且有迹象表明,一些大型科技公司可能开始认真对待这个问题。6月,谷歌宣布发起一项研究竞赛,邀请研究人员解决人工智能无法遗忘的问题。

但在这些工作取得任何进展之前,用户的数据将继续在日益庞大的人工智能模型中传播,很容易成为可疑甚至危险行为针对的对象。

伦德班克表示:“我认为这是很危险的。如果有人能够获取这些数据,例如某些情报机构或者其他国家,这些数据很有可能被恶意利用。”(财富中文网)

翻译:刘进龙

审校:汪皓

It all started with an email James Zou received.

The email was making a request that seemed reasonable, but which Zou realized would be nearly impossible to fulfill.

“Dear Researcher,” the email began. “As you are aware, participants are free to withdraw from the UK Biobank at any time and request that their data no longer be used. Since our last review, some participants involved with Application [REDACTED] have requested that their data should longer be used.”

The email was from the U.K. Biobank, a large-scale database of health and genetic data drawn from 500,000 British residents, that is widely available to the public and private sector.

Zou, a professor at Stanford University and prominent biomedical data scientist, had already fed the Biobank’s data to an algorithm and used it to train an A.I. model. Now, the email was requesting the data’s removal. “Here’s where it gets hairy,” Zou explained in a 2019 seminar he gave on the matter.

That’s because, as it turns out, it’s nearly impossible to remove a user’s data from a trained A.I. model without resetting the model and forfeiting the extensive money and effort put into training it. To use a human analogy, once an A.I. has “seen” something, there is no easy way to tell the model to “forget” what it saw. And deleting the model entirely is also surprisingly difficult.

This represents one of the thorniest, unresolved, challenges of our incipient artificial intelligence era, alongside issues like A.I. “hallucinations” and the difficulties of explaining certain A.I. outputs. According to many experts, the A.I. unlearning problem is on a collision course with inadequate regulations around privacy and misinformation: As A.I. models get larger and hoover up ever more data, without solutions to delete data from a model — and potentially delete the model itself — the people affected won’t just be those who have participated in a health study, it’ll be a salient problem for everyone.

Why A.I. models are as difficult to kill as a zombie

In the years since Zou’s initial predicament, the excitement over generative A.I. tools like ChatGPT has caused a boom in the creation and proliferation of A.I. models. What’s more, those models are getting bigger, meaning they ingest more data during their training.

Many of these models are being put to work in industries like medical care and finance where it’s especially important to be careful about data privacy and data usage.

But as Zou discovered when he set out to find a solution to removing data, there’s no simple way to do it. That’s because an A.I. model isn’t just lines of coding. It’s a learned set of statistical relations between points in a particular dataset, encompassing subtle relationships that are often far too complex for human understanding. Once the model learns this relationship, there’s no simple way to get the model to ignore some portion of what it has learned.

“If a machine learning-based system has been trained on data, the only way to retroactively remove a portion of that data is by re-training the algorithms from scratch,” Anasse Bari, an A.I. expert and computer science professor at New York University, told Fortune.

The problem goes beyond private data. If an A.I. model is discovered to have gleaned biased or toxic data, say from racist social media posts, weeding out the bad data will be tricky.

Training or retraining an A.I. model is expensive. This is particularly true for the ultra-large “foundation models” that are currently powering the boom in generative A.I. Sam Altman, the CEO of OpenAI, has reportedly said that GPT-4, the large language model that powers its premium version of ChatGPT, cost in excess of $100 million to train.

That’s why, to companies developing A.I. models, a powerful tool that the U.S. Federal Trade Commission has to punish companies it finds have violated U.S. trade laws is scary. The tool is called “algorithmic disgorgement.” It’s a legal process that penalizes the law-breaking company by forcing it to delete an offending A.I. model in its entirety. The FTC has only used that power a handful of times, typically directed at companies who have misused data. One well known case where the FTC did use this power is against a company called Everalbum, which trained a facial recognition system using people’s biometric data without their permission.

But Bari says that algorithmic disgorgement assumes those creating A.I. systems can even identify which part of a dataset was illegally collected, which is sometimes not the case. Data easily traverses various internet locations, and is increasingly “scraped” from its original source without permission, making it challenging to determine its original ownership.

Another problem with algorithmic disgorgement is that, in practice, A.I. models can be as difficult to kill as zombies.

“Trying to delete an AI model might seem exceedingly simple, namely just press a delete button and the matter is entirely concluded, but that’s not how things work in the real world,” Lance Elliot, an A.I. expert, told Fortune in an email.

A.I. models can be easily reinstated after deletion because it’s likely other digital copies of the model exist and can be easily reinstated, Elliot writes.

Zou says that, the way things stand, either the technology needs to change substantially so that companies can comply with the law, or lawmakers need to rethink the regulations and how they can make companies comply.

Building smaller models is good for privacy

In his research, Zou and his collaborators did come up with some ways that data can be deleted from simple machine learning models that are based on a technique known as clustering without compromising the entire model. But those same methods won’t work for more complex models such as most of the deep learning systems that underpin today’s generative A.I. boom. For these models, a different kind of training regime may have to be used in the first place to make it possible to delete certain statistical pathways in the model without compromising the whole model’s performance or requiring the entire model to be retrained, Zou and his co-authors suggested in a 2019 research paper.

For companies worried about the requirement that they be able to delete users data upon request, which is a part of several European data privacy laws, other methods may be needed. In fact, there’s at least one A.I. company that has built its entire business around this idea.

Xayn is a German company that makes private, personalized A.I. search and recommendation technology. Xayn’s technology works by using a base model and then training a separate small model for each user. That makes it very easy to delete any of these individual users’ models upon request.

“This problem of your data floating into the big model never happens with us,” Leif-Nissen Lundbæk, the CEO and co-founder of Xayn, said.

Lundbæk said he thinks Xayn’s small, individual A.I. models represent a more viable way to create A.I. in a way that can comply with data privacy requirements than the massive large language models being built by companies such as OpenAI, Google, Anthropic, Inflection, and others. Those models suck up vast amounts of data from the internet, including personal information—so much that the companies themselves often have poor insight into exactly what data is contained in the training set. And these massive models are extremely expensive to train and maintain, Lundbaek said.

Privacy and artificial intelligence businesses are currently a sort of parallel development, he said.

Another A.I. company trying to bridge the gap between privacy and A.I. is SpotLab, which builds models for clinical research. Its founder and CEO Miguel Luengo-Oroz previously worked at the United Nations as a researcher and chief data scientist. In 20 years of studying A.I., he says he has often thought about this missing piece: an A.I.’s system’s ability to unlearn.

He says that one reason little progress has been made on the issue is that, until recently, there was no data privacy regulation forcing companies and researchers to expend serious effort to address it. That has changed recently in Europe, but in the U.S., rules that would require companies to make it easy to delete people’s data are still absent.

Some people are hoping the courts will step in where lawmakers have so far failed. One recent lawsuit alleges OpenAI stole “millions of Americans'” data to train ChatGPT’s model.

And there are signs that some big tech companies may be starting to think harder about the problem. In June, Google announced a competition for researchers to come up with solutions to A.I.’s inability to forget.

But until more progress is made, user data will continue to float around in an expanding constellation of A.I models, leaving it vulnerable to dubious, or even threatening, actions.

“I think it’s dangerous and if someone got access to this data, let’s say, some kind of intelligence agencies or even other countries, I mean, I think it can be really be used in a bad way,” Lundbæk said.

热读文章
热门视频
扫描二维码下载财富APP