机器能否真正习得语言？

章劢闻

2024-03-15

之前的机器学习更像二语习得，而今天的生成式人工智能则接近母语学习。

文本设置

小号

默认

大号

Plus(0条)

过去一年注定会成为人类历史的重要章节——在经历了信息爆炸和信息过剩之后，“语言失控的时代”到来了。准确地说是人类失去了对语言的控制。去年初GPT新版本发布时，简短的介绍最后有一句忧心忡忡的话：“人类已经难以分辨出大模型撰写的新闻。”到年底，生成式人工智能（AIGC）产生的语言文字已经远远超越新闻内容，变得无处不在、难以统计。

要说明一点：失控并非一定导致灾难，更重要的是看能否适应这种变化。就像人类未曾能够控制微小尺度间病毒的来去，也从来无法阻止宇宙尺度上天体的运行，我们只是适应了这些规律。同样，生成式人工智能虽然还在诞生的早期，但是它让我们窥见一种可能：人类也许从来不是语言唯一的主人，而只是临时看护了它的成长。要理解这一点，首先要思考一个问题：机器能否真正习得语言？

回到18年前的冬天，在牛津北郊的学生宿舍里，我在一台二手的ThinkPad上处理着导师购买的33万篇《纽约时报》语料，试图通过机器学习让算法能够生成新闻背景。那一年，俄罗斯的“库尔斯克号”核潜艇发生事故，沉入了海底。我立刻做了实验，发现算法对潜艇灾难的归纳与媒体报道高度相似。

我的导师是后来DeepMind的研究成员之一，他提醒我：实验的成功可能缘于新闻文体的特殊性，而并非算法。这也加深了我的疑惑：我们似乎总是在存量信息中寻找规律，比如“新闻第一段总是存在各种事实要素”等。这似乎是在靠经验和概率提升运气，而并非真正让机器学会语言。

这其中涉及到的专业叫“自然语言处理”。当时在同一间公寓里，另一位学者在研究“二语习得”，也就是人类如何学习母语之外的第二外语。我们交谈之后，感觉两门学科有相似之处，也存在类似的问题。

最近，在和猎豹移动董事长兼首席执行官傅盛的对话中，他忽然让我理解了这种联系。傅盛的观点：之前的机器学习更像二语习得，而今天的生成式人工智能则接近母语学习。简单理解：人类学习第二外语学习必须“锚定”一种母语，是一种关联经验的过程。作为对比，母语的习得则是人脑“沉浸”于客观世界后获得的整体印象，其过程更为“神秘且伟大”。

生成式人工智能的颠覆性在于：硅基智能一次性地完成了沉浸式的母语习得，而且接受了人类现存的上百种语言，以及语言所承载的人类知识和信息的总和。这种过程究竟创造了一个什么样的事物，我们还在试图理解，但是可以肯定其能量远超我们的想象。

举个例子，最近读到一段质量不高的文字，讲述了亚马逊创始人杰夫·贝佐斯和一位Kindle早期设计师之间的恩恩怨怨。英文存在大量模糊的语言和跳跃的逻辑。我尝试用一个国产大模型来翻译这段话。结果发现AI不仅完成了英译中，还补上了一些原文缺失的背景和逻辑关系，比如这位设计师离职后的故事。这种跨语言文化、深入到事件背景的梳理恰恰就是以前人类编辑的工作。现在，机器不仅完成了文字创作，而且在速度和质量上远超人类。

这个大模型是中国90后的人工智能天才杨植麟开发的“月之暗面”。很显然，暂且忽略机器是否有“意识”和“情感”这些问题，人工智能至少已经从锚定人类的认知框架，跨越到了“母语学习”，直接认识了客观世界。试想一下，未来它们将会取代多少人类的脑力劳动？

发刊前，我做了一个实验，让“月之暗面”阅读了两篇中英文的年度盘点，请它摘引一句对人类最有启示的话。它选择了拼多多创始人黄铮的一句意味深长的直接引语：“简单和常识的力量是无穷的。”（财富中文网）

原文刊载于1/2月刊《财富》（中文版）杂志。

财富中文网所刊载内容之知识产权为财富媒体知识产权有限公司及/或相关权利人专属所有或持有。未经许可，禁止进行转载、摘编、复制及建立镜像等任何使用。

0条Plus

精彩评论

撰写或查看更多评论

请打开财富Plus APP

前往打开

热读文章

关注我们

机器能否真正习得语言？

撰写或查看更多评论