立即打开
机器能否真正习得语言?

机器能否真正习得语言?

章劢闻 2024-03-15
之前的机器学习更像二语习得,而今天的生成式人工智能则接近母语学习。

过去一年注定会成为人类历史的重要章节——在经历了信息爆炸和信息过剩之后,“语言失控的时代”到来了。准确地说是人类失去了对语言的控制。去年初GPT新版本发布时,简短的介绍最后有一句忧心忡忡的话:“人类已经难以分辨出大模型撰写的新闻。”到年底,生成式人工智能(AIGC)产生的语言文字已经远远超越新闻内容,变得无处不在、难以统计。

要说明一点:失控并非一定导致灾难,更重要的是看能否适应这种变化。就像人类未曾能够控制微小尺度间病毒的来去,也从来无法阻止宇宙尺度上天体的运行,我们只是适应了这些规律。同样,生成式人工智能虽然还在诞生的早期,但是它让我们窥见一种可能:人类也许从来不是语言唯一的主人,而只是临时看护了它的成长。要理解这一点,首先要思考一个问题:机器能否真正习得语言?

回到18年前的冬天,在牛津北郊的学生宿舍里,我在一台二手的ThinkPad上处理着导师购买的33万篇《纽约时报》语料,试图通过机器学习让算法能够生成新闻背景。那一年,俄罗斯的“库尔斯克号”核潜艇发生事故,沉入了海底。我立刻做了实验,发现算法对潜艇灾难的归纳与媒体报道高度相似。

我的导师是后来DeepMind的研究成员之一,他提醒我:实验的成功可能缘于新闻文体的特殊性,而并非算法。这也加深了我的疑惑:我们似乎总是在存量信息中寻找规律,比如“新闻第一段总是存在各种事实要素”等。这似乎是在靠经验和概率提升运气,而并非真正让机器学会语言。

这其中涉及到的专业叫“自然语言处理”。当时在同一间公寓里,另一位学者在研究“二语习得”,也就是人类如何学习母语之外的第二外语。我们交谈之后,感觉两门学科有相似之处,也存在类似的问题。

最近,在和猎豹移动董事长兼首席执行官傅盛的对话中,他忽然让我理解了这种联系。傅盛的观点:之前的机器学习更像二语习得,而今天的生成式人工智能则接近母语学习。简单理解:人类学习第二外语学习必须“锚定”一种母语,是一种关联经验的过程。作为对比,母语的习得则是人脑“沉浸”于客观世界后获得的整体印象,其过程更为“神秘且伟大”。

生成式人工智能的颠覆性在于:硅基智能一次性地完成了沉浸式的母语习得,而且接受了人类现存的上百种语言,以及语言所承载的人类知识和信息的总和。这种过程究竟创造了一个什么样的事物,我们还在试图理解,但是可以肯定其能量远超我们的想象。

举个例子,最近读到一段质量不高的文字,讲述了亚马逊创始人杰夫·贝佐斯和一位Kindle早期设计师之间的恩恩怨怨。英文存在大量模糊的语言和跳跃的逻辑。我尝试用一个国产大模型来翻译这段话。结果发现AI不仅完成了英译中,还补上了一些原文缺失的背景和逻辑关系,比如这位设计师离职后的故事。这种跨语言文化、深入到事件背景的梳理恰恰就是以前人类编辑的工作。现在,机器不仅完成了文字创作,而且在速度和质量上远超人类。

这个大模型是中国90后的人工智能天才杨植麟开发的“月之暗面”。很显然,暂且忽略机器是否有“意识”和“情感”这些问题,人工智能至少已经从锚定人类的认知框架,跨越到了“母语学习”,直接认识了客观世界。试想一下,未来它们将会取代多少人类的脑力劳动?

发刊前,我做了一个实验,让“月之暗面”阅读了两篇中英文的年度盘点,请它摘引一句对人类最有启示的话。它选择了拼多多创始人黄铮的一句意味深长的直接引语:“简单和常识的力量是无穷的。”(财富中文网)

原文刊载于1/2月刊《财富》(中文版)杂志。

热读文章
热门视频
扫描二维码下载财富APP