立即打开
AI究竟能保护语言,还是加速它们的消亡?

AI究竟能保护语言,还是加速它们的消亡?

KARTHIK CHIDAMBARAM 2024-02-04
只有5%的语言能在数字时代存活。

盖蒂图片社

在全世界,有数千种语言面临消亡的风险。据联合国统计,每两周就有一种土著语言消亡。这对人类造成的损失难以估量。语言中充满了独特的想法、概念和理解,由于其他语言中并没有对应的词汇,因此这些语言通常没有翻译。正如语言学家阿纳斯塔西娅·里尔所说,语言不仅是社区文化和身份认同的关键来源,它作为一种“重要的人类认知信息的来源”,对全世界有益。

土著语言面临风险的一个重要原因是向数字时代的转变。研究人员安德拉什·科尔奈开展的一项研究,得出了令人担忧的结果。这项研究预测,“只有不到5%的语言能在数字时代存活下去”,该研究还警告有“证据证明数字鸿沟导致了语言的大规模消亡”。

随着人来越来越多通过数字工具进行沟通,主流数字平台不支持的语言可能被遗忘。研究人员为此创造了一个术语:“数字弱势语言”。

泰米尔语的处境

笔者使用的是全世界最古老的语言之一的泰米尔语。泰米尔语是美国副总统贺锦丽的母语,她在接受副总统提名时提到了这种语言。它也是谷歌(Google)CEO桑德拉·皮查伊的母语。圣雄甘地为了理解原始版本的有关伦理道德的著名作品《蒂鲁古拉尔》(Thirukkural),曾希望学习泰米尔语。

有报告称超过7,000万人讲泰米尔语,其中在美国有约25万人,它目前并未被认定为是一种正在消亡的语言。但我看到了它的数字弱势地位。我小时候在美国和印度钦奈度过。钦奈隶属于泰米尔纳德邦,泰米尔语是该邦的官方语言。但我看到,每年当地有越来越多标志、产品标识、商业对话和流行文化变成了英语。在公共场合使用泰米尔语时,会越来越多地被直译成英语(拉丁字符)。

除了文化原因以外(在钦奈等偏好英语的地区,有时候泰米尔语会遭到歧视),数字现实是这种转变的主要驱动力。人们习惯了首先使用英语,尤其是年轻人,因为大多数计算机和手机都用英语设计。因此,即使人们知道泰米尔语,通常也会输入英文字符。泰米尔语有247个字符。一些技术人员正在开发工具,以帮助提高泰米尔语输入的效率,使其变成一种积极的体验。笔者领导的DCKAP公司就是其中之一,我们正在为使用泰米尔语的人设计一种新键盘。我们的灵感来自创造中文解决方案的设计师。

最近几个月,显然有一波新技术浪潮,可能掀起变革。在数字时代,生成式人工智能可以发挥巨大的作用,为语言注入新的活力。

将AI变成传承古代语言的家园

生成式AI令人们兴奋的是,它能“理解”和复制人类相互对话的方式。它能产生雪球效应。使用ChatGPT和Bard等生成式AI的人越多,这些工具就能更好地理解和复制语言。目前,这些工具只精通主导互联网的语言,尤其是英语。

这为语言学家、技术人员和正在将语言转移到数字领域的其他人,创造了巨大的机会。为面临风险的语言开发生成式AI工具,将让语言的使用者有机会教AI使用他们的母语进行自然的对话。AI工具还能完善口笔译工具,帮助人们用不同语言沟通。数字世界对短语、习语和观点的意义理解和翻译地越准确,就会有越多人感觉他们可以用自己的母语表达自己。

做这一切最紧迫的理由之一是出于商业目的。在全世界有许多有才华的人们说着数千种语言,但他们目前在要求英语的许多大公司却找不到工作。随着AI可以提供能捕捉想法和细微差别的即时翻译,人们能够向讲不同语言的同事表达自己的观点,但不会影响公司的节奏。

公司也可以进入新的消费者市场。随着AI技术改善了手机相机,人们可以用手机对向任何标志或产品,并立即翻译成他们的母语。目前全世界正在被使用的语言有7,000种,而大多数应用只能翻译不到200种语言。

当然,这也意味着要保证越来越多人能够使用互联网和AI工具。目前约有三分之二人类(超过50亿人)可以使用互联网。

让尽可能多的语言进入这个AI的新时代,不只是一次机会,而是势在必行。如果希望加入AI革命的人们发现,他们的语言被排除在外,他们自然会放弃自己的语言,并选择更主流的语言。但如果AI工具能支持夏威夷语、阿鲁科语和斯普蒂语等,就能拯救这些语言,否则将为时已晚。(财富中文网)

本文作者卡西克·奇丹巴拉姆是综合平台提供商DCKAP的创始人兼CEO。

Fortune.com上发表的评论文章中表达的观点,仅代表作者本人的观点,不能代表《财富》杂志的观点和立场。

翻译:刘进龙

审校:汪皓

盖蒂图片社

在全世界,有数千种语言面临消亡的风险。据联合国统计,每两周就有一种土著语言消亡。这对人类造成的损失难以估量。语言中充满了独特的想法、概念和理解,由于其他语言中并没有对应的词汇,因此这些语言通常没有翻译。正如语言学家阿纳斯塔西娅·里尔所说,语言不仅是社区文化和身份认同的关键来源,它作为一种“重要的人类认知信息的来源”,对全世界有益。

土著语言面临风险的一个重要原因是向数字时代的转变。研究人员安德拉什·科尔奈开展的一项研究,得出了令人担忧的结果。这项研究预测,“只有不到5%的语言能在数字时代存活下去”,该研究还警告有“证据证明数字鸿沟导致了语言的大规模消亡”。

随着人来越来越多通过数字工具进行沟通,主流数字平台不支持的语言可能被遗忘。研究人员为此创造了一个术语:“数字弱势语言”。

泰米尔语的处境

笔者使用的是全世界最古老的语言之一的泰米尔语。泰米尔语是美国副总统贺锦丽的母语,她在接受副总统提名时提到了这种语言。它也是谷歌(Google)CEO桑德拉·皮查伊的母语。圣雄甘地为了理解原始版本的有关伦理道德的著名作品《蒂鲁古拉尔》(Thirukkural),曾希望学习泰米尔语。

有报告称超过7,000万人讲泰米尔语,其中在美国有约25万人,它目前并未被认定为是一种正在消亡的语言。但我看到了它的数字弱势地位。我小时候在美国和印度钦奈度过。钦奈隶属于泰米尔纳德邦,泰米尔语是该邦的官方语言。但我看到,每年当地有越来越多标志、产品标识、商业对话和流行文化变成了英语。在公共场合使用泰米尔语时,会越来越多地被直译成英语(拉丁字符)。

除了文化原因以外(在钦奈等偏好英语的地区,有时候泰米尔语会遭到歧视),数字现实是这种转变的主要驱动力。人们习惯了首先使用英语,尤其是年轻人,因为大多数计算机和手机都用英语设计。因此,即使人们知道泰米尔语,通常也会输入英文字符。泰米尔语有247个字符。一些技术人员正在开发工具,以帮助提高泰米尔语输入的效率,使其变成一种积极的体验。笔者领导的DCKAP公司就是其中之一,我们正在为使用泰米尔语的人设计一种新键盘。我们的灵感来自创造中文解决方案的设计师。

最近几个月,显然有一波新技术浪潮,可能掀起变革。在数字时代,生成式人工智能可以发挥巨大的作用,为语言注入新的活力。

将AI变成传承古代语言的家园

生成式AI令人们兴奋的是,它能“理解”和复制人类相互对话的方式。它能产生雪球效应。使用ChatGPT和Bard等生成式AI的人越多,这些工具就能更好地理解和复制语言。目前,这些工具只精通主导互联网的语言,尤其是英语。

这为语言学家、技术人员和正在将语言转移到数字领域的其他人,创造了巨大的机会。为面临风险的语言开发生成式AI工具,将让语言的使用者有机会教AI使用他们的母语进行自然的对话。AI工具还能完善口笔译工具,帮助人们用不同语言沟通。数字世界对短语、习语和观点的意义理解和翻译地越准确,就会有越多人感觉他们可以用自己的母语表达自己。

做这一切最紧迫的理由之一是出于商业目的。在全世界有许多有才华的人们说着数千种语言,但他们目前在要求英语的许多大公司却找不到工作。随着AI可以提供能捕捉想法和细微差别的即时翻译,人们能够向讲不同语言的同事表达自己的观点,但不会影响公司的节奏。

公司也可以进入新的消费者市场。随着AI技术改善了手机相机,人们可以用手机对向任何标志或产品,并立即翻译成他们的母语。目前全世界正在被使用的语言有7,000种,而大多数应用只能翻译不到200种语言。

当然,这也意味着要保证越来越多人能够使用互联网和AI工具。目前约有三分之二人类(超过50亿人)可以使用互联网。

让尽可能多的语言进入这个AI的新时代,不只是一次机会,而是势在必行。如果希望加入AI革命的人们发现,他们的语言被排除在外,他们自然会放弃自己的语言,并选择更主流的语言。但如果AI工具能支持夏威夷语、阿鲁科语和斯普蒂语等,就能拯救这些语言,否则将为时已晚。(财富中文网)

本文作者卡西克·奇丹巴拉姆是综合平台提供商DCKAP的创始人兼CEO。

Fortune.com上发表的评论文章中表达的观点,仅代表作者本人的观点,不能代表《财富》杂志的观点和立场。

翻译:刘进龙

审校:汪皓

GETTY IMAGES

Around the world, thousands of languages are in danger of going extinct. According to the United Nations, an indigenous language has been dying every two weeks. The loss to humanity is difficult to fathom. Languages are filled with unique ideas, concepts, and understandings that don’t always translate since other languages simply don’t have words for them. As linguist Anastasia Riehl put it, languages are not only a vital source of culture and identity for individual communities, but also benefit the world as “an invaluable source of information about human cognition.”

A big part of what endangers indigenous languages is the shift into the digital age. One particularly concerning study by researcher András Kornai predicted that “less than 5% of all languages can still ascend to the digital realm,” and warned that there is “evidence of a massive die-off caused by the digital divide.”

As humanity carries out more and more of its communications through digital tools, languages that aren’t carried or supported by dominant digital platforms are likely to be forgotten. Researchers have coined a term for this: “digitally disadvantaged languages.”

The curious case of Tamil

I speak one of the world’s oldest languages, Tamil. It’s the native tongue of Vice President Kamala Harris’ mother–and one that Harris referenced in accepting the vice presidential nomination. It’s also the first language of Google CEO Sundar Pichai. It’s the language that Mahatma Gandhi wanted to learn in order to understand the Thirukkural, a renowned work on ethics and morality, in its original form.

With reports suggesting that more than 70 million people speak Tamil, including about 250,000 in the United States, it is not currently considered a dying language. But I see how it is digitally disadvantaged. I spend time in both the United States and Chennai, India, where I grew up. Chennai is in the state of Tamil Nadu, where Tamil is the official language. But every year, I see English take over more and more of the signs, product labels, business conversations, and pop culture in the region. Even when Tamil is used in public places, it’s more and more often transliterated into English (Latin characters).

In addition to cultural reasons (like Tamil sadly being looked down on at times in places like Chennai, in favor of English), the digital reality is a major driving force in this shift. People, especially in younger generations, get used to making English the language they turn to first since most computers and phones are designed for English. So even when people know Tamil, they often type in English characters. In Tamil, we have 247 characters. Some technologists are building tools to help make typing Tamil an efficient, positive experience. DCKAP (the company I lead) is among them, working on a new keyboard for Tamil speakers. We take inspiration from designers who created a solution for the Chinese language.

In recent months, it’s become clear that a new wave of technology offers a potentially transformative effect. Generative AI can help a great deal in breathing new life into languages for the digital era.

Making AI a home for ancient tongues

Much of what excites people about generative AI is its ability to “understand” and replicate the ways humans talk to each other. It has a snowball effect. The more people use generative AI tools such ChatGPT and Bard, the better these tools become at understanding and replicating the language. Currently, they are only proficient in the languages that dominate the internet–especially English.

This presents a profound opportunity for linguists, technologists, and others who are working to move languages into the digital realm. Building generative AI tools for at-risk languages will give speakers a chance to teach AI how they speak their native tongues in natural conversations. AI tools will also improve translation and interpretation apps aimed at helping people communicate across different languages. The better the digital world understands and translates the intended meanings of phrases, idioms, and ideas, the more people will feel they can express themselves in their native languages.

One of the most pressing reasons to do all this is for business. There are talented people across the world who speak thousands of languages, and who currently cannot get jobs with many large corporations that may require English. With AI providing instant translations that capture ideas and nuances, people will be able to express themselves to colleagues who speak different languages without slowing down the pace of business.

Businesses will also be able to reach entire new markets of consumers. With AI technologies improving for phone cameras, people will be able to point their phones at any sign or product and have it instantly translated into their native tongue. Today, most such apps translate fewer than 200 of the 7,000 languages spoken around the world.

Of course, this also means ensuring that more and more people have access to the Internet and AI tools. Currently about two-thirds of humanity, more than 5 billion people, are online.

Building as many languages as possible into this new era of AI isn’t just an opportunity, it’s an imperative. If people looking to join the AI revolution find that their language precludes them from being a part of it, then they’ll naturally let it go and move to a more dominant language. But if AI tools become home to everything from Hawaiian to Arhuaco to Siphuti, these languages can be saved before it’s too late.

Karthik Chidambaram is the founder and CEO of DCKAP, an integration platform provider.

The opinions expressed in Fortune.com commentary pieces are solely the views of their authors and do not necessarily reflect the opinions and beliefs of Fortune.

热读文章
热门视频
扫描二维码下载财富APP