人工智能能否给小语种续命?
图片:CTOCIO/Midjourney
近日,西班牙提议将加泰罗尼亚语、巴斯克语和加利西亚语这三个“小语种”也纳入欧盟官方语言,这标志着人工智能时代,小语种有望第二春。因为,今天的加泰罗尼亚人、巴斯克人和加利西亚人普遍能说流利的西班牙语,而且许多年轻人说英语,小语种逐渐沦为一种“文化博物馆”,因为其学习和使用(翻译)成本在现代社会中越来越不够“经济”和”竞争性“,面对难以撼动的语言巴别塔,大多数小语种都日渐枯萎。
欧盟的巴别塔
欧盟有27个成员国和24种官方语言。欧盟《基本权利宪章》规定了多种语言:欧盟公民享有使用任何官方语言与欧盟机构沟通的权利,而机构也必须以同一种语言回复。但这确实是一座现代巴别塔,欧盟机构每年翻译费用就高达10亿欧元(不到欧盟预算的1%)。
尽管英国脱欧,英语仍然是开展欧盟业务的首选工作语言。根据欧盟统计局的调查,96%的欧盟学生选择英语作为他们的第一外语。在法国担任欧洲理事会主席期间,法国坚持使用法语,但遭到了抵制,尤其是来自讲英语的北欧人的抵制。当欧盟委员会主席乌苏拉·冯德莱恩 (Ursula Von der Leyen) 发表国情咨文时,字数中81 % 是英语,12% 是她的母语德语,只有 7% 是法语。
欧盟英语充满了行话和难以理解的术语。知道comitology是什么意思吗?也许最好询问 Chat GPT。
能够在巴黎的一家餐厅用法语点餐是一回事,能够思考阅读并欣赏波德莱尔的《恶之花》是另一回事。 每种语言都拥有极其丰富的文化内涵,这就是说话者超越“仅仅能够理解我”的阶段并深入研究细微差别的原因。例如,法国猫有九条命,而西班牙猫只有七条命。为什么“眼不见心不烦”在西班牙语中变成“ojos que no ven, corazón que no siente”或在法语中变成“loin des yeux, loin du coeur” ?相似的?是的,但有其微妙的差异。
虽然欧洲机构十年前就开始整合机器翻译。2017 年引入了人工智能神经网络系统。尽管需要翻译的材料数量从 2013 年的 200 万页增加到 2022 年的 250 万页,欧盟委员会仍成功将常驻翻译人员数量从 2,450 人削减到 2,000 人左右。但遗憾的是,人类翻译员并未因此灭绝,欧盟仍然依赖人类来审查(不太成熟的机器)翻译。由于外包费用居高不下,欧盟的实际翻译预算在过去十年中反而有所增加。
ChatGPT推翻巴别塔
当谷歌于2006年4月推出翻译时,它使用了统计机器技术。大量翻译后的欧盟和联合国文件被输入计算机并与查询进行匹配。该系统是有限的,特别是对于不常用的语言。2016 年 11 月,谷歌转向神经机器翻译,使用深度学习技术翻译整个句子。
但是直到ChatGPT出现,人们才看到推翻语言巴别塔的希望。相比于传统的机器翻译,ChatGPT 几乎可以即时翻译任何文本(包括小语种),其翻译质量比以前的翻译软件有了很大改进。它甚至可以根据人们的写作方式进行定制:将您撰写的四到五篇文章输入算法,ChatGPT的自动翻译器就会模仿您的风格进行翻译。
生成式人工智能为我们带来了莱克斯·弗里德曼 (Lex Fridman) 用完美的印地语采访马克·扎克伯格 (Mark Zuckerberg)的奇观。今天,我们借助AI算法可以将自己的文字翻译成任何语言,甚至口型正确的语音和视频(一种算法生成语言,另一种算法生成声音及其变化,另一种算法生成嘴唇的运动)。如今,大量油管作者使用Aloud以任何语言制作高质量视频。
个性化翻译时代
ChatGPT使得保留和使用小语种的”成本“骤降,人们可以选择自己的个人翻译器,只说一种语言就可以兼容所有语言(包括小语种)。人们可以自己训练的算法,基于我们说和写的方式,用任何其他语言表达。不是“翻译”,而是“个性化翻译”。这有助于在被主流语言主宰的全球政治经济活动中保留小语种(及其文化和认知特性)。
这并不是说不会再出现问题:个性化自动翻译永远不可能完全同步;总会有失败的时候:生成算法会产生幻觉,并且会继续这样。有些人可能会用其他人的语音和文本来训练他们的翻译算法,从而在一个人用一种语言和另一种语言表达自己的方式之间创建“混合身份”。也就是说,任何说另一种语言的人都会经历过接受新身份的奇怪感觉。当我用法语、英语或加利西亚语说话时,连我的声音都变了!
总之,使用生成式AI算法来保留小语种值得探索。小语种不应该被视为一种烦恼或累赘,它是文化的宝库,是有趣的风味和人类特性的丰富宝库。
参考链接:https://cepa.org/article/will-ai-topple-the-european-tower-of-babel/
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: