Facebook开源M2M-100模型,能实现100种语言互译

Facebook今天开放了M2M-100的源代码(Github),声称该算法是第一个能够不依赖英语数据在任何100种语言之间互相翻译的算法。通过机器翻译性能评测基准得分方面,M2M-100这个在2200种语言对上进行训练的机器学习模型的表现优于以英语为中心的系统。

多语言机器翻译的目标是建立一个可以在世界上7,000多种语言之间进行翻译的模型。多语言翻译模型在相似的语言之间共享信息,这有益于资源匮乏的语言对,并支持zero -shot翻译,或将其翻译成该模型以前从未见过的语言。随着模型规模增加,需要较大的数据集,而创建大规模数据集会非常费力和困难(例如,支持100种语言将需要1000亿个句子对。),这促使一些研究人员将重点放在英语数据集和建模技术上。但是数据和建模方面的这种偏向并不能反映人们如何使用翻译,并且会导致非英语翻译的性能下降。

相比之下,Facebook的M2M-100在包含100种不同语言的超过75亿个句子的数据集中进行了训练。为了构建它,Facebook研究人员确定了三个标准来指导语言选择,试图纳入来自不同家庭,具有不同地域且广泛使用的语言。然后,他们将清单缩小到存在评估数据的清单,以便更轻松地量化模型的性能。最后,在其余的语言中,他们去除了无法使用单语数据的语言。

M2M-100建立在Facebook的多语言模型XLM-R上,该模型可以从一种语言的数据中学习并以100种语言执行任务。7月,Facebook发布了支持51种不同语言的语音识别模型。最近,该公司对CRISS进行了详细的描述,它利用了来自许多不同语言的未标记数据来挖掘各种语言的句子并训练了高级模型。

“多年来,人工智能研究人员一直在努力构建一个单一的通用模型,该模型可以理解跨不同任务的所有语言,” Facebook Facebook AI Research Paris的数据科学家Angela Fan在博客中写道。“支持所有语言,方言和方式的单一模型将帮助我们更好地为更多的人服务,保持翻译最新,并为数十亿人平等地创造新的体验。”

对于M2M-100,Facebook研究人员采用了新颖的语言识别技术,从各种来源挖掘表面上更高质量的数据。其中一个是语言不可知句表示法(LASER),这是一种开源代码工具包,可以对自然语言处理模型进行zero-shot转换。另外两个是CCMatrix,一个用于训练翻译模型的“十亿规模” bitext数据集,以及CCAligned,它是一大批跨语言Web文档对的集合。

Facebook研究人员避免了在统计上很少见的翻译配对(例如冰岛语-尼泊尔语或僧伽罗语-爪哇语),并提出了桥梁挖掘(bridge mining)策略,根据分类,地理和文化相似性将语言分为14个族。根据常识,生活在具有相同语言群体的国家/地区的人们会更频繁地交流,并从高质量的翻译中受益。例如,一个家庭可能包括印度使用的多种语言,例如孟加拉语,北印度语,马拉地语,尼泊尔语,泰米尔语和乌尔都语。

为了关联不同家庭的语言,Facebook研究人员确定了少数“过渡语言”,或每个家庭中的一到三种主要语言。(例如,印地语,孟加拉语和泰米尔语成为数据集中印度-雅利雅语的桥梁语言。)然后,他们为这些桥梁语言的所有可能组合挖掘了训练数据,这使它们获得了上述75亿个数据句子。

Facebook使用反向翻译来补充低资源语言的数据,该方法涉及用一种语言训练模型翻译单语数据以创建另一种语言的合成的反向翻译数据。例如,如果目标是训练汉语到法语的翻译模型,那么Facebook研究人员将训练法语到汉语的模型,并将所有单语的法语数据翻译成中文。在M2M-100的开发过程中,Facebook将合成数据添加到挖掘的语言中,并为以前未见过的语言对创建数据。

据Facebook研究人员称,M2M-100利用模型并行性来训练比当前双语模型大两个数量级的模型。使用Fairscale(一种用于大型模型训练的PyTorch工具),在训练过程中将模型分成了数百张图形卡,但是具有相同的基础数据,因此每张卡都训练了一部分模型而不是一部分数据。为了确保M2M-100能够按比例缩放而不会损失性能,Facebook研究人员将模型的参数(在这种情况下进行翻译时会影响模型预测的变量)划分为非重叠的语言组。多种策略的组合使模型的容量增加了100倍,并使其能够以Facebook声称的高精度提供语言服务。

Facebook说,它拥有154亿个参数,它看到了针对高资源语言对的M2M-100的改进,该对​​具有最多的数据来训练额外的模型容量。“通过将模型容量的密集缩放与特定于语言的参数(总计30亿)结合在一起,我们可以提供大型模型的优势以及学习不同语言的专门层的能力,”Fan写道。

Facebook让一组讲母语的人来评估20种语言对之间的翻译质量,其中没有一种涉及英语。评估人员对翻译的准确性评价较高,但他们指出,在翻译俚语时,M2M-100倾向于逐词翻译导致翻译错误。他们还发现该模型容易出现语法问题,例如句子中缺少逗号,可能会导致错误的解释。

Facebook研究人员在详述M2M-100的论文中承认:“对于许多语言,我们需要进行实质性改进,才能可靠地获得合理的翻译。” “例子包括非洲语言,如科萨语和祖鲁语;欧洲语言,如加泰罗尼亚语和不列颠人;以及东南亚语言,如伊洛科语和宿雾语。对于许多这样的网络,即使是互联网上的单语资源也很有限,这严重影响了培训数据的数量和质量。

可以肯定的是,有充分的证据表明语言模型会放大他们所训练的数据集中存在的偏见,并让这种潜在的伤害固化下来。来自麻省理工学院,英特尔和加拿大倡议CIFAR人工智能研究人员已经发现BERT,XLNet,OpenAI的GPT-2,和RoBERTa存在高级偏见。Allen AI研究所的研究人员声称,当前没有任何机器学习技术能够充分防止有害信息的产生,这突出表明需要更好的训练数据集和模型架构。除此之外,谷歌在谷歌翻译的翻译模型中也发现(声称已经解决)了性别偏见的证据,尤其是在资源匮乏的语言(如土耳其语,芬兰语,波斯语和匈牙利语)方面。

在回答有关采取何种措施来减轻M2M-100潜在偏差的问题时,Facebook AI研究人员Fana指出:“在此研究阶段,我们想测试模型的局限性,以了解正确的方法,以及错误。具体来说,对于有害翻译,我们使用亵渎过滤器进行了调查,但尚未发现它们是高度准确的……我们仍处于研究阶段,并试图使该系统更公平,这也是为什么不将其投入Facebook生产环境的原因之一。”

Fana补充说,尽管该团队没有采用明确的机制来防止翻译中出现性别词,但它进行了研究以了解M2M-100犯了什么样的错误。她说:“重要的是,不仅要查看BLEU得分的数字,而且还要让以母语为母语的人理解我们的翻译水平。” “总体而言,我们的模型在大多数语言中得分都很高,而资源匮乏的语言(例如Wolof和Marathi)是需要改进的地方。”

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸