目前大多数的人工智能翻译都集中在翻译书面语言上,因为这些语言具有丰富的数据集,对 AI 而言这也是训练机器学习系统理解和翻译的最简便的方法。然而,全球共有超过 7000 种不同的语言,其中更有超过 40% 的语言是没有标准书写系统的。
来自 Meta(前 Facebook) 的人工智能研究团队就专门针对这种场景开发了一个 AI 翻译系统,这是一个面向口头语言的实时翻译系统,并以闽南语与英文互译为首要目标。
闽南语主要在我国福建和台湾广泛使用,其次在新加坡、印尼、马来西亚等东南亚国家的使用群体也不小。根据 Meta 的统计,目前约有 4600 万人说闽南语。闽南语本身没有标准的书写系统,主要就是通过口语交流。相比传统的 AI 翻译项目,Meta 探索的这个项目显得十分新颖。
这项工作是 Meta AI 的通用语音翻译器项目的一部分,这个机器语言模型的最终目标是允许实时翻译众多不同的口语和书面语言,使任何人都能轻松沟通。
建构新模型的挑战在于,大多数实时翻译技术主要使用书面语言作为语音编码的数据集和注释基础(例如,英语、西班牙语、汉语普通话等有大量使用者的主流语言),因为有更多数据支持,使得挖掘数据和构建大型模型相对简单。
但像闽南语这样的方言,一是没有标准的书写系统,二是使用群体相比主流语言较小。这就使得构建一个庞大的数据模型变得非常困难。研究人员就需要找到一种中间语言来连接两者,在这个过程中他们使用的就是汉语普通话,两者还是有很多相似之处的,能够帮助建立初始模型。
整个翻译过程简化后就是「英语 ⇔ 普通话 ⇔ 闽南语」这样的双向翻译过程,这其中有人类的注释,也有自动翻译的结果,然后研究人员会将配对的句子添加到用于训练人工智能模型的数据中。在这个过程中,研究人员还积极与会说闽南语的人合作,以确保人工智能翻译模型的准确性。
该模型目前仍在开发中,并且只适用于那类具有中间语言可以桥接两个不同语言的语言,如果两个语言之类没有密切相似的可桥接语言的话,将无法使用这个新模型,但该模型仍然为通用翻译开辟了更多的新语言。
Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如地交谈,还希望可以帮助语言学家保护无文字语言,因为一些没有标准化书面系统的语言正面临着消亡的风险。