Meta 开发了实时翻译闽南语的 AI


目前大多数的人工智能翻译都集中在翻译书面语言上,因为这些语言具有丰富的数据集,对 AI 而言这也是训练机器学习系统理解和翻译的最简便的方法。然而,全球共有超过 7000 种不同的语言,其中更有超过 40% 的语言是没有标准书写系统的。

来自 Meta(前 Facebook) 的人工智能研究团队就专门针对这种场景开发了一个 AI 翻译系统,这是一个面向口头语言的实时翻译系统,并以闽南语与英文互译为首要目标。

闽南语主要在我国福建和台湾广泛使用,其次在新加坡、印尼、马来西亚等东南亚国家的使用群体也不小。根据 Meta 的统计,目前约有 4600 万人说闽南语。闽南语本身没有标准的书写系统,主要就是通过口语交流。相比传统的 AI 翻译项目,Meta 探索的这个项目显得十分新颖。

这项工作是 Meta AI 的通用语音翻译器项目的一部分,这个机器语言模型的最终目标是允许实时翻译众多不同的口语和书面语言,使任何人都能轻松沟通。

建构新模型的挑战在于,大多数实时翻译技术主要使用书面语言作为语音编码的数据集和注释基础(例如,英语、西班牙语、汉语普通话等有大量使用者的主流语言),因为有更多数据支持,使得挖掘数据和构建大型模型相对简单。

但像闽南语这样的方言,一是没有标准的书写系统,二是使用群体相比主流语言较小。这就使得构建一个庞大的数据模型变得非常困难。研究人员就需要找到一种中间语言来连接两者,在这个过程中他们使用的就是汉语普通话,两者还是有很多相似之处的,能够帮助建立初始模型。

整个翻译过程简化后就是「英语 ⇔ 普通话 ⇔ 闽南语」这样的双向翻译过程,这其中有人类的注释,也有自动翻译的结果,然后研究人员会将配对的句子添加到用于训练人工智能模型的数据中。在这个过程中,研究人员还积极与会说闽南语的人合作,以确保人工智能翻译模型的准确性。

该模型目前仍在开发中,并且只适用于那类具有中间语言可以桥接两个不同语言的语言,如果两个语言之类没有密切相似的可桥接语言的话,将无法使用这个新模型,但该模型仍然为通用翻译开辟了更多的新语言。

Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如地交谈,还希望可以帮助语言学家保护无文字语言,因为一些没有标准化书面系统的语言正面临着消亡的风险。


相关文章

2022-07-08

nguage Left Behind)项目取得了突破,能为世界上大多数语言开发出高质量的机器翻译。 该 AI 模型名为 NLLB-200,可以翻译超过 200 种不同的语言。为了评估新模型的输出质量,Meta 创建了一个测试数据集,包括该模型所涵盖的每种

2022-11-08

最后,解码器使用单个 CPU 上的神经网络将压缩的数据实时地转变回音频; 至于应用,Meta 表示这种由人工智能驱动的 "超压缩音频" 可以在恶劣的网络条件下获得更快、更优质的通话效果。作为一家 “梭哈” 元宇宙的公司

2022-10-09

束缚在它们所设计的特定硬件上。这样的硬件锁定意味着开发人员将需要为不同的硬件构建特定的软件,并且很可能也会减缓行业整体创新的步伐。 Meta 日前开源了一套新的 Python 框架,名为 AITemplate(AIT)。它彻底改变了上述

2022-08-22

以驻留在菜单栏中对 CPU、GPU、内存、磁盘和网络等进行实时监测。目前 Stats v2.7.31 发布了 ,此版本带来如下变更: 关闭的问题 功能:睡眠时将风扇模式更改为自动。如果启用“保存风扇速度”(#1002),风扇控制将

2022-07-16

共同成立了一个名为 BigScience 的研究小组来领导 Bloom 的开发。该项目汇集了 70 多个国家/地区、250 多个机构、1000 多名研究人员参与开发。 语言模型的开发成本历来很高,以现在知名度很高的 GPT-3 为例,其成本高达 2760 万美元

2023-01-12

用外部卷访问的额外步骤和信息 (MAS) 小的错误修复 翻译 更新了简体中文、俄语、越南语、乌克兰语、法语翻译 平台 新推出了 Keka for iOS 版本(售价 $3.99) 更多详情可查看:https://github.com/aonez/Keka/releases

2022-10-20

txtai 5.1 已发布,此版本为翻译管道添加了新的模型支持、在转录管道和 ARM Docker 镜像中支持 OpenAI Whisper、升级和改进主题建模,包括使用 BM25/TF-IDF 索引来驱动主题模型。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的

2022-07-15

的每个提交都是自动部署的。这在测试 beta 版本或为核心开发做出贡献时很有用。 以及添加了一个正式的西班牙语翻译: 简体中文 日本语 西班牙文 创建 Vite Starter Templates create-vite 模板是一个很好的工具,可以用你最

2022-11-13

设计系统和 UI 库,由字节跳动抖音前端与 UED 团队设计、开发并维护,是一款包含设计语言、React 组件、主题等开箱即用的中后台解决方案,可用于快速搭建美观的 React 应用。 Semi Design v2.23.1 现已发布,此版本带来如下更

2023-01-30

基金会亚太区、开源PHP和开源社区联合发起的,面向全球开发者的一场盛大开源技术盛宴。2021 年首届 GOTC 圆满举办,获得热烈反响。 原定于 2022 年 11 月举办的 GOTC 2022 时间更新为 2023 年 4 月 15、16 日,现在重新出发,诚邀参

2023-01-20

软件简介 两行js实现html全自动翻译。 无需改动页面、无语言配置文件、无API Key、对SEO友好!   升级说明 本地语种时默认赋予使用v2版本翻译 增加 translate.language.connector() 对句子的连接符单独进

2022-10-16

基金会亚太区、开源PHP和开源社区联合发起的,面向全球开发者的一场盛大开源技术盛宴。2021 年首届 GOTC 圆满举办,获得热烈反响。 原定于 2022 年 11 月举办的 GOTC 2022 时间更新为 2023 年 2 月 25、26 日,现在重新出发,诚邀参

2022-10-01

联协同等领域,目前共计有47个SIG组在运行,并在新需求开发、软件自主选型、遗留bug修复、社区基础设施平台建设等方面取得不错成绩,接下来,让我们一起盘点具体成果: openKylin社区技术进展与成果 一、UKUI SIG UKUI(Ulti

2022-10-13

制了专属的开源独立站系统,8年以来专注于OpenCart独立站开发,可以帮助卖家轻松进行多语言网站建设!   1、系统深度集成 一键翻译 OpenCart系统内,直接集成翻译功能,创建任何新的商品分类或商品,都可一键翻译成多