多语言语料库万卷·丝路 2.0 开源

2025-03-28 發表於开源资讯

上海人工智能实验室（上海AI实验室）联合新华社新闻信息中心、上海外国语大学、外研在线等，发布全新升级的“万卷·丝路2.0”多语言语料库。

在“万卷·丝路1.0”的基础上，2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料，涵盖四大数据模态共计1150万条数据，并运用精细化处理技术使数据质量达到“工业级”标准，实现“开箱即用”。

根据介绍，“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点，更新速览：

语种数量扩充：在5个语种基础上，新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。
数据模态、总量全面升级：在纯文本数据基础上，新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据，覆盖多模态研究全链路；整体数据总量超过1150万条，音视频时长超过2.6万小时，满足多种研究任务的需求。
超精细数据，多场景适用：经成熟数据生产管线及安全加固，结合过滤算法与当地专家人工精细化地标注质检，“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集，含20余种细粒度多维分类标签及详细的文本描述，适配文化旅游、商业贸易、科技教育等不同场景，为开发者提供得力助手。

为验证语料库质量与应用前景，上海AI实验室研究团队基于“万卷·丝路2.0”，训练出匈牙利语大模型，通用能力对标国际主流大模型，在本地化特色、安全性与中国关联性上表现出显著优势，可适用于本地生活与中匈合作领域场景。

目前，该模型已衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。上海AI实验室同时与外研在线、库帕思等多家机构开展合作，推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地，助力多语言AI生态发展。

上海AI实验室研究团队认为，通过整合多模态数据与精细化标注技术，“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖，尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设，为文化交流互鉴带来可量化、可迭代的智能新维度。

“万卷·丝路”语料库下载链接：https://opendatalab.com/applyMultilingualCorpus

相關推薦