多语言语料库万卷·丝路 2.0 开源


上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。

在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料,涵盖四大数据模态共计1150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。

根据介绍,“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览:

  1. 语种数量扩充:在5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。

  2. 数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。

  3. 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手。

为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合作领域场景。

目前,该模型已衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。上海AI实验室同时与外研在线、库帕思等多家机构开展合作,推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地,助力多语言AI生态发展。

上海AI实验室研究团队认为,通过整合多模态数据与精细化标注技术,“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖,尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设,为文化交流互鉴带来可量化、可迭代的智能新维度。

“万卷·丝路”语料库下载链接:https://opendatalab.com/applyMultilingualCorpus


相關推薦

2023-08-16

海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联盟成员丰富的内容

2023-03-02

究院长期投入数据建设工作,构建了全球最大 WuDaoCorpora语料库,同时开发了一批数据处理的高效工具。 FlagData数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为自然语言处理、

2023-12-02

超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。 强大的性能:Qwen-72B在多个中英文下游评测任务上(涵盖

2023-08-18

块市场、系统升级登录表单提交交互优化 [系统优化] 多语言翻译功能逻辑和多语言函数 [系统优化] 示例域名修改为 example.com [Bug修复] 组件Tags查看模式空值异常问题 模块市场一键安装 系统内置模块市场,有行业应

2024-09-22

支持:B站、西瓜、抖音、腾讯、YouTube …详细 🎉 多语言支持 界面语言除内置中英文外,支持通过导出配置扩展支持: 法文(Français)、德文(Detusch)、俄文(Русский язык)、西班牙文(Español)、葡萄牙文(Português)、日文(

2023-10-15

黑暗模式、灰色模式、色弱模式,完全自定义颜色,支持多语言 等特性。 Apache 2.0 协议免费开源!! 演示地址 https://qingadmin.gitee.io/ 开源地址 https://gitee.com/aizuda/qing-admin 更新日志 fix: 菜单栏 文字提示相关优化

2023-10-19

黑暗模式、灰色模式、色弱模式,完全自定义颜色,支持多语言 等特性。 Apache 2.0 协议免费开源!! 演示地址 https://qingadmin.gitee.io/ 开源地址 https://gitee.com/aizuda/qing-admin 新增功能说明 右侧 TAB 快捷导航

2024-09-27

近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列

2022-10-26

MyCms 是一款基于 Laravel 开发的开源免费的开源多语言商城CMS企业建站系统。 MyCms 基于 Apache2.0 开源协议发布,免费且可商业使用,欢迎持续关注我们。 V3.9 更新内容 新增:模板自定义配置 新增:读取模板配置函数 新增:模

2023-10-31

Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL、CMMLU、MMLUGSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Math模型  Skywork-13B-Math模型经过专门的数学能力强

2022-10-13

能强大,操作简单 前言:近期,有客户咨询了独立站中多语言的自动翻译功能。OpenCart作为一个开源的多语言电商系统,针对语言翻译功能,进行了多次的迭代和优化 今天我们就来介绍一下,OpenCart独立站的重点功能——OpenCar

2023-08-19

缩功能 [新功能] 博客归档页面和归档功能 [系统优化] 多语言翻译功能逻辑和多语言函数 [系统优化] 示例域名修改为 example.com 模块市场一键安装 系统内置模块市场,有行业应用、插件、云存储、云短信等功能模块,后台

2023-11-10

] Number 组件增加 min、max、step 属性 [新功能] 后台支持多语言切换,默认关闭,需修改配置文件自行开启 [新功能] 布局视图页面全局增加 headPrepend section [新功能] 统一错误处理增加特定状态码错误页面 [新功能] 临时

2024-08-09

分级冻结3.0机制,资源调度更高效 新增9种语言可选,多语言支持更完善   9.众多实用工具上线 跨版本升级工具 openKylin 1.0系列用户可以使用该工具更快速、可靠地离线升级到2.0 版本,并支持老版本应用生态兼容!