智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集


智源研究院宣布已开源与南开大学共同构建的 Chinese-LiPS 中文多模态语音识别数据集。

作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集,Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境,致力于推动中文多模态语音识别技术的发展。

评测实验结果显示,在仅采用语音单模态输入的情况下,模型的字符错误率(CER)为 3.99%。当将语音、唇读信息、通过 OCR 技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合时,模型的字符错误率显著下降至 2.58%。

该数据集具备以下四大核心特点:

  • 数据规模大:Chinese-LiPS总时长约为100小时,包含36,208条高质量语音片段,由207位专业讲者录制,具备良好的代表性与多样性。
  • 覆盖主题丰富:内容涵盖科学技术、健康养生、文化历史、旅游探索、汽车工业、体育赛事等9大热门领域,主题分布均衡,充分体现了真实教学与讲解类语境下的表达特点与术语密度。
  • 高质量幻灯片制作:由领域专家设计内容并参与标注,确保幻灯片图文信息的准确性与专业性。PPT内容结构清晰、设计精美,包含丰富的图像与视觉语义信息,而非单一文字堆砌。
  • 高质量视频录制:视频由专业讲者在安静环境中录制,画面高清,涵盖唇读视频(720P)与幻灯片视频(1080P)两类模态,保障语音与唇动精准对齐,确保数据质量一致可靠。

 


相關推薦

2025-04-08

智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab 正式发布并开源ChildMandarin和SeniorTalk两大语音数据集,覆盖3-5岁低幼儿童和75岁及以上的超高龄老年人。 “这两项数据集的发布,将为面向儿童与老年人的语音识别

2023-09-07

昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。公告称,“这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未

2023-03-02

tGPT成为现象级应用,人工智能进入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均

2024-08-27

摩尔线程宣布开源音频理解大模型—MooER(摩耳)。公告称,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。 摩尔线程AI团队在该工作中

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次

2024-07-08

字甲骨共创中心”将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。 基于该数据集,研究人员可开发甲骨文

2023-11-04

由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品

2023-08-19

商用、生物医药专用Llama 2大语言模型BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。

2023-06-22

态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。此前,OpenAI 联合创始人伊尔亚・苏茨克维 (Ilya Sutskever) 曾表示,“人工智能的长期目标是构建多模态神经网络,即 AI 能够学习不同模态之间的

2023-09-08

由上海人工智能创新中心发起设立。 2021年,浦江实验室联合商汤、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN)。到如今,书生大模型体系参数已达千亿级别,包括“书生·多模态”、“书生·浦语”

2023-08-16

,上海人工智能实验室(上海AI实验室)于8月14日宣布,联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预

2024-09-27

近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列

2023-11-06

3年9月,昆仑万维多模态大模型Skywork-MM在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评MME中,综合得分排名第一。该评测首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜