智源联合南开大学 HLT Lab 开源两大中文语音数据集

2025-04-08 發表於开源资讯

智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab 正式发布并开源ChildMandarin和SeniorTalk两大语音数据集，覆盖3-5岁低幼儿童和75岁及以上的超高龄老年人。

“这两项数据集的发布，将为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展提供宝贵资源，推动智能语音技术进步。”

ChildMandarin 数据集具有以下核心特点：

数据规模大：397名儿童，共计41.25小时3-5岁对话语音，在同类数据集中具备一定优势；
地域覆盖广：数据采自22个省市，确保了地域多样性，涵盖不同口音和语音习惯；
自然真实交互：采用家长引导式对话的采集方式，以模拟自然交流场景，使语音更具真实性。

SeniorTalk 数据集主要特点包括：

数据规模大：202位，55.53小时的超高龄老年人语音数据；
地域覆盖广：数据采自16个省市，涵盖不同地域口音；
自然真实交互：采用两两自发对话，覆盖退休、健康、生活等话题，贴近真实交流场景。

此外，SeniorTalk包含多维度的精细标注，包括说话人信息、对话内容转写、时间戳（包含句子级和词级）、口音类别标签等。

相關推薦

智源联合南开大学开源 Chinese-LiPS 中文多模态语音识别数据集

2025-05-14

智源研究院宣布已开源与南开大学共同构建的 Chinese-LiPS 中文多模态语音识别数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集，Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂

前美团联合创始人王慧文“正在收购”国产开源深度学习框架 OneFlow

2023-03-28

发人员。 2月15日，光年之外迎来一位技术骨干——北京智源人工智能研究院副院长刘江，其在朋友圈发文表示加入王慧文的光年之外团队：“将帮助老王（王慧文）打造中国AI大模型梦之队，对标OpenAl，打造中国自己的ChatGPT和

中国开源 AI 社区 7 月高亮时刻回顾

2025-08-05

阶跃星辰（1个）、字节跳动（2个）、昆仑万维（2个）、智源研究院（1个）、中国电信人工智能研究院（1个）、蚂蚁集团（4个）、快手（1个）、捏Ta（1个）、磐石（3个）、上海交通大学（1个）、腾讯（1个）、上海人工智能

智源研究院发布开源中文互联网语料库 CCI 4.0

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0，兼顾多样性与高质量，从单一语言数据集扩展为多语种数据集。根据介绍，本次发布包括了中、英语两种语言，并将在随后的发布中，开源更多语言的版本。此外，CCI 4.0首次

FlagOpen 大模型技术开源体系，开启大模型时代“新 Linux”生态

2023-03-02

tGPT成为现象级应用，人工智能进入普及应用的新时期。智源研究院2020年搭建大模型攻关团队，2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新，在“科技创新2030”新一代人工

MOSS-TTSD 开源：百万小时训练打造 AI 播客新王者

2025-08-02

由清华大学语音与语言实验室 (Tencent AI Lab) 联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD (Text to Spoken Dialogue) 近日正式开源。这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40

北京智源研究院联合牛津大学等推出 3D-GPT

2023-10-24

OSC 请你来轰趴啦！1028 苏州源创会，一起寻宝 AI 时代澳大利亚国立大学、牛津大学和北京人工智能研究院的研究人员，合作开发了一种名为“3D-GPT”的新型人工智能系统，该系统可以简单地根据用户提供的基于文本的描述生成

港大联手月之暗面等机构开源 OpenCUA，可自主操作电脑的 Agent

2025-08-15

香港大学 XLANG Lab 联合月之暗面、斯坦福大学等机构，正式开源了一个名为 OpenCUA 的完整框架，旨在帮助开发者低门槛地构建和扩展 CUA（Computer-Use Agent，计算机使用智能体）。该框架包括：无缝捕获人类计算机使用演示的

深言科技联合清华大学 NLP 实验室开源 LingoWhale-8B 模型

2023-11-04

由清华大学计算机系自然语言处理实验室（THUNLP）与北京智源人工智能研究院（BAAI）共同孵化，是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发，目前已发布产品

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手，其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括：LinkSoul.AI、北京大学和 01.ai (零一万物)，其中共同一作 Yu Shu 和 Siwei Dong 均

阿里通义应用视觉团队负责人薄列峰离职

2025-05-08

覆盖机器学习、深度学习、计算机视觉、自然语言处理、语音等多个领域。 2013-2017年期间，薄列峰就职于亚马逊西雅图总部，担任首席科学家（Principal Scientist），负责Amazon Go无人零售店的算法研发和落地。2017年10月，薄列峰加

腾讯 AI Lab 发布多模态音频生成工具 AudioGenie

2025-08-21

能从视频、文本、图像等多模态输入中，精准合成音效、语音、音乐、歌曲等多种音频，有效解决了该领域长期面临的高质量配对数据稀缺、多任务学习框架薄弱等核心挑战。 AudioGenie 框架如下： https://audiogenie.github.io/ AudioG

智源研究院发布中文互联网语料库 CCI3.0

2024-09-27

近日，智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet，简称 CCI)，包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。智源研究院于 2023 年 11 月首次开源 CCI 1.0，并在 2024 年 4 月发布 CCI 2.0。目前，CCI 系列

智源研究院开源统一 AI 编译器 FlagTree

2025-05-28

智源研究院发文宣布，为了推动不同架构 AI 硬件系统的创新和落地，打造开源、统一的 AI 系统软件生态，联合多家机构开源 AI 编译器 FlagTree。 FlagTree 的开源，是开源、统一 AI 系统软件生态 FlagOS 发展进程中又一个重要的里

熱門推薦