智源联合南开大学 HLT Lab 开源两大中文语音数据集


智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab 正式发布并开源ChildMandarin和SeniorTalk两大语音数据集,覆盖3-5岁低幼儿童和75岁及以上的超高龄老年人。

“这两项数据集的发布,将为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展提供宝贵资源,推动智能语音技术进步。”

ChildMandarin 数据集具有以下核心特点:

  • 数据规模大:397名儿童,共计41.25小时3-5岁对话语音,在同类数据集中具备一定优势;
  • 地域覆盖广:数据采自22个省市,确保了地域多样性,涵盖不同口音和语音习惯;
  • 自然真实交互:采用家长引导式对话的采集方式,以模拟自然交流场景,使语音更具真实性。

SeniorTalk 数据集主要特点包括:

  • 数据规模大:202位,55.53小时的超高龄老年人语音数据;
  • 地域覆盖广:数据采自16个省市,涵盖不同地域口音;
  • 自然真实交互:采用两两自发对话,覆盖退休、健康、生活等话题,贴近真实交流场景。

此外,SeniorTalk包含多维度的精细标注,包括说话人信息、对话内容转写、时间戳(包含句子级和词级)、口音类别标签等。


相關推薦

2023-03-28

发人员。 2月15日,光年之外迎来一位技术骨干——北京智源人工智能研究院副院长刘江,其在朋友圈发文表示加入王慧文的光年之外团队:“将帮助老王(王慧文)打造中国AI大模型梦之队,对标OpenAl,打造中国自己的ChatGPT和

2023-03-02

tGPT成为现象级应用,人工智能进入普及应用的新时期。 智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工

2023-10-24

OSC 请你来轰趴啦!1028 苏州源创会,一起寻宝 AI 时代 澳大利亚国立大学、牛津大学和北京人工智能研究院的研究人员,合作开发了一种名为“3D-GPT”的新型人工智能系统,该系统可以简单地根据用户提供的基于文本的描述生成

2023-11-04

由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均

2024-09-27

近日,智源研究院正式发布中文互联网语料库 CCI 3.0 (Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。 智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列

2023-08-19

商用、生物医药专用Llama 2大语言模型BioMedGPT-LM-7B。“AIR-智源健康计算联合研究中心” 合作开源了小分子药物基础模型DrugFM。此次开源的生物医药基础模型重科研、可商用,为生物医药研究与应用提供大模型底座。

2023-12-06

由 100 万人民币增至约 105.26 万人民币。 王慧文是美团联合创始人、原非执行董事。 硅动科技成立于今年 8 月。目前,该公司法人、执行董事、经理均为 OneFlow 创始人袁进辉。公司经营范围含软件开发、技术进出口、电子产

2023-09-08

由上海人工智能创新中心发起设立。 2021年,浦江实验室联合商汤、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN)。到如今,书生大模型体系参数已达千亿级别,包括“书生·多模态”、“书生·浦语”

2025-03-29

线性注意力机制降低计算成本并缓解过拟合。多任务学习联合优化异构临床指标以提升训练效率,异步推理设计则支持预测阶段对所有切片的序列化处理。 在七大 WSI 数据集评估中,PathRWKV 在癌症分型、转移检测及生存预测等

2023-11-10

华为近日宣布,与西北工业大学联合研发的首个面向飞行器的流体力学大模型“秦岭・翱翔”现已正式发布。 秦岭・翱翔大模型是西工大流体力学智能化国际联合研究所携手华为 AI4Sci Lab 在国产开源流体计算软件风雷的基础

2024-05-27

时的高质量方言数据库,研发团队采用的“蒸馏+膨胀”联合训练算法可解决超大规模多场景数据集和大规模参数条件下预训练坍缩的问题,实现1B参数80层模型稳定训练。 中国电信方面表示,星辰语音大模型是业内首个开源的

2022-09-10

,目前负责 Paddle 主框架开源生态建设。 彭靖田,品览联合创始人兼CTO 彭靖田是 Google Developers Expert,加州大学访问学者,毕业于浙江大学竺可桢学院。 张晴晴 ,Magic Data 创始人兼CEO 张晴晴是Magic Data 创始人兼CEO 、语

2023-10-26

上海人工智能实验室(上海 AI 实验室)联合香港大学、浙江大学和中国科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”:首次同时支持室内外使用场景;首次同时支持点