中英双语多模态对话模型 LLaSM,李开复零一万物参与


LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。

LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 Llama 2 的中文语言大模型;零一万物则是李开复旗下的大模型公司。

“多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态模型上,这些模型在遵循视觉和语言指令方面具有很强的能力。然而,我们认为语音也是人类与世界互动的一种重要方式。因此,对于通用助手来说,能够遵循多模态语音语言指令至关重要。”

根据介绍,LLaSM 是一个经过端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音语言指令。早期实验表明,LLaSM 为人类与人工智能的交互提供了一种更方便、更自然的方式。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词,然后在预训练阶段训练模态适配器,以对齐音频嵌入词和文本嵌入词。音频嵌入式和文本嵌入式连接在一起,形成交错的输入序列,输入到大语言模型中。考录到同时具备中文和英文能力,LLM 的选择则为 Chinese-LLAMA2-7B -LLAMA2-7B。在跨模态指令微调阶段,模态适配器和 LLM 会接受多任务训练。

与此同时,研究人员还发布了一个大规模的中英文语音-文本跨模态指令遵循数据集 LLaSM-Audio-Instruction;通过从 GPT4-LLM、ShareGPT 和 WizardLM 中精心挑选对话,并使用文本到语音技术生成大量对话音频数据。

该数据集共包含 19.9 万个对话和 50.8 万个语音-文本样本。在 50.8 万个语音-文本样本中,有 8 万个中文语音样本,42.8 万个英文语音样本;是目前所知最大的中英文语音-文本跨模态指令跟随数据集。不过其目前还在整理中,官方表示整理完后会进行开源。

更多详情可查看完整论文。


相關推薦

2024-08-08

根据36氪的独家报道,李开复创办的AI大模型独角兽公司「零一万物」已经完成新一轮融资,金额达数亿美元。 知情人士表示,此轮融资参与方包括某国际战投、东南亚财团等多家机构。 「零一万物」成立于2023年5月,由创新

2024-06-25

够更好地实现资源和技术的互补。”零一万物创始人兼CEO李开复表示,阿里云平台上汇聚了众多活跃的开发者,并配备了完善的工具链,对开发者很友好。后续,零一万物的更多模型、核心应用等也将上架百炼。 开发者通过阿

2023-06-29

构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark (C-EVAL/MMLU) 上均取得同尺寸较好的效果。 即刻体验百川-7B 模型: https://hf.co/spaces/ysharma/baichuan-7B ChatGLM2

2023-09-01

体验其功能。 根据介绍,该助手基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。 「智谱清言」可作为用户的智能助手

2023-09-08

谱清言” 体验其功能。 该助手基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。“智谱清言” 作为用户的智能助手,可

2023-08-26

wen-VL取得了远超同等规模通用模型的表现。 Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文

2023-07-16

中英双语大模型 ChatGLM2-6B 开发团队——智谱AI&清华KEG昨晚宣布,即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的

2023-11-04

达意等。 根据介绍,LingoWhale-8B模型是拥有约80亿参数的中英双语大语言模型,在C-Eval、MMLU、CMMLU等多个权威的公开评测基准上,在10B以下开源模型中达到领先效果。 LingoWhale-8B是深言科技与清华大学NLP实验室共同推出的语鲸系

2024-10-24

部署工作。 * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中! * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行

2024-07-07

于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolors/Kolors 可图大模型是由快手AI团队自研打造的文生图大模型,具备强大的图像生成能力,它基于大语言

2024-08-15

部署工作。 * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中! * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行

2024-10-16

部署工作。 * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中! * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行

2023-09-07

。Skywork-MM模型的训练上,分为两个阶段,第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习;第二阶段使用多模态微调数据进行指令微调。 此外,Skywork-MM实际上使用的图文数据并不多(约50M),远

2024-09-25

部署工作。 * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中! * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行