MiniMax Audio 发布 Speech-02 模型：单次输入支持 20 万字符

2025-04-03 發表於开源资讯

MiniMax Audio 正式发布了全新的 Speech-02 系列语音模型，支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入，即可轻松创建有声读物和播客，最多可输入 20 万个字符，支持 30 多种语言的音频生成，效果自然流畅。

Speech-02 模型支持 30 多种语音，一次性可以输入 20 万字符。为用户带来更真实、更流畅、更便捷的音频体验。

据官方介绍，该系列在多语言覆盖能力上实现了显著提升，能够更准确、更地道地呈现多种语言的发音。Speech-02的人声相似度高达99%，这意味着合成的语音听起来更加自然、贴近真人。

此外，该模型还实现了零节奏故障，彻底解决了音频播放过程中可能出现的卡顿和节奏不稳问题，保证了听感的连贯性和流畅性。

使用地址：https://www.minimax.io/audio

相關推薦

MiniMax 上线 AI 音色设计功能

2025-06-25

MiniMax 稀宇科技宣布旗下 MiniMax Audio 上线了「Voice Design 音色设计」功能。音色的维度一般分成音频质量、发声方式、情感基调以及人物画像。该功能根据用户对音色需求的描述，模型自动拆解成音色相关的描述信息，并根据上

MiniMax 启动期权增发奖励

2025-09-09

MiniMax已启动期权增发事宜，根据员工对公司的贡献程度不同，激励在几十万美金到几百万美金不等；涵盖算法、工程等全序列核心贡献员工，以鼓励员工大胆追求AGI。据了解，本次期权发放来自于全员会口头通知，不仅模型算

MiniMax 考虑赴港 IPO？知情人士：属实，仍处于初步筹备阶段

2025-06-20

有消息称，AI独角兽稀宇科技 (MiniMax) 正考虑在香港进行首次公开募股（IPO）。对此，有接近MiniMax的知情人士向澎湃新闻记者表示，MiniMax内部确实有类似想法，但目前仍处于初步筹备阶段。官网介绍显示，MiniMax 是全球领先

MiniMax 发布开源混合架构推理模型 MiniMax-M1

2025-06-18

MiniMax 宣布开源 MiniMax-M1 模型，据称是全球首款开放权重的大规模混合注意力推理模型。开源地址： https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 https://github.com/MiniMax-AI/MiniMax-M1 模型亮点：模型采用 M

英伟达开源多模态音频模型 Audio Flamingo 3

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3)，一个完全开源的大型音频-语言模型 (LALM)，在超过 20 个音频理解和推理基准测试中达到最新最优性能。该模型旨在推动音频、语音和音乐领域的 AI 研究，但仅限用于非商业研究目的，并依据&n

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

2023-09-08

模型）三家上海企业机构：商汤（日日新大模型）、MiniMax（ABAB大模型）、上海人工智能实验室（书生通用大模型）下面是 8 款 AI 大模型（及产品）的简介和链接：百度（文心一言）文心一言（英文名：ERNIE Bot）是

黄仁勋演讲实录：夸赞“中国开源AI已成为世界进步催化剂”

2025-07-17

万中国开发者基于NVIDIA平台创新，DeepSeek、阿里、腾讯、MiniMax、百度等领先模型在这里诞生并开源，推动全球AI发展。中国的开源AI已成为世界进步的催化剂，让每个国家、每个行业都有机会参与AI革命。 “十年内，工厂将由软

MiniMax 发布全球首个可交易 Agent Remix Marketplace

2025-08-13

MiniMax稀宇科技宣布推出全球首个Agent Remix Marketplace，并启动了一项奖金高达15万美金的全球挑战赛。这一创新平台旨在将个人的想法转化为商业价值，让每个人都能成为“个体GDP创造者”。 Agent Remix Marketplace是一个允许用户一键

摩尔线程开源音频理解大模型 MooER

2024-08-27

，再送进LLM进行对应的下游任务，如语音识别（Automatic Speech Recognition，ASR）、语音翻译（Automatic Speech Translation，AST）等。在模型训练阶段，融合了语音模态和文本模态的数据会按以下形式输入到LLM：项目团队将MooER与多个

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

阿里通义开源音频语言模型 Qwen2-Audio

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本，它能够接受音频和文本输入，并生成文本输出。具有以下特点：语音聊天：用户可以使用语音向音频语言模型发出指令，无需通过自动语音识别（ASR）

OpenAI 推出"Flex processing"API：用于更便宜、更慢的 AI 任务

2025-04-19

异步工作负载。 OpenAI 表示， Flex 处理是 OpenAI 最近发布的 o3 和 o4-mini 推理模型的测试版，旨在处理模型评估、数据丰富和异步工作负载等低优先级和 “非生产” 任务。它将 API 成本降低了整整一半。对于 o3，Flex 处理价

Minimax 正在内测 Agent 功能

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问，并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示，用户可自行选择“标准”或“深度”两种模式，输入任务并交由MiniMax Agent执行。其

MiniMax 发布视频生成大模型 Hailuo 02

2025-06-19

MiniMax 宣布推出视频生成大模型 Hailuo 02，这个模型支持文生视频，图生视频，甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 MiniMax 放出的视频案例中，展现了喷火、钻火圈、连续后空翻、高空走钢丝等超高

熱門推薦