MiniMax Audio 发布 Speech-02 模型:单次输入支持 20 万字符


MiniMax Audio 正式发布了全新的 Speech-02 系列语音模型,支持将任何文件或 URL 转换为逼真的音频。用户只需一次输入,即可轻松创建有声读物和播客,最多可输入 20 万个字符,支持 30 多种语言的音频生成,效果自然流畅。

Speech-02 模型支持 30 多种语音,一次性可以输入 20 万字符。为用户带来更真实、更流畅、更便捷的音频体验。

据官方介绍,该系列在多语言覆盖能力上实现了显著提升,能够更准确、更地道地呈现多种语言的发音。Speech-02的人声相似度高达99%,这意味着合成的语音听起来更加自然、贴近真人。

此外,该模型还实现了零节奏故障,彻底解决了音频播放过程中可能出现的卡顿和节奏不稳问题,保证了听感的连贯性和流畅性。  

使用地址:https://www.minimax.io/audio


相關推薦

2025-06-25

MiniMax 稀宇科技宣布旗下 MiniMax Audio 上线了「Voice Design 音色设计」功能。 音色的维度一般分成音频质量、发声方式、情感基调以及人物画像。该功能根据用户对音色需求的描述,模型自动拆解成音色相关的描述信息,并根据上

2025-06-20

有消息称,AI独角兽稀宇科技 (MiniMax) 正考虑在香港进行首次公开募股(IPO)。 对此,有接近MiniMax的知情人士向澎湃新闻记者表示,MiniMax内部确实有类似想法,但目前仍处于初步筹备阶段。 官网介绍显示,MiniMax 是全球领先

2025-06-18

MiniMax 宣布开源 MiniMax-M1 模型,据称是全球首款开放权重的大规模混合注意力推理模型。 开源地址: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094 https://github.com/MiniMax-AI/MiniMax-M1 模型亮点: 模型采用 M

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2023-09-08

模型) 三家上海企业机构:商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型) 下面是 8 款 AI 大模型(及产品)的简介和链接: 百度(文心一言) 文心一言(英文名:ERNIE Bot)是

2025-07-17

万中国开发者基于NVIDIA平台创新,DeepSeek、阿里、腾讯、MiniMax、百度等领先模型在这里诞生并开源,推动全球AI发展。中国的开源AI已成为世界进步的催化剂,让每个国家、每个行业都有机会参与AI革命。 “十年内,工厂将由软

2024-08-27

,再送进LLM进行对应的下游任务,如语音识别(Automatic Speech Recognition,ASR)、语音翻译(Automatic Speech Translation,AST)等。 在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM: 项目团队将MooER与多个

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2025-04-19

异步工作负载。 OpenAI 表示, Flex 处理是 OpenAI 最近发布的 o3 和 o4-mini 推理模型的测试版,旨在处理模型评估、数据丰富和异步工作负载等低优先级和 “非生产” 任务。 它将 API 成本降低了整整一半。对于 o3,Flex 处理价

2025-05-20

Minimax近日上线了AI Agent功能。该功能目前可通过特定网址访问,并且当前内测阶段免费向用户提供使用。 https://agent.minimax.io/ 内测页面显示,用户可自行选择“标准”或“深度”两种模式,输入任务并交由MiniMax Agent执行。其

2025-06-19

MiniMax 宣布推出视频生成大模型 Hailuo 02,这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 MiniMax 放出的视频案例中,展现了喷火、钻火圈、连续后空翻、高空走钢丝等超高

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2025-07-17

近日有消息称,人工智能大模型企业 MiniMax 已接近完成新一轮近3亿美元的融资,当前汇率折合约21.52亿元人民币。 此轮融资完成后,该公司估值将超过40亿美元,约合286.96亿元人民币。根据现有公开资料,目前国内大模型企业