ElevenLabs 发布文本转语音模型 Eleven v3（Alpha 版）

2025-06-07 發表於开源资讯

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。

Eleven v3 亮点如下：

地表最强文本转语音模型之一，能“演戏”的 AI 声音
支持70+语言（包括中文）、多角色自然对话、情绪和非语言标签控制（如 [sad]、[whispers]）
文本理解力大幅增强，能模拟真实对话中的情感变化与语气中断

Eleven v3特别适用于需要多个角色互动的角色讨论、具有复杂情感传递的长篇旁白（如有声书制作）以及需要自然逼真、情感丰富的对话场景。

目前，Eleven v3模型处于Alpha阶段，可能会发生变化，且不适用于对话式AI等实时应用。开发者在集成时，建议生成多个样本供用户选择最佳效果。API访问权限目前尚未公开，需要通过联系销售团队申请。模型ID为eleven_v3，同时提供格式为eleven_v3_preview_YYYY_MM_DD的预览版本，以便用户体验最新功能。

https://elevenlabs.io/docs/models#eleven-v3-alpha

相關推薦

ElevenLabs 发布 v3 Alpha API：支持 70+ 语言、无限数量说话人

2025-08-22

ElevenLabs 正式推出专为异步场景设计的 Eleven v3 Alpha API，号称是其迄今最具表现力的文本转语音模型。其功能包括对话模式、支持无限数量的说话人、覆盖 70 多种语言，并可通过音频标签实现更精细的语音与情感控制。根据

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

： https://baike.baidu.com/item/ICML/14479665 （@机器之心） 3、ElevenLabs 推出高表现力 TTS 模型 Eleven v3（alpha）：支持 70 多种语言、多说话人对话和音频标签 ElevenLabs 推出了全新一代文本转语音模型 Eleven v3（Alpha 版），这是目前表现力

ElevenLabs 上线 Eleven Music API，首款商用 AI 音乐生成接口

2025-08-20

ElevenLabs宣布推出Eleven Music API，这是首款基于全授权数据训练、专为开发者打造的商用AI音乐生成接口。自2024年推出以来，创作者已通过该工具生成超75万首歌曲，印证市场强劲需求。使用文档：https://elevenlabs.io/docs/cookbooks/mu

ElevenLabs 推出 AI 音乐生成服务“Eleven Music”

2025-08-08

ElevenLabs宣布推出 AI 音乐生成服务 “Eleven Music”，据称能够根据自然语言提示生成录音室级别的音乐。 https://elevenlabs.io/music Eleven Music 允许用户完全控制音乐的流派、风格和结构，可以选择生成带人声的歌曲或纯器乐，并支

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

ls/fal-ai/playai/inpaint/diffusion (@HammadH4@X、 @PlayAIOfficial@X) 2、ElevenLabs 发布对话式人工智能 2.0 ，具备新一代先进的轮流发言功能和全面支持企业级应用 ElevenLabs 发布 Conversational AI 2.0，实现了自然转换对话能力，能识别语气词判断用

Mistral AI 开源 AI 音频模型系列 Voxtral

2025-07-17

格不到后者的一半。对于高端用例，Voxtral Small 的性能与 ElevenLabs Scribe 相当，但价格也不到后者的一半。” Mistral AI 指出，基准测试结果表明 Voxtral 的表现全面超越了目前领先的开源语音转录模型 Whisper large-v3。它在所有任务上

Shotcut 25.07：Hot Hot Hot 发布

2025-07-30

Shotcut 25.07.26 现已发布，具体更新内容如下： 1 hot 全新的语音转文本模型下载器 2 hots 全新的 System Fusion 和改进的系统 UI 主题 3 hots 全新的 Outline 视频过滤器上的 CPU cooking 在“语音

OpenAI 上线 OpenAI.fm 网站

2025-03-22

全新语音模型 API，具体包括： gpt-4o-transcribe (语音转文本)：单词错误率 (WER) 显著降低，在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、效率更高 gpt-4o-mini-tts (

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

知名 AI 技术创业者李沐和其团队 Boson.ai 发布了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。

Transformers.js 2.7.0 发布，新增文本转语音

2023-11-03

务，这使其成为 ML 从业者和研究人员的强大工具。最近发布的 Transformers.js 2.7.0 添加了一项重要功能：文本转语音。下面是演示视频：开发者表示目前只支持 speecht5 的文本转语音，将来会添加其他模型，

Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露，这项强大的功能适用于多种用例

法国 AI 研究机构开源 Kyutai TTS，低延迟流式文本转语音技术

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25

输出语言目前，SeamlessM4T 已在 CC BY-NC 4.0 许可下发布，以便研究人员可以在此基础上进行开发。与此同时，Meta 还发布了一个多模式翻译数据集 SeamlessAlign，包含 270,000 小时的语音和文本对齐。 Meta 表示，现有的语音

Subtitle Edit 3.6.6 发布，字幕编辑工具

2022-05-30

Plain-Text、Adobe Encore DVD）。目前，Subtitle Edit 3.6.6 已发布，该版本更新内容如下： New 为 iTT 属性添加工具栏图标添加新的子格式在 UI 中关闭“word split list”的选项自定义文本格式的自定义文件 ext 添加语音识别

熱門推薦