ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。
Eleven v3 亮点如下:
- 地表最强文本转语音模型之一,能“演戏”的 AI 声音
- 支持70+语言(包括中文)、多角色自然对话、情绪和非语言标签控制(如 [sad]、[whispers])
- 文本理解力大幅增强,能模拟真实对话中的情感变化与语气中断
Eleven v3特别适用于需要多个角色互动的角色讨论、具有复杂情感传递的长篇旁白(如有声书制作)以及需要自然逼真、情感丰富的对话场景。
目前,Eleven v3模型处于Alpha阶段,可能会发生变化,且不适用于对话式AI等实时应用。开发者在集成时,建议生成多个样本供用户选择最佳效果。API访问权限目前尚未公开,需要通过联系销售团队申请。模型ID为eleven_v3,同时提供格式为eleven_v3_preview_YYYY_MM_DD的预览版本,以便用户体验最新功能。
https://elevenlabs.io/docs/models#eleven-v3-alpha