Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态

2025-07-23 發表於开源资讯

谷歌Gemini模型的原生文本转语音（TTS）功能已适用于规模化的生产环境，该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。

https://x.com/OfficialLoganK/status/1947328086577492309

据官方人员透露，这项强大的功能适用于多种用例，例如创建类似NotebookLM风格的播客内容。该功能可以通过 AI Studio 和 Gemini API 体验使用。

Gemini API 可以使用原生文本到语音 (TTS) 生成功能，将文本输入转换为单声道或多声道音频。文字转语音 (TTS) 生成是可控制的，这意味着您可以使用自然语言来构建互动，并引导音频的风格、口音、节奏和语气。

TTS 功能不同于通过 Live API 提供的语音生成功能，后者专为互动式非结构化音频以及多模态输入和输出而设计。虽然 Live API 在动态对话情境中表现出色，但通过 Gemini API 进行 TTS 更适合需要精确朗读文本并对风格和音效进行精细控制的场景，例如播客或有声读物生成。

详情查看 https://ai.google.dev/gemini-api/docs/speech-generation

相關推薦

法国 AI 研究机构开源 Kyutai TTS，低延迟流式文本转语音技术

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场

FlowSpeech：全球首个书面语转口语的 TTS

2025-08-08

智能语音合成技术迎来新突破。一款名为 FlowSpeech 的 AI 文本转语音工具正式发布，其独特之处在于能够将书面文字转换为自然流畅的口语表达，为用户提供更贴近真实对话的语音合成体验。体验地址：https://listenhub.ai/zh?tab=flows

通义千问 Qwen-TTS 新增支持北京话、上海话和四川话中文方言

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务，新增支持生成三种中文方言，包括北京话、上海话和四川话。据介绍，Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练，合成效果达到了人类级别的自然度和表现力

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

了开源 TTS 语言大模型 Higgs Audio v2，该模型不仅支持文本转语音，还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律，甚至同时生成语音和背景音乐。 Higgs Audio v2 整合了 1000 万小时语音数据到 LLM 文

OpenAI 上线 OpenAI.fm 网站

2025-03-22

全新语音模型 API，具体包括： gpt-4o-transcribe (语音转文本)：单词错误率 (WER) 显著降低，在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本)：gpt-4o-transcribe 的精简版本，速度更快、效率更高 gpt-4o-mini-tts (

ElevenLabs 新 TTS 模型支持音频标签丨日报

2025-06-08

traits 结合了专家提供的知识内容与谷歌的 AI 模型（包括 Gemini）。当用户提出问题时，AI 会优先以创作者上传的内容作为主要信息来源，随后利用自身的语言理解和推理能力生成相关回应，并以创作者本人的声音进行呈现。官

谷歌发布 Gemma 3n，专为移动设备打造的全新 AI 模型

2025-06-28

后，完整版现已发布，可直接在移动硬件上运行。与 Gemini 的不同之处在于，Gemma 是为开发者下载和修改而设计的，而Gemini 是Google的封闭式专有模型。该模型现在可以原生处理图像、音频和视频等输入并生成文本，这比仅仅

没有套路，真的免费：模力方舟全免费的模型都在这了

2025-08-02

是不限次数、毫无限制、直接免费用。无论你是想生成文本、写代码、合成语音、做推理，还是想过滤下内容风险，模力方舟都准备好了免费的相关模型，全部 0 元接入、不限次数。通用语言模型：超能聊，跑得快 Qwen3-8B

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

估，与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比，该模型在所有模态中均表现出色。在需要集成多种模态的任务（例如 OmniBench）中，Qwen2.5-Omni 实现了最佳性能。此外，在单模态任务中，它

ElevenLabs 发布文本转语音模型 Eleven v3（Alpha 版）

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下：地表最强文本转语音模型之

Mistral AI 开源 AI 音频模型系列 Voxtral

2025-07-17

er large-v3。它在所有任务上都超越了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash，并在英语短格式和 Mozilla Common Voice 上取得了最佳成绩，超越了 ElevenLabs Scribe，展现了其强大的多语言能力。更多详情可查看官方公告。

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

定！自定义存储路径，找文件再也不用翻遍电脑新增语音识别功能！语音秒转文字，开会记笔记神器声音替换上线！想给视频换个声线？一键搞定为什么选择 AigcPanel？ ✅ 零门槛操作：本地部署操作简单，小白也能

昆仑万维正式上线音乐模型 Mureka V7

2025-07-24

律。 Mureka TTS V1 支持 Voice Design 能力，用户可以通过文本输入想要的语音特征获得对应的音色。不论是真实人物、虚拟人物还是配音角色，都能够通过文本来控制，摆脱了过去只能通过现有音色库实现音色克隆，或是只能使

Gemini 2.5 Flash 语音功能上线 AI Studio

2025-05-28

Gemini 2.5 Flash 的语音功能已上线 AI Studio，支持中文，效果自然。用户可以使用包含多种风格和语气标记（如慢速、诗意感、正常、快速、热情等）的复杂文本进行测试。该语音功能能够较好地遵循这些风格指令，并生成听起

熱門推薦