Gemini 原生文本转语音 (TTS) 功能达到生产就绪状态


谷歌Gemini模型的原生文本转语音(TTS)功能已适用于规模化的生产环境,该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。

https://x.com/OfficialLoganK/status/1947328086577492309

据官方人员透露,这项强大的功能适用于多种用例,例如创建类似NotebookLM风格的播客内容。该功能可以通过 AI Studio 和 Gemini API 体验使用。

Gemini API 可以使用原生文本到语音 (TTS) 生成功能,将文本输入转换为单声道或多声道音频。文字转语音 (TTS) 生成是可控制的,这意味着您可以使用自然语言来构建互动,并引导音频的风格、口音、节奏和语气。

TTS 功能不同于通过 Live API 提供的语音生成功能,后者专为互动式非结构化音频以及多模态输入和输出而设计。虽然 Live API 在动态对话情境中表现出色,但通过 Gemini API 进行 TTS 更适合需要精确朗读文本并对风格和音效进行精细控制的场景,例如播客或有声读物生成。

详情查看 https://ai.google.dev/gemini-api/docs/speech-generation


相關推薦

2025-07-05

法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,这是一个实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场

2025-07-02

通义千问团队更新并上线了Qwen-TTS文本转语音服务, 新增支持生成三种中文方言,包括北京话、上海话和四川话。 据介绍,Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果达到了人类级别的自然度和表现力

2025-07-24

了开源 TTS 语言大模型 Higgs Audio v2,该模型不仅支持文本转语音,还能生成多语言自然多说话人对话、自动调整韵律、使用克隆声音哼唱旋律,甚至同时生成语音和背景音乐 。 Higgs Audio v2 整合了 1000 万小时语音数据到 LLM 文

2025-06-08

traits 结合了专家提供的知识内容与谷歌的 AI 模型(包括 Gemini)。当用户提出问题时,AI 会优先以创作者上传的内容作为主要信息来源,随后利用自身的语言理解和推理能力生成相关回应,并以创作者本人的声音进行呈现。 官

2025-03-22

全新语音模型 API,具体包括: gpt-4o-transcribe (语音转文本):单词错误率 (WER) 显著降低,在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高 gpt-4o-mini-tts (

2025-06-28

后,完整版现已发布,可直接在移动硬件上运行。 与 Gemini 的不同之处在于,Gemma 是为开发者下载和修改而设计的,而Gemini 是Google的封闭式专有模型。 该模型现在可以原生处理图像、音频和视频等输入并生成文本,这比仅仅

2025-04-03

估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。 在需要集成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态任务中,它

2025-06-07

ElevenLabs发布了其最新、最先进的文本转语音模型Eleven v3的Alpha版本。该模型在生成具有高情感范围和跨多种语言的上下文理解能力的自然、逼真语音方面达到了业界领先水平。 Eleven v3 亮点如下: 地表最强文本转语音模型之

2025-07-17

er large-v3。它在所有任务上都超越了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短格式和 Mozilla Common Voice 上取得了最佳成绩,超越了 ElevenLabs Scribe,展现了其强大的多语言能力。 更多详情可查看官方公告。

2025-07-24

律。 Mureka TTS V1 支持 Voice Design 能力,用户可以通过文本输入想要的语音特征获得对应的音色。不论是真实人物、虚拟人物还是配音角色,都能够通过文本来控制,摆脱了过去只能通过现有音色库实现音色克隆,或是只能使

2025-05-28

Gemini 2.5 Flash 的语音功能已上线 AI Studio,支持中文,效果自然。用户可以使用包含多种风格和语气标记(如慢速、诗意感、正常、快速、热情等)的复杂文本进行测试。 该语音功能能够较好地遵循这些风格指令,并生成听起

2025-04-18

主文本框中添加“Insert unicode symbol”的快捷方式 添加“gemini-2.0-flash”模型(并允许自定义模型名称) 允许 Gemin 自定义提示 + 添加“gemini-2.0-flash-lite” 添加视频播放器 logo IMPROVED 更新韩语翻译 更新希腊语翻译

2023-11-03

务。 借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具。 最近发布的 Transformers.js 2.7.0 添加了一项重要功能:文本转语音。 下面是演示视

2025-06-11

签列,用以指示模型需要预测的结果 。虽然ML也可以处理文本、图像等非结构化数据,但这往往需要通过复杂的特征工程将其转换为结构化的数值特征,才能被传统ML算法有效利用。 特征:ML模型的数据通常是结构化的表格数