百度端到端语音语言大模型发布成本宣称最高降90%

2025-04-01 發表於开源资讯

百度宣布发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型，实现超低时延与超低成本，在电话语音频道的语音问答场景中，调用成本较行业均值下降约50%-90%。

文小言宣布率先接入该模型，同时带来多模型融合调度、图片问答等功能升级。接入全新的端到端语音语言大模型后，文小言不仅能支持更拟真的语聊效果，而且支持重庆、广西、河南、广东、山东等特色方言。

据介绍，语音大模型具备极低的训练和使用成本，极快的推理响应速度，语音交互时，可将用户等待时长从行业常见的3-5秒降低至1秒左右。

更新后的文小言还支持“多模型融合调度”，通过整合百度自研的文心X1、文心4.5等模型，并接入DeepSeek-R1等第三方优质模型，实现了多模型间的智能协同。用户可以选择“自动模式”，一键调用最优模型组合，也可根据需求灵活选择单一模型完成特定任务，大幅提升响应速度与任务处理能力。

此外，文小言还加强了图片问答功能，用户拍摄或上传图片，以文字或语音提问即可直接获取深度解析。

相關推薦

字节发布端到端同声传译模型 Seed LiveInterpret 2.0

2025-07-25

字节跳动 Seed 团队宣布正式推出端到端同声传译模型 Seed LiveInterpret 2.0 —— 首个延迟&准确率接近人类水平的产品级中英语音同传系统，在中英同传翻译质量达到业界SOTA的同时，实现了极低的语音延迟水平。公告称，Seed Live

李彦宏颁发“百度最高奖”：心流团队获 100 万美元奖励

2025-09-09

今日，百度创始人李彦宏在内部活动上为技术团队颁发“百度最高奖”，获奖团队得到 100 万美元奖励，合人民币超 700 万元。“百度最高奖”已历经 15 届，语音识别、深度学习平台、大模型等大量 AI 技术均曾获奖，奖金总金额

Qwen2.5-Omni 登顶全球开源模型榜单

2025-04-03

ce 发布了最新的大模型榜单，阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型，旨在感知文本、图像、音频和视频

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

2025-06-04

议，并在 Telegram 中接入了 xAI 的 AI 聊天机器人 Grok。端到端加密：消息、通话内容只有通信双方能看到，第三方（包括 X 平台）无法窥探；阅后即焚：可以设置消息在一定时间后自动删除，比如 10 分钟后，保护隐私更彻

DeepSeek 启用硬盘缓存技术，大模型价格再降一个数量级

2024-08-04

命中的部分，DeepSeek 费用为 0.1元每百万 tokens。至此，大模型的价格再降低一个数量级。目前，硬盘缓存服务已经全面上线，用户无需修改代码，无需更换接口，硬盘缓存服务将自动运行，系统自动按照实际命中情况计费。

Mozilla 终止维护开源语音转文本引擎项目「DeepSpeech」

2025-06-27

DeepSpeech 是 Mozilla 开发的一款开源语音转文本引擎，基于百度 2014 年发表的研究论文《Deep Speech: Scaling up end-to-end speech recognition》所提出的端到端语音识别方法开发。从 DeepSpeech 的仓库动态来看，Mozilla 已于上周将项目仓库

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-05

音语言指令至关重要。” 根据介绍，LLaSM 是一个经过端到端训练的大型多模态语音语言模型，具有跨模态对话能力，能够遵循语音语言指令。早期实验表明，LLaSM 为人类与人工智能的交互提供了一种更方便、更自然的方式。

百度文心一言正式亮相

2023-03-20

OpenAI 刚发布了 GPT-4，百度预热已久的人工智能生成式对话产品也终于亮相了。昨天下午，文心一言 (ERNIE Bot)—— 百度全新一代知识增强大语言模型、文心大模型家族的新成员，正式在百度总部 “挥手点江山” 会议室里发布

火山引擎总裁谭待：豆包大模型“地板价”，仍有盈利空间

2024-09-26

使用量超过 1.3 万亿，日均生成图片 5000 万张，日均处理语音 85 万小时。豆包大模型原名“云雀”，是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动

OSC 社区 2.1 发布：私有化 + AI

2025-06-19

容与文档资源，提供从知识获取、技能提升到实践落地的端到端数字化支持；依托模型微调与数据反馈，平台持续进化，助力组织加速数字化升级。商业不是污染源，是让技术流动的河社区的灵魂在于共创与分享。没错

Alluxio AI 全新产品发布：无缝对接低成本对象存储 AI 训练解决方案

2023-10-21

容器化环境中运行。支持的云平台包括阿里云、腾讯云、百度云、华为云、AWS、GCP、Azure Cloud 等。下载资源 Alluxio Enterprise AI 下载链接：https://www.alluxio.io/download/ AI Infra Day 在美西时间 10 月 25 日的 AI Infra Day 上，Alluxio 将首次

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

并基于TurboS基座，腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice 腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视觉生成等一系列多模态模型同步“上新” 混元TurboS模型在全球公认的Chatbot Arena评测平台上

李沐发布开源 TTS 语言大模型 Higgs Audio v2

2025-07-24

展到音频任务。通过在大量的配对文本-音频数据集上端到端地训练大型语言模型，实现了语音和文本的整合。上下文学习：融入了上下文学习，使模型能够快速适应而无需重新训练。通过简单的提示，例如简短的参考音频样

蚂蚁回应 AI 训练降本：基于不同芯片持续调优，将逐步开源

2025-03-25

LING 大模型》的技术论文，介绍了他们研发的两款新型大语言模型:百灵轻量版（Ling-Lite）和百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新，能够在低性能硬件上高效训练，显著降低了成本。百灵轻量版的参数规模

熱門推薦