11Labs 发布对话式 AI 2.0,集成话轮转换和知识库,多语言多角色多模态


 

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、通义实验室语音团队推出 OmniAudio 技术,可直接从 360° 视频生成 FOA 空间音频

5 月 29 日,阿里通义大模型公布了「空间音频生成」模型——OmniAudio。据通义团队介绍,OmniAudio 能够直接从 360° 视频生成空间音频。

为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。

据悉,FOA 是一种标准的 3D 空间音频格式,能够捕捉声音的方向性,实现真实的 3D 音频再现。

受限于现有的配对 360° 视频和空间音频数据极为稀缺,通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。

 

另外,OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。

目前,OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库,以及相关技术论文。

项目主页:https://omniaudio-360v2sa.github.io/

代码和数据开源仓库:https://github.com/liuhuadai/OmniAudio

论文地址:https://arxiv.org/abs/2504.14906 (@APPSO、@阿里语音 AI)

2、可灵 2.1 系列视频模型发布,拥有卓越的动态效果表现,更强的语义响应

快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型:

标准版支持标准(720P)和高品质(1080P)两种模式。价格方面,标准模式为 20 积分/5 秒,高品质模式为 35 积分/5 秒。

大师模式全面升级为 1080P 输出,拥有卓越的动态效果表现,更强的语义响应。可灵 2.1 标准版暂仅支持「图生视频」功能,「文生视频」功能将在近期上线。目前,可灵 AI 官网已可体验可灵 2.1 系列模型。

可灵 AI:https://app.klingai.com/cn/ (@APPSO)

02 有亮点的产品

1、PlayDiffusion:一种基于扩散的修补模型,具有修改现有语音的能力

PlayDiffusion 是一个让用户能够通过简单编辑文本来编辑音频/视频内容中语音的模型。该模型是一种基于扩散的修补模型,具有修改现有语音的能力,通过该模型可以像编辑文档一样编辑语音,无需重新录制。只需上传音频/视频,编辑自动生成的转录文本,即可获得更新后的语音。现已开源。

工作原理:

1、上传内容;

2、模型转录语音;

3、你编辑转录文本;

4、模型使用相同的声音进行更改。

 

并且 PlayDiffusion 不是像自回归模型那样逐个生成标记,而是能够一次性预测所有标记,并在大约 20 个去噪步骤中进行优化。这使得生成步骤的效率提高了最多 50 倍,同时没有任何损失。

GitHub: https://github.com/playht/PlayDiffusion

Demo: https://huggingface.co/spaces/PlayHT/PlayDiffusion

Fal: https://fal.ai/models/fal-ai/playai/inpaint/diffusion (@HammadH4@X、 @PlayAIOfficial@X)

2、ElevenLabs 发布对话式人工智能 2.0 ,具备新一代先进的轮流发言功能和全面支持企业级应用

ElevenLabs 发布 Conversational AI 2.0,实现了自然转换对话能力,能识别语气词判断用户意图,避免尴尬停顿和不当打断。ElevenLabs Conversational AI 现已支持多模态,用户可以创建能够通过文本、语音或同时通过两者进行交流的智能体。

ElevenLabs 开发了批量呼叫功能,使用户能够自动化并扩展外呼语音通信。批量呼叫允许使用用户的对话式 AI 智能体同时发起多个外呼,非常适合发送警报、进行调查或向庞大联系人列表传递个性化信息等用例,提升速度和一致性。 新系统集成了多语言自动识别功能和检索增强生成(RAG)技术,支持多模态交互,一个 AI 助手可同时处理文本和语音。

 

新功能概览:

  • 新一代先进的轮流发言模型;

  • 语言切换;

  • 多角色模式;

  • 多模态;

  • 批量调用;

  • 内置 RAG。(@elevenlabsio@X、@腾讯研究院、@海波学者聊 AI)

3、马斯克宣布推出 XChat,具备消息「阅后即焚」和无需电话号码即可使用的网络通话/视频功能

 

日前,马斯克宣布推出一款名为「XChat」的即时通信服务平台。据悉,该平台将具备消息「阅后即焚」和无需电话号码即可使用的网络通话/视频功能。

马斯克宣称 XChat 采用了「比特币风格的加密」,并用 Rust 语言开发,号称「全新架构」。

据 The Information 报道指出,XChat 本质上是为了与 WhatsApp、Telegram,甚至是微信展开竞争。

值得一提的是,Telegram 创始人 Pavel Durov 在一周前曾表示其与马斯克旗下的 xAI 签署了合作协议,并在 Telegram 中接入了 xAI 的 AI 聊天机器人 Grok。

  • 端到端加密:消息、通话内容只有通信双方能看到,第三方(包括 X 平台)无法窥探;

  • 阅后即焚:可以设置消息在一定时间后自动删除,比如 10 分钟后,保护隐私更彻底;

  • 任意文件传输:支持发送任何类型的文件,包括照片、视频、文档等,不再受限于格式或大小;

  • 跨平台音视频通话:无需手机号即可拨打,支持手机、电脑等多设备,通话内容同样加密。

(@APPSO、@Techub Info)

03 Real-Time AI Demo

1、使用手势和语音命令控制 3D 模型,包括移动、旋转、缩放、动画

来自 X 上的@measure_plan:你现在可以导入任何 3D 模型,并使用手势+语音来控制它

04 有态度的观点

1、Anthropic CEO:未来五年 AI 或取代一半白领工作

最近在旧金山总部接受采访时,Anthropic CEO Dario Amodei 发出严峻警告:AI 的迅猛发展可能在未来一到五年内淘汰多达一半的初级白领岗位,社会失业率或飙升至 10% 到 20%。

Amodei 表示,现在是时候停止对 AI 潜在影响的「美化」,技术、金融、法律、咨询等多个行业的初级职位将面临大规模消失,而多数普通人对此几乎一无所知,也缺乏足够的重视。

他希望通过公开发声,促使政策制定者与同行开始采取行动,为社会转型做准备。「大多数人并不知道这件事就要发生,听起来像疯话,但他们不信。」

Amodei 表示,虽然 AI 也带来医疗突破、经济增长等潜力,但其风险同样不可忽视。「癌症治好了,GDP 每年增长 10%,财政平衡……可有 20% 的人失去了工作。」他坦言,这样的情境极可能在技术爆发中同时发生。(@APPSO)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

素材来源官方媒体/网络新闻


相關推薦

2023-09-08

领域带来的全新体验。 成立仅四个月,百川智能便相继发布了三款通用大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤

2025-03-28

合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。 在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料,涵盖四大数据模态共计1150万条数

2023-11-06

等领域。 2022年12月15日,昆仑万维在北京举行AIGC技术发布会,发布自研AIGC全系列算法与模型,覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。 2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,

2023-03-02

,涉及数据、算法、算力及训练基础设施等。智源研究院发布的FlagOpen大模型技术开源体系,是智源及上下游生态合作机构联合开展技术攻关的成果展现,为大模型技术创新提供了“北京贡献”。同时,他对于大模型的发展提出

2023-06-22

天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AIGC 项目。 目前业内比较知名的多模态大模型有 VisualGLM-6B 和 ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开

2024-08-14

等重磅AI产品登陆麒麟软件商店人工智能专区,涵盖了AI对话、AI写作、AI绘图、AI搜索等多个领域,为用户带来更加丰富、智能的应用体验。 阿里通义 通义是一款超大规模与训练模型,为您提供全方位协助,包括知识问答、AI

2025-04-07

能力:AI 对话助手、AI 建表、AI 写文章、AI 流程编排、AI 知识库等. 发版时间:v3.7.4 | 2025-04-07 源码下载 https://github.com/jeecgboot/JeecgBoot 升级日志 后台架构进行较大升级;默认 JDK 换成 17;Knife4j 升级 openapi3 的 SpringDoc (

2024-01-13

务需求对大模型进行微调或个性化设置,或者加载自己的知识库或数据,从而调整出更符合自身业务需求、更加个性化的理想结果。 根据介绍,由中国电信完全自主研发的国内领先星辰系列大模型,构建了语义、语音、视觉及

2023-03-20

OpenAI 刚发布了 GPT-4,百度预热已久的人工智能生成式对话产品也终于亮相了。昨天下午,文心一言 (ERNIE Bot)—— 百度全新一代知识增强大语言模型、文心大模型家族的新成员,正式在百度总部 “挥手点江山” 会议室里发布

2025-04-10

Jina AI 正式发布jina-reranker-m0,一款多模态、多语言重排器(reranker),核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表

2023-09-25

清华系创企水木分子宣布发布新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。水木分子成立于今年6月,由清华大学智能产业研究院(AIR)孵化,专注于生物医药垂直行业

2025-04-18

需写任何代码! 成套 AI 大模型功能: AI 模型、AI 应用、知识库、AI 流程编排、AI 对话等; 引领 AI 低代码开发模式, 帮助 Java 项目解决 80% 的重复工作,让开发更多关注业务,提高效率,同时又不失灵活性! 发版时间:v3.8.0 |

2024-08-16

。 在此背景下,百度推出了飞桨框架新一代 3.0 版本,集成了大语言模型开发套件 PaddleNLP 、多模态模型开发套件 PaddleMIX,同时还集成飞桨即有系列开发套件能力——低代码开发工具 PaddleX,助力开发者实现高效、便捷的开发

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面