谷歌 Gemini Live 即将升级:实时画面提示与三大应用深度整合


Gemini Live 是谷歌推出的实时 AI 语音助手,支持语音与视觉互动,用户可通过摄像头或屏幕共享与 AI 对话。它能实时识别画面内容并回应,例如看到物品可询问信息,看到日程可添加提醒。

近日,谷歌宣布 Gemini Live 迎来重大升级,带来更强的视觉互动能力,并深度整合多款 Google 应用。

视觉互动能力大幅提升

  • 共享摄像头与屏幕:用户可在对话中共享摄像头或屏幕,Gemini 会实时高亮屏幕上的物体,提供视觉指引(例如帮用户挑选鞋子或识别工具)。
  • 更自然的语音交互:更新后的模型支持更自然的语调、节奏与音高,可根据话题调整语气,用户还可要求更快、更慢或带口音的朗读,甚至享受戏剧化的故事讲述。

深度整合 Google 应用生态

  • 已整合应用Google CalendarKeepTasks 已接入 Gemini Live,用户可通过语音管理日程、建立购物清单、设置提醒。
  • 即将整合应用MessagesPhoneClock 应用及增强版 Maps 的整合也即将上线,支持“边导航边发短信”等场景。
  • 未来计划:Google 计划未来进一步整合 GmailGoogle Photos 甚至智能家居设备控制,打造统一的 AI 控制中心。

隐私与可用性

  • 隐私保护:用户可随时通过访问 gemini.google.com/apps 关闭与应用的连接,或关闭“Gemini Apps Activity”设置,确保聊天数据不会被用于训练 AI 模型。
  • 逐步推出:新功能将随 Pixel 10 系列于 8 月 28 日首发,随后向其他 Android 及 iOS 设备推送。

此次升级使 Gemini Live 从传统语音助手转变为视觉化、多模态的 AI 生活伙伴,用户可通过语音和视觉交互,无缝连接 Google 生态应用,大幅提升日常效率与体验。


相關推薦

2025-05-22

2025 年 5 月 20 日,谷歌在 I/O 大会上正式宣布 Google 搜索「AI Mode」(AI 模式)面向美国市场全面上线。 AI Mode 是 Google 搜索中的一个新选项卡,允许用户使用 Gemini AI 聊天机器人进行网络搜索,支持自然语言多轮对话式搜索。 A

2025-04-26

在最近的 Alphabet Q12025财报电话会议上,谷歌 CEO 皮查伊透露,谷歌目前超过30% 的代码是借助人工智能(AI)生成的。这意味着开发者在每三次代码更改中,就有一次是接受了 AI 的建议。 皮查伊指出,随着更强大的模型和主动工

2025-05-20

谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊日前做客《All-In》播客节目,接受了企业家、投资人大卫·弗里德伯格的专访。探讨了人工智能浪潮下,谷歌如何主动颠覆自身,以保持技术领先地位。 随着AI对信息获取方式的

2025-03-20

谷歌昨天为 Gemini 推出了「Canvas」功能,该功能与 OpenAI 的 ChatGPT Canvas 工具以及 Anthropic 的 Artifacts 在概念上相似,它为 Gemini 用户提供了一个互动空间,用户可以在其中创建、完善并分享写作和编程项目。 此类工作空间是 AI 公

2021-12-21

直播软件,可让用户直播来自游戏和其他桌面应用程序的实时画面,此举似乎想让 TikTok 脱离移动设备,从 Twitch 等 PC 游戏直播市场分一杯羹。 但软件上线没多久,推特用户 @HunterAP23 爆料,称 TikTok Live Studio 疑似

2025-08-23

谷歌周四宣布将推出Gemini政府版(Gemini for Government),并通过与美国总务管理局的新协议,以每年不到50美分的价格向美国联邦政府提供该模型。 这也是继OpenAI和Anthropic后,最新一家以极低价格向美国政府供应人工智能模型的

2025-08-01

生成功能「Imagine」: 支持带音频的视频生成(类似谷歌 Veo 3) 可一次性生成 4 段视频 生成速度显著提升 据悉,Grok 的生成模型 Aurora 已经升级,马斯克表示正在修复相关的 bug。 从早期泄露的信息来看,Imagine 将

2025-08-05

谷歌在其官方开发者博客及Google I/O2025大会上宣布,Android Studio正式推出免费的Agent模式,为安卓应用开发引入了革命性的AI辅助功能。这一功能的发布不仅大幅提升了开发效率,还凭借其智能化的交互方式和灵活的自定义规则支

2025-05-22

谷歌在 Google I/O 2025 大会上宣布为其旗舰AI模型Gemini 2.5 Pro引入名为“深度思考”(Deep Think)的增强推理模式。该模式允许模型在回应前考虑多个假设和答案,从而提升其在复杂查询,特别是数学和编码相关任务上的表现。 根据

2025-04-08

,因此推理将成为AI新阶段的核心动力。 3月25日,美国谷歌公司发布了号称最强推理模型的双子座 2.5 Pro。据介绍,它是谷歌旗下最先进的复杂任务模型,展示了强大的推理和代码能力,并拥有双子座系列此前各模型所具有的全

2025-08-07

备受瞩目的 Claude 3.5 Sonnet 、Claude Sonnet 4 首次参评,同时 Gemini 2.5 系列也正式迈入稳定版。更重要的是,我们针对数据库现代化迁移的真实痛点,对评测基准进行了重要升级,旨在更深度地考验模型在复杂、真实场景下的 SQL 处

2025-06-04

进行深入洽谈。 此次广泛的合作可能有助于三星减少对谷歌的依赖,并为其与多家人工智能开发商合作铺平道路,类似于苹果公司针对其设备和服务的战略。对于 Perplexity 而言,此次合作将是其迄今为止最大的移动合作伙伴关

2025-07-23

谷歌Gemini模型的原生文本转语音(TTS)功能已适用于规模化的生产环境,该功能目前支持Gemini 2.5 Flash和Gemini 2.5 Pro两个模型。 https://x.com/OfficialLoganK/status/1947328086577492309 据官方人员透露,这项强大的功能适用于多种用例

2024-08-10

库、MPP 以及数据仓库一体机的形态。 2000 年前后,随着谷歌三驾马车的问世,以 Hadoop / Spark 为代表的大数据平台成为大数据分析的基座,成为第二阶段的事实标准。从 2020 年开始,现代化的数据分析平台/数据仓库开始成为主流