Gemini Live 是谷歌推出的实时 AI 语音助手,支持语音与视觉互动,用户可通过摄像头或屏幕共享与 AI 对话。它能实时识别画面内容并回应,例如看到物品可询问信息,看到日程可添加提醒。
近日,谷歌宣布 Gemini Live 迎来重大升级,带来更强的视觉互动能力,并深度整合多款 Google 应用。
视觉互动能力大幅提升
- 共享摄像头与屏幕:用户可在对话中共享摄像头或屏幕,Gemini 会实时高亮屏幕上的物体,提供视觉指引(例如帮用户挑选鞋子或识别工具)。
- 更自然的语音交互:更新后的模型支持更自然的语调、节奏与音高,可根据话题调整语气,用户还可要求更快、更慢或带口音的朗读,甚至享受戏剧化的故事讲述。
深度整合 Google 应用生态
- 已整合应用:Google Calendar、Keep、Tasks 已接入 Gemini Live,用户可通过语音管理日程、建立购物清单、设置提醒。
- 即将整合应用:Messages、Phone、Clock 应用及增强版 Maps 的整合也即将上线,支持“边导航边发短信”等场景。
- 未来计划:Google 计划未来进一步整合 Gmail、Google Photos 甚至智能家居设备控制,打造统一的 AI 控制中心。
隐私与可用性
- 隐私保护:用户可随时通过访问 gemini.google.com/apps 关闭与应用的连接,或关闭“Gemini Apps Activity”设置,确保聊天数据不会被用于训练 AI 模型。
- 逐步推出:新功能将随 Pixel 10 系列于 8 月 28 日首发,随后向其他 Android 及 iOS 设备推送。
此次升级使 Gemini Live 从传统语音助手转变为视觉化、多模态的 AI 生活伙伴,用户可通过语音和视觉交互,无缝连接 Google 生态应用,大幅提升日常效率与体验。