Google I/O 2025：Gemini 全新功能发布，AI 助手迈向新高度

惜溯2025-05-222025-12-10

2025 年 5 月 20 日至 21 日，Google 在山景城的海岸线圆形剧场举办了年度开发者大会 Google I/O 2025。本次大会以人工智能为核心，重点展示了 Gemini 系列模型的重大升级和全新功能。从更智能的推理模式到多模态交互，Gemini 正从单一的聊天机器人演变为一个全能的 AI 工作平台，目标是成为“最个性化、最主动、最强大的 AI 助手”。以下是本次大会中 Gemini 的主要新功能介绍。

Gemini Live：免费开放视觉交互功能

Gemini Live 是 Google 推出的实时交互功能，现已免费向所有 Android 和 iOS 用户开放。通过手机摄像头或屏幕共享，用户可以与 Gemini 进行实时对话，处理从日常生活问题到复杂任务的各种场景。例如，你可以对准家中的电器询问维修方法，或通过屏幕共享获取手机设置的指导。据 Google 统计，Gemini Live 的平均对话时长是纯文本对话的五倍，显示出用户对这一功能的喜爱。

Imagen 4 与 Veo 3：图像与视频生成新突破

Imagen 4：更快、更精细的图像生成
Gemini 集成了全新图像生成模型 Imagen 4，相较于 Imagen 3，其生成速度提升最高 10 倍，且能呈现更逼真的细节，如布料纹理、水滴效果和动物毛发。Imagen 4 不仅适用于 Gemini 应用，还支持 Google Workspace 中的 Slides、Vids 和 Docs，适合创建专业演示文稿或社交媒体图形。
Veo 3：全球首款支持音效的视频生成模型
Veo 3 是 Google 最新视频生成模型，首次原生支持生成背景音效、环境噪音和角色对话。用户可通过简单文本提示生成带有音效的 8 秒视频，例如城市街景的喧嚣声或角色间的对话。目前，Veo 3 已在 Google AI Ultra 订阅计划中提供，未来将根据用户反馈扩展语言支持和功能。
此外，Google 推出了视频编辑工具 Flow，整合 Imagen 4 和 Veo 3 的能力，支持用户从文本提示生成完整视频内容，适合创意工作者快速制作高质量视频。

Deep Think 模式：增强推理能力

Gemini 2.5 Pro 引入了实验性 Deep Think 模式，这是一种高级推理功能，允许模型在回答复杂问题前评估多个假设。测试结果显示，Deep Think 在 2025 USAMO 数学竞赛和 LiveCodeBench 编程基准测试中表现卓越，超越了 OpenAI 的 o1-pro 模型。目前，该模式通过 Gemini API 向可信测试者开放，Google 正在进行进一步的安全评估，计划未来向更多用户推出。
Deep Think 特别适合需要深度分析的场景，如复杂数学问题、编程任务或多模态推理（结合文本、图像和音频的分析）。

Deep Research 与 Canvas：智能研究与创作

Deep Research：个性化研究助手
Deep Research 功能升级后，允许用户上传私有 PDF 或图像，与公开数据结合生成综合研究报告。例如，市场分析师可上传内部销售数据，结合公开市场趋势生成分析报告。未来，Deep Research 将支持从 Google Drive 和 Gmail 提取信息，进一步提升研究效率。
Canvas：创意工作空间
Canvas 是 Gemini 应用中的创作平台，新增了交互式信息图表、测验和 45 种语言的音频概述生成功能。结合 Gemini 2.5 Pro 的代码生成能力，用户可通过简单描述快速构建应用原型，大幅降低软件开发的门槛。

Chrome 集成与多终端扩展

Gemini 现已集成至 Chrome 浏览器，美国地区的 Google AI Pro 和 Ultra 订阅用户可通过右上角图标直接访问。Gemini 可总结网页内容、回答相关问题，并计划未来支持跨标签操作和自动导航功能。
此外，Gemini 正在扩展到更多终端：

Wear OS：支持智能手表上的本地化交互，如运动指导或提醒设置。
Android Auto：通过多轮对话理解复杂指令，如“找到途经充电站的邮局路线”。
Google TV 和 XR 设备：提供基于自然语言的内容推荐和虚实交互支持。

Google AI Ultra 订阅计划

Google 推出了全新的 Google AI Ultra 订阅计划，月费 249.99 美元，面向需要高使用限额和优先体验新功能的用户。该计划包括：

Gemini 2.5 Pro 的 Deep Think 模式。
Veo 3 和 Flow 视频工具。
30TB 的 Google Drive、Photos 和 Gmail 存储空间。
YouTube Premium 订阅。
Project Mariner 支持的代理工具，助力自动化任务处理。

总结

Google I/O 2025 展示了 Gemini 从聊天工具向全能 AI 平台的转型。通过 Gemini Live 的视觉交互、Imagen 4 和 Veo 3 的多媒体生成、Deep Think 的高级推理，以及与 Google 生态系统的深度整合，Gemini 正重新定义人机交互的未来。无论是开发者、创意工作者还是普通用户，都能从中找到适合自己的功能。
想了解更多？访问 (https://gemini.google.com/) 体验最新功能，或在 Google I/O 2025 官方 YouTube 频道查看完整 keynote 视频！