Google I/O 2025:Gemini 全新功能发布,AI 助手迈向新高度

Google I/O 2025:Gemini 全新功能发布,AI 助手迈向新高度
惜溯2025 年 5 月 20 日至 21 日,Google 在山景城的海岸线圆形剧场举办了年度开发者大会 Google I/O 2025。本次大会以人工智能为核心,重点展示了 Gemini 系列模型的重大升级和全新功能。从更智能的推理模式到多模态交互,Gemini 正从单一的聊天机器人演变为一个全能的 AI 工作平台,目标是成为“最个性化、最主动、最强大的 AI 助手”。以下是本次大会中 Gemini 的主要新功能介绍。
Gemini Live:免费开放视觉交互功能
Gemini Live 是 Google 推出的实时交互功能,现已免费向所有 Android 和 iOS 用户开放。通过手机摄像头或屏幕共享,用户可以与 Gemini 进行实时对话,处理从日常生活问题到复杂任务的各种场景。例如,你可以对准家中的电器询问维修方法,或通过屏幕共享获取手机设置的指导。据 Google 统计,Gemini Live 的平均对话时长是纯文本对话的五倍,显示出用户对这一功能的喜爱。
Imagen 4 与 Veo 3:图像与视频生成新突破
- Imagen 4:更快、更精细的图像生成
Gemini 集成了全新图像生成模型 Imagen 4,相较于 Imagen 3,其生成速度提升最高 10 倍,且能呈现更逼真的细节,如布料纹理、水滴效果和动物毛发。Imagen 4 不仅适用于 Gemini 应用,还支持 Google Workspace 中的 Slides、Vids 和 Docs,适合创建专业演示文稿或社交媒体图形。 - Veo 3:全球首款支持音效的视频生成模型
Veo 3 是 Google 最新视频生成模型,首次原生支持生成背景音效、环境噪音和角色对话。用户可通过简单文本提示生成带有音效的 8 秒视频,例如城市街景的喧嚣声或角色间的对话。目前,Veo 3 已在 Google AI Ultra 订阅计划中提供,未来将根据用户反馈扩展语言支持和功能。
此外,Google 推出了视频编辑工具 Flow,整合 Imagen 4 和 Veo 3 的能力,支持用户从文本提示生成完整视频内容,适合创意工作者快速制作高质量视频。
Deep Think 模式:增强推理能力
Gemini 2.5 Pro 引入了实验性 Deep Think 模式,这是一种高级推理功能,允许模型在回答复杂问题前评估多个假设。测试结果显示,Deep Think 在 2025 USAMO 数学竞赛和 LiveCodeBench 编程基准测试中表现卓越,超越了 OpenAI 的 o1-pro 模型。目前,该模式通过 Gemini API 向可信测试者开放,Google 正在进行进一步的安全评估,计划未来向更多用户推出。
Deep Think 特别适合需要深度分析的场景,如复杂数学问题、编程任务或多模态推理(结合文本、图像和音频的分析)。
Deep Research 与 Canvas:智能研究与创作
- Deep Research:个性化研究助手
Deep Research 功能升级后,允许用户上传私有 PDF 或图像,与公开数据结合生成综合研究报告。例如,市场分析师可上传内部销售数据,结合公开市场趋势生成分析报告。未来,Deep Research 将支持从 Google Drive 和 Gmail 提取信息,进一步提升研究效率。 - Canvas:创意工作空间
Canvas 是 Gemini 应用中的创作平台,新增了交互式信息图表、测验和 45 种语言的音频概述生成功能。结合 Gemini 2.5 Pro 的代码生成能力,用户可通过简单描述快速构建应用原型,大幅降低软件开发的门槛。
Chrome 集成与多终端扩展
Gemini 现已集成至 Chrome 浏览器,美国地区的 Google AI Pro 和 Ultra 订阅用户可通过右上角图标直接访问。Gemini 可总结网页内容、回答相关问题,并计划未来支持跨标签操作和自动导航功能。
此外,Gemini 正在扩展到更多终端:
- Wear OS:支持智能手表上的本地化交互,如运动指导或提醒设置。
- Android Auto:通过多轮对话理解复杂指令,如“找到途经充电站的邮局路线”。
- Google TV 和 XR 设备:提供基于自然语言的内容推荐和虚实交互支持。
Google AI Ultra 订阅计划
Google 推出了全新的 Google AI Ultra 订阅计划,月费 249.99 美元,面向需要高使用限额和优先体验新功能的用户。该计划包括:
- Gemini 2.5 Pro 的 Deep Think 模式。
- Veo 3 和 Flow 视频工具。
- 30TB 的 Google Drive、Photos 和 Gmail 存储空间。
- YouTube Premium 订阅。
- Project Mariner 支持的代理工具,助力自动化任务处理。
总结
Google I/O 2025 展示了 Gemini 从聊天工具向全能 AI 平台的转型。通过 Gemini Live 的视觉交互、Imagen 4 和 Veo 3 的多媒体生成、Deep Think 的高级推理,以及与 Google 生态系统的深度整合,Gemini 正重新定义人机交互的未来。无论是开发者、创意工作者还是普通用户,都能从中找到适合自己的功能。
想了解更多?访问 (https://gemini.google.com/) 体验最新功能,或在 Google I/O 2025 官方 YouTube 频道查看完整 keynote 视频!









