Android 17 正式发布:Gemini Omni 进场,气泡栏改写多任务

Google 凌晨推送 Android 17 正式版和 Wear OS 7,Pixel 系列首发尝鲜。这一轮 Pixel Drop 一次性把 Gemini Omni、Lyria 3、AudioLM 三个前沿多模态模型搬到设备上,并用气泡栏重写了 Android 的多任务交互。
Google 在当地时间周二凌晨正式推送了 Android 17 和 Wear OS 7,Pixel 系列设备照例第一波尝鲜。和往年不同的是,这次系统更新和 Pixel Drop 几乎是同步落地的——Google 直接把刚出炉的 Gemini Omni(多模态)、Lyria 3(音乐生成)、AudioLM(语音到语音翻译)三个模型塞进了系统底层。
这是 Google 一贯的打法:用 Android 和 Pixel 当试验田,把最前沿的模型能力先在自己人身上跑通。对比一下,苹果定的节奏是 9 月份才公开新版 Siri 和 iOS 27,节奏整整慢了一个季度。Google 这次几乎是用整个 Android 生态告诉苹果——AI 的窗口期是用周来计算的,不是用财年。

Gemini Omni 上车:多模态从云端搬进系统
这次最值得拎出来说的是 Gemini Omni。它不是一个单纯被塞进“助手”入口的模型,而是接管了 Android 17 里几乎所有需要跨模态理解的位置——相机、相册、消息、系统级搜索,甚至视频剪辑器。
Google 在发布会上演示了一个典型场景:用户在 Gemini 对话框里直接把一段视频拖进去,让模型帮忙剪掉前 5 秒、加一段背景音乐、再生成一句开头旁白。整个过程一句话搞定,剪完直接回写到相册。以前这种操作至少要跳三四个 App,现在 Gemini Omni 在系统层把视频流、音频流和文本指令打通了。
对开发者来说更有意思的一点是,Gemini Omni 提供了统一的 multimodal context window——文本、图像、音频、视频都可以在同一个上下文里推理。这意味着第三方 App 不再需要分别调用 vision、speech、generation 三套接口,调一次就行。
OpenAI Hub 已经第一时间适配了 Gemini Omni,沿用 OpenAI 兼容格式,开发者可以直接用熟悉的 SDK 调用:
from openai import OpenAI
client = OpenAI(
base_url="https://openai-hub.com/v1",
api_key="your-key"
)
response = client.chat.completions.create(
model="gemini-omni",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "帮我把这段视频前5秒去掉,并描述剩余内容"},
{"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}}
]
}
]
)
print(response.choices[0].message.content)
用过 GPT-5.4 或者 Claude 多模态接口的开发者会很熟悉,几乎不用改代码就能切过去——这是 Hub 一直在做的事,一个 Key 调所有主流模型,国内直连,免得为了适配各家 SDK 来回折腾。
Lyria 3:把“音乐生成”这件事彻底做轻
Lyria 系列在 Google 内部其实已经迭代到第三代。Lyria 1 还停留在 demo 阶段,2 代主要给 YouTube Shorts 做配乐,到了 Lyria 3,Google 直接把它放进了 Gemini App,让普通用户也能用文本或图像生成完整音乐作品。
实测下来,Lyria 3 比上一代最大的进步在两点:
- 时长:从 30 秒延伸到接近 3 分钟,且具备完整的 intro/verse/chorus 结构
- 多模态 prompt:可以拖一张照片进去,让模型基于画面情绪作曲。试了张海边夕阳照,出来的是 Lo-Fi 风格,逻辑上挺合理
相比 Suno、Udio 那一类专门做音乐生成的初创,Lyria 3 的优势不在质量上——音质和编曲复杂度其实和 Suno v4 基本打平——而在入口。它直接长在 Gemini 应用里,对普通用户来说几乎零门槛。这是平台公司打初创公司最常用的打法:你做得再好,也敌不过被预装。
AudioLM 翻译:Pixel 10a 专属
AudioLM 这次的更新比较克制,只在 Pixel 10a 上启用。Google 把它定位成“语音到语音翻译”工具,主要场景是出国旅行和实时对话。
和市面上常见的“ASR + 机翻 + TTS”三段式流水线不同,AudioLM 是端到端的——它直接把源语言音频映射到目标语言音频,中间不显式生成文本。好处是保留了原说话人的音色、语气、停顿,听起来不像“机器翻译腔”,更接近真人同传。
但代价也很明显:它对算力的要求比传统方案高一个数量级,所以 Google 只敢在最新的 Pixel 10a 上启用。这是端侧大模型的一个典型困境——能力越接近端到端,对芯片的要求越苛刻,能享受到的用户面就越窄。

气泡栏:Android 终于在多任务上动刀了
抛开 AI 不谈,Android 17 在交互层面最大的改动是引入了 气泡栏(bubble bar)。
简单说,就是把你最近用过的 App 以气泡形式收纳到屏幕底部,可以拖拽、可以快切,也可以两个 App 并排成分屏。这个交互其实有点像 macOS 的 Dock + iPadOS 的 Stage Manager 的混合体。
这个改动看起来不起眼,但实际上是 Android 在折叠屏和大屏设备普及之后的一次系统性回应。过去 Android 在多任务上的方案一直比较散——分屏靠手势、悬浮窗靠 OEM 定制、最近任务卡片靠竖滑。气泡栏把这三件事拢到了一起,给开发者一个更稳定的多任务编程模型。
对应用开发者的影响有两个:
- 生命周期假设要变:你的 App 现在更可能长时间处于“非全屏但可见”的状态,UI 需要适应窄高布局
- 跨 App 拖拽场景增加:气泡栏鼓励用户在多个 App 之间拖图片、拖文本,开发者需要认真做 Drag & Drop 支持,否则用户会觉得你“跟系统割裂”
通讯与消息:把“代接留言”做成了系统功能
这次更新里有几个不太起眼但很实用的改动:
- 来电可以录制个性化语音留言,不接的时候自动播放给对方。听起来像是个小功能,但对于经常开会、不方便接电话的用户,这比生硬的语音信箱友好太多
- 之前在美国独占的 Take a Message(代接留言) 正式扩展到更多国家和地区。它的本质是 Google Assistant 帮你接电话、转写内容、把要点推送给你
- Quick Share 与 AirDrop 互通,并下放到 Pixel 8a 和 9a。这是一个相当政治化的动作——Google 在用兼容性的姿态主动撬动苹果的封闭生态,类似当年 iMessage 被监管层反复施压后才开放 RCS 的剧本
Pixel Watch:紧急检测正式落地
Wear OS 7 这一侧,重点是给 Pixel Watch 加上了车祸检测、跌倒检测和无脉搏检测。检测到异常会自动拨打当地紧急服务电话,并通知预设的紧急联系人。
这个能力 Apple Watch 已经做了好几年,Google 这一次终于补齐。背后用的是手表本身的加速度计、陀螺仪、光学心率传感器,结合一个端侧的小模型做判断。对智能手表这个品类来说,“健康+安全”已经基本盖过了“通知+健身”,成为最核心的卖点。
几点判断
通览下来,Android 17 这次升级有几个值得提醒的点:
第一,Google 把 Gemini 系列彻底当成系统底座来用了。 以前 Gemini 还是“一个 App”,现在它已经渗透到相机、相册、剪辑器、键盘、电话各个角落。这是 Apple Intelligence 一直想做但还没做到的事。
第二,Pixel 越来越像 Google 的 AI demo 机。 Pixel 10a 独占 AudioLM,Pixel Watch 独占紧急检测,这种“先在自家硬件上跑通”的策略说明 Google 还是把硬件销量当成 AI 战略的一部分,而不是一个独立业务。
第三,Android 在交互层的改革还没结束。 气泡栏只是一个开始,配合折叠屏、车载、XR 设备,Android 18 很可能会继续把窗口管理往“多模态、多任务、多设备”方向推。
第四,对开发者来说,现在是适配多模态的好时机。 Gemini Omni 之后,跨模态调用会成为标配。提前用 OpenAI Hub 这类聚合平台把代码写成可切换的,避免被某一家锁死,是更稳妥的姿势。
这场更新没有什么炸裂的新硬件、没有惊天动地的发布会,但它把一堆零散的前沿能力打包推进了上亿台设备。这种“润物细无声”的迭代,反而是 Google 最擅长的方式。
参考来源
- Android 17 正式发布:全新多任务工具上线 Gemini能力全面扩展 - linux.do - 完整介绍了 Android 17 与 Wear OS 7 的更新内容及 Pixel Drop 新增 AI 能力



