阿里千问PC端上线AI语音输入快捷键直接指挥AI干活

5月7日，阿里千问在PC端上线AI语音输入，快捷键即可在任意桌面应用唤起。长按转写、双击下指令，千问想做的不是一个语音打字工具，而是跨应用的AI任务调度入口。

5 月 7 日，阿里千问在 PC 端悄悄上线了一项新能力：AI 语音输入。没有发布会，没有铺天盖地的宣传片，一个快捷键，一条更新日志，功能就这么全量开放了，所有用户免费用。

但这东西如果只当成"语音打字"来看，基本等于白上线。它的野心明显不止于此。

一个被藏在"输入法"名字里的任务调度器

先看千问这次给出的两组快捷键设计，很能说明产品团队在想什么：

按住快捷键（Windows 是右 Alt，Mac 是右 Command，支持自定义）：进入语音输入模式。说一段话，系统自动去掉"嗯"、"那个"、"就是"这些口语冗余，纠正口误，按语义断句，把一串语音流整理成结构化的文本，直接落到当前光标所在的输入框里。
双击快捷键：切到 AI 指令模式。这时你说的不是要被写下来的内容，而是要让 AI 去做的事——检索信息、起草邮件回复、翻译一段文档、生成一份会议纪要，都可以。

差别看起来只是"按住"和"双击"，背后逻辑完全是两件事。前者是把语音翻译成文字，后者是把语音翻译成任务。

这也解释了为什么叫"千问语音输入法"这个名字有点误导——用户第一反应会拿它跟讯飞输入法、搜狗语音的那一套比。但实际体验下来，它更像是一个被伪装成输入法的 AI 入口，借输入法这个形态，绕过了"必须打开千问客户端"这道门槛。

千问 PC 端语音输入唤起浮层的界面示意，显示在文档应用上方

为什么要做成"跨应用"的？

过去一年，国内外 AI 助手的一个共同困境是：用户得切换上下文。你在写文档，想让 AI 改一段话，得复制出来，打开 ChatGPT 或者千问网页版，贴进去，生成，再复制回来，粘贴。这套流程走一遍，灵感都凉了。

千问这次的解法是把 AI 嵌到系统层面。不管你当前在 Word、飞书文档、Chrome、微信还是 VS Code，按一下快捷键，一个浮层弹出来，说完话，结果直接插到你要的位置。整个过程不需要跳应用。

这思路其实跟 macOS 上那个火过一阵的 Wispr Flow，还有更早的 Raycast AI 是一路的：不做独立的 AI 应用，做系统级的 AI 快捷入口。区别是 Wispr Flow 在中文场景下识别和整理能力一直差点意思，而千问这边，中文语料和语言模型本来就是自家的主场。

"去口语化"这件事，比想象中重要

如果你用过任何语音转文字工具就知道，原始转写的东西基本不能直接用。人说话是带噪音的——"嗯那个我觉得吧这个事情呢其实是这样的"，转成文字就是一坨垃圾。大部分工具止步于此，留给用户自己手动清理。

千问语音输入法默认就会做三件事：

去语气词：嗯、啊、就是、那个、对吧，这类冗余直接清掉
纠错：同音字、口误、漏字根据上下文补齐修正
格式化：长段落自动断句，列举内容自动转成条目，代码片段保留结构

对开发者来说最实用的场景可能是写注释、写 commit message、写技术文档。一边盯着代码一边口述逻辑，比键盘敲得快得多，而且不用反复切换中英文。之前我自己用讯飞+手动整理的流程，一段 300 字的技术描述至少要改两遍，现在基本可以一次过。

指令模式能干什么

双击快捷键进入指令模式之后，语音不再是"要写的内容"，而是"要做的事"。几个典型场景：

在 Chrome 里看一篇英文论文，双击快捷键："帮我总结这篇文章的三个核心贡献"——结果直接显示在浮层里
在微信里收到一条消息，不想打字，双击："用专业一点的语气回复他说我周四下午有空"——生成好的文本可以一键发送
写代码时卡住了：双击："给我一段 Python 的异步 HTTP 请求池实现，带超时重试"——代码段直接插入编辑器
写周报：双击："根据我这周的 Git 提交记录生成周报初稿"——接入本地上下文后自动整理

这里的关键在于，指令模式做的是意图理解，不是关键词匹配。你不需要学特定的唤醒词或者指令格式，用大白话说就行。模型会自己判断你是要检索、要生成、要翻译，还是要改写。

跟谁在抢市场？

这一块现在挺热闹。把能放到一起对比的产品列一下：

产品	形态	中文能力	AI 指令
千问语音输入法	系统级浮层	强	原生支持
讯飞输入法	传统输入法+AI	强	需切换 AI 助手
搜狗输入法	传统输入法	强	基础对话
Wispr Flow	系统级浮层	一般	支持但以英文为主
Raycast AI	启动器	中文一般	强

千问的打法是"系统级浮层 + 强中文 + 原生 AI 指令"三者合一。短期内，这个生态位在国内 PC 端几乎没有对手。讯飞的 AI 助手是加装式的，打开流程比千问多两步；Raycast 在国内网络和中文语料上都有劣势；Wispr Flow 是纯海外产品。

当然，要说问题也有。目前千问指令模式的任务完成度，很大程度上取决于应用有没有做适配——能不能读到当前页面内容、能不能把结果回写进去。这套能力往后走，本质上是一个类似 MCP（Model Context Protocol）的协议问题。千问如果真想把这个做成"AI 任务调度中枢"，下一步大概率要开放给第三方应用接入。

一点判断

语音作为 AI 的主要输入方式，被预言了很多年。但在 PC 上，它一直没真正起来，原因是传统语音输入的产出不够好——转写质量差、整理麻烦、还得切工具——导致键盘始终更高效。

大模型改变了这个天平。当语音不再只是"转文字"，而是"转意图"，键盘在某些任务上就开始处于劣势了。尤其是那些本来就需要"想清楚再写"的任务：邮件、文档、总结、提问。口述的速度是打字的 3 倍，而 AI 正好能补上口述不够精炼这块短板。

千问这次的上线，在产品形态上不算首创，但放在国内 PC 端的中文场景里，目前是完成度最高的一个。而且它免费、全量开放、不用注册复杂账号——这个门槛低到几乎没有理由不装一个试试。

真正值得关注的是再往后的演进：指令模式能不能接入更多应用上下文？能不能跟本地文件、浏览器标签页、IDE 里的项目打通？这些做到了，"用嘴干活"才算真正成立。否则它还是一个更好用的语音输入法，不是 AI 操作系统的雏形。

从今天这个版本看，千问团队明显是奔着后者去的。

参考来源

IT之家：用嘴干活，阿里千问 PC 端上线 AI 语音输入功能 — 功能细节、快捷键设计和使用场景的原始报道
知乎专栏：10 款 AI 语音输入神器推荐 — 市场上同类产品的横向参考

千问PC端上线语音输入：按住右Alt就能指挥AI干活