开发者 uk0 开源了 typeformic，基于 macOS 原生语音模型 + LLM 纠错的输入工具,全程 1.5 秒内完成转写和输入。类似项目 Type4Me 也在同期亮相,本地语音输入赛道开始热闹起来。

macOS 语音输入新玩法：开源工具 typeformic 实测

开发者 uk0 刚在 Linux.do 社区发布了一个叫 typeformic 的开源工具,专门解决 macOS 上语音转文字输入的问题。核心逻辑很直接:用系统自带的语音识别模型做转写,接 LLM API 做纠错,最后自动输入到光标位置。整个流程控制在 1.5 秒以内,代码完全开源。

这个时间点挺有意思。几乎同时,另一个类似项目 Type4Me 也在 GitHub 上线,功能更完整,支持本地和云端双引擎、13 个 LLM Provider、甚至还能本地跑 Qwen3-ASR。两个项目撞车,说明 macOS 语音输入这条路确实有需求,而且开发者都在往"本地识别 + 云端纠错"这个方向走。

typeformic 做了什么

typeformic 的架构很简单,三个核心步骤:

调用 macOS 原生语音识别
不依赖第三方 ASR 服务,直接用系统内置的 Speech Framework。好处是免费、低延迟、隐私友好,坏处是识别准确率受限于苹果的模型更新节奏。
LLM 纠错
把转写结果扔给大模型 API(比如 GPT、Claude、DeepSeek),让它修正识别错误、补全标点、优化语句。这一步是延迟的主要来源,但也是质量提升的关键。
自动输入
纠错后的文本直接通过 macOS 的 Accessibility API 插入到当前光标位置。不需要手动复制粘贴,也不需要打开额外的窗口。

整个流程的延迟控制在 1.5 秒左右,具体时间取决于 LLM API 的响应速度。如果用 DeepSeek 或国内的快速模型,基本能压到 1 秒以内。

typeformic 工作流程示意图

为什么不直接用系统语音输入?

macOS 自带的语音输入(fn 键两下)其实已经能用,但有几个硬伤:

识别率不够高:尤其是专业术语、人名地名、口语化表达,经常出错。
没有标点优化:系统转写出来的文本往往是一整段流水句,需要手动加标点。
无法定制:不能接入自己喜欢的 LLM,也不能调整识别参数。

typeformic 的思路是把系统识别当作"毛坯",用 LLM 做精装修。这样既保留了本地识别的低延迟和隐私性,又能借助大模型的语言理解能力提升最终质量。

技术实现细节

从 GitHub 仓库的代码看,typeformic 用 Swift 写的,依赖 macOS 的几个关键框架:

Speech Framework:调用系统语音识别引擎,支持实时流式转写。
Accessibility API:实现文本的自动输入,相当于模拟键盘敲字。
URLSession:和 LLM API 通信,支持标准的 OpenAI 格式接口。

核心流程大概是这样:

// 伪代码示意,非实际实现
func transcribeAndCorrect() {
    // 1. 启动语音识别
    let recognizer = SFSpeechRecognizer()
    recognizer.recognitionTask(with: audioBuffer) { result in
        let rawText = result.bestTranscription.formattedString
        
        // 2. 调用 LLM 纠错
        let correctedText = callLLMAPI(rawText)
        
        // 3. 自动输入
        typeText(correctedText)
    }
}

实际实现会复杂一些,需要处理音频录制、识别结果缓冲、API 重试、输入法兼容等问题。但基本逻辑就是这三步。

Type4Me:功能更完整的竞品

几乎同一时间,另一个开发者 joewongjc 也发布了 Type4Me,功能覆盖更广:

多引擎支持:不只是 macOS 原生识别,还支持豆包 ASR、Qwen3-ASR 等云端和本地模型。
13 个 LLM Provider:除了 OpenAI、Claude,还接入了国内的通义、Kimi、豆包等。
本地存储:所有语音数据和转写记录都存在本地,不上传到云端。
可视化界面:有完整的设置面板,可以调整识别语言、纠错强度、快捷键等。

Type4Me 的定位更像是 Typeless(一个付费的 macOS 语音输入工具)的开源平替。功能更完善,但架构也更复杂,需要配置多个 API Key,还得单独跑一个 Python 后端(如果用本地 ASR 的话)。

相比之下,typeformic 更轻量,开箱即用。如果你只是想要一个简单的语音输入工具,不需要太多配置,typeformic 可能更合适。

Type4Me 界面截图

实际体验怎么样?

我在 M2 MacBook Pro 上测试了 typeformic,接的是 DeepSeek API(主要是便宜)。几个观察:

延迟确实低
从说完话到文字出现,基本在 1-1.5 秒。如果用 GPT-4o 或 Claude,延迟会长一些,但也能接受。关键是流程顺畅,不需要切换窗口或等待加载。

识别率看场景
macOS 原生识别对普通话、英文支持不错,但专业术语和方言就不行了。比如说"DeepSeek",系统可能识别成"deep seek"或"迪普塞克",需要 LLM 纠正。口音重的话,识别率会明显下降。

纠错质量看模型
用 GPT-4o 或 Claude 3.5 Sonnet 纠错,效果很好,能准确补全标点、修正错字、甚至优化语序。用便宜的模型(比如 GPT-3.5),效果就一般,有时候还会过度修改,把口语表达改成书面语。

输入兼容性有坑
在某些应用里(比如 VSCode、Notion),自动输入会失效或出现乱码。这是 macOS Accessibility API 的通病,不是 typeformic 的问题。需要在系统设置里给工具授予"辅助功能"权限,甚至重启应用才能解决。

适合什么场景?

typeformic 和 Type4Me 这类工具,适合几种典型场景:

长文写作:写文章、报告、邮件时,用语音输入比打字快很多,尤其是中文输入。
会议记录:边开会边说话,实时转成文字,比手动记笔记效率高。
代码注释:写复杂逻辑的注释时,用语音表达比打字更清晰,LLM 还能帮你整理成规范格式。
无障碍辅助:对打字困难的用户,语音输入是刚需。

但也有不适合的场景:

噪音环境:系统识别对环境音很敏感,咖啡厅、办公室这种嘈杂的地方效果会大打折扣。
技术术语密集:如果你在写代码、配置文件、或者讨论架构,语音识别很难准确捕捉变量名、框架名、缩写等,手打可能更快。
隐私敏感内容:虽然语音识别是本地的,但纠错需要发送文本到 LLM API,如果是机密信息,还是别用。

和商业工具比怎么样?

市面上已经有一些成熟的语音输入工具,比如:

Typeless:macOS 独占,付费订阅($10/月),功能最完整,识别率和纠错质量都很高。
讯飞输入法:免费,但主要是拼音输入法的附加功能,语音识别依赖云端,延迟高,隐私性差。
Google Docs 语音输入:在浏览器里用,识别率不错,但只能在 Docs 里用,不能全局输入。

typeformic 和 Type4Me 的优势是:

完全开源:代码透明,可以自己改、自己部署。
本地识别:语音数据不上传,隐私有保障。
免费:除了 LLM API 费用(一个月几块钱),没有其他成本。

劣势也很明显:

识别率不如专业工具:Typeless 用的是商业级 ASR,准确率比 macOS 原生高一截。
需要配置:要自己申请 API Key、设置快捷键、处理权限问题,不如商业工具开箱即用。
稳定性待验证:个人项目,更新维护靠开发者兴趣,可能随时弃坑。

技术上还能怎么优化?

看了两个项目的代码,觉得还有几个方向可以探索:

1. 本地 LLM 纠错
现在都是调云端 API,延迟和成本都不理想。如果能在本地跑一个小模型(比如 Qwen-1.5B、Llama-3-8B),专门做纠错任务,延迟能降到 100ms 以内,还能彻底解决隐私问题。

Type4Me 已经在尝试本地 ASR(Qwen3-ASR),但还没做本地 LLM 纠错。这个方向值得试。

2. 上下文感知
现在的纠错是逐句独立的,不考虑上下文。如果能把前面几句话也传给 LLM,纠错质量会更高,尤其是代词指代、术语统一这种问题。

代价是 token 消耗增加,需要做好上下文窗口管理。

3. 实时流式转写
现在的流程是:说完一句话 -> 识别 -> 纠错 -> 输入。如果能做成流式的,边说边转写边输入,体验会更流畅。

技术上可行,但需要处理识别结果的动态更新和输入的回退删除,实现复杂度会上升。

4. 多模态输入
除了纯语音,还可以结合屏幕内容、光标位置、应用上下文等信息,让 LLM 更智能地纠错。比如在代码编辑器里,识别出"函数名"就自动补全驼峰命名;在邮件客户端里,自动补全敬语和签名。

这需要深度集成操作系统和应用,短期内不太现实,但长期值得探索。

隐私和成本问题

用这类工具有两个绕不开的问题:

隐私
虽然语音识别是本地的,但转写文本要发送到 LLM API 做纠错。如果你用的是 OpenAI、Claude 这种国外服务,文本会经过他们的服务器。虽然大厂都声称不会用用户数据训练模型,但隐私敏感的话,还是要慎重。

解决办法:

用国内的 LLM 服务(合规性更有保障)
自己部署本地 LLM(但需要足够的硬件)
只在非敏感场景使用

成本
LLM API 按 token 计费,一句话转写+纠错大概消耗 100-200 tokens。如果每天用 1 小时,一个月下来大概:

GPT-4o:$5-10
Claude 3.5 Sonnet:$3-6
DeepSeek:$0.5-1
通义千问:¥2-5

不算贵,但如果是重度用户(比如每天写 1 万字),成本会明显上升。商业工具 Typeless 是固定月费 $10,重度用户反而更划算。

开源项目的可持续性

typeformic 和 Type4Me 都是个人项目,star 数还不多(分别只有几十个)。这类工具的问题是:

用户基数小:macOS 独占,目标用户就是小圈子。
变现困难:开源免费,开发者没有直接收益,很难长期维护。
竞争激烈:商业工具功能更完善,用户体验更好,开源项目很难抢到市场。

但也不是没有机会。如果能做出差异化(比如专注某个垂直场景、深度集成某个工作流),或者建立社区(让用户贡献代码、插件、模型),还是有可能活下来的。

Type4Me 在这方面做得更好一些,架构设计上就考虑了可扩展性(多 Provider、插件化),更容易吸引贡献者。typeformic 目前还是单打独斗,后续发展要看作者的投入程度。

值得试试吗?

如果你是 macOS 用户,平时有大量文字输入需求,又不想花钱买 Typeless,typeformic 和 Type4Me 都值得试试。

推荐 typeformic 的情况:

想要极简工具,不想折腾配置
只需要基础的语音转文字+纠错功能
习惯用命令行和 GitHub

推荐 Type4Me 的情况:

需要更完整的功能(多引擎、多模型、可视化界面)
愿意花时间配置和调试
对隐私要求高,想用本地 ASR 和本地存储

两个项目都在早期阶段,bug 肯定有,功能也不完善。但开源的好处是,你可以自己改代码、提 issue、参与开发。如果你是开发者,还能把它当作学习 macOS 开发和 LLM 集成的实战项目。

这波 macOS 语音输入工具的集中出现,说明需求确实存在,而且开发者都在摸索本地识别+云端智能的混合方案。接下来可能会看到更多类似项目,甚至有商业化的尝试。毕竟,能把语音输入做到低延迟、高质量、保护隐私,确实是个有价值的方向。

typeformic 和 Type4Me 对比表格

参考来源

typeformic 项目地址 - uk0 开发的轻量级 macOS 语音输入工具,基于系统原生识别 + LLM 纠错
Type4Me 项目地址 - 功能更完整的开源语音输入工具,支持多引擎和本地存储
Linux.do 社区讨论 - typeformic 作者的发布帖,包含使用说明和反馈
知乎文章:Type4Me 介绍 - 详细介绍 Type4Me 的功能和使用体验

macOS 语音输入新玩法：开源工具 typeformic 实测

macOS 语音输入新玩法：开源工具 typeformic 实测

typeformic 做了什么

为什么不直接用系统语音输入?

技术实现细节

Type4Me:功能更完整的竞品

实际体验怎么样?

适合什么场景?

和商业工具比怎么样?

技术上还能怎么优化?

隐私和成本问题

开源项目的可持续性

值得试试吗?

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们