我花了一个月时间做了一款开源语音输入法 Typeflux，希望让每个人都能用上 Typeless 级别的体验

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

爱意满满的作品展示区。

事情要从一篇产品体验说起。

年初第一次用到 Typeless，被它的效果震惊了。它能把你口语化、零散的表达转换成结构清晰的专业内容，用起来像是给大脑装了个翻译器。但它太贵了——按年订阅每月 12 美金，按月订阅要 30 美金。

当时我就想：能不能做一个自己的版本？

然后花了一个下午让 Codex 给我搭了个基本框架，居然跑起来了。但因为有其它项目在忙，就搁置了。

直到 3 月底，X 上突然涌现了大量关于语音输入法的讨论，闪电说、西瓜说、智谱语音输入法……那个时间节点让我重新把这个项目捡了起来。

其中智谱语音输入法（AutoGLM）的"人设"功能给了我很大启发——能为不同场景配置不同的指令集和写作风格，这个设计被我借鉴到了 Typeflux 的 Persona 系统里。在这里也记一笔致敬，他们是先把这个想法做成成熟产品的人。

最初我以为花一两天就能跑通。结果发现，做一个"能用的原型"和做一个"可以给别人用的产品"之间，差的是一个月的废寝忘食。

到今天，我终于把它发布出来了。

Typeflux 是什么？

一款开源的 macOS 菜单栏语音输入工具。按住快捷键说话，松开就把文字输入到当前任何 App 的光标位置。

但我对它的定位不仅仅是语音输入法。

我希望它成为一款桌面端的语音 Agent——不仅能帮你输入内容，还能改写、润色、基于桌面内容问答，通过语音控制电脑完成工作。Agent 功能目前在 Beta ，还在持续迭代中，但这是我最终想去的方向。

Pasted image 20260426233623.png Pasted image 20260426233633.png Pasted image 20260426233657.png Pasted image 20260426233710.png

主要功能：

按住快捷键说话，松开自动插入当前光标位置，无需切换窗口
选中文字后用语音指令润色 / 翻译 / 缩写，LLM 直接替换选中内容
STT 支持：Apple Speech 、Whisper API / Groq 、本地模型（ SenseVoice Small / WhisperKit Medium/Large / Qwen3-ASR ）、阿里云实时 ASR / Qwen ASR 、豆包实时 ASR 、Google Cloud Speech 、多模态 LLM 、Typeflux Cloud
LLM 支持：OpenAI 兼容接口（ 15+ 提供商：OpenAI 、Anthropic 、Gemini 、DeepSeek 、Kimi 、Qwen 、Zhipu 、MiniMax 、xAI 、Groq 等）+ Ollama 本地模型
完全本地推理可选（本地语音模型 SenseVoice Small / WhisperKit Medium/Large / Qwen3-ASR + Ollama 本地大模型），不需要任何 API Key ，隐私友好
Persona 系统：为不同场景配置不同的指令集（设计灵感来自智谱语音输入法的人设功能）
历史记录：每次对话存档，可回放音频、重新转录

关于 Typeflux Cloud：

同时上线了 Typeflux Cloud ，提供云端语音和大模型服务。早期测试阶段，目前完全免费。

后续如果推出会员服务，也会定价非常亲民。不想折腾的朋友直接注册账号，开箱即用。

核心功能会一直开源，始终支持你自己配置任意语音模型和大语言模型，这是项目的根本基石，不会改变。

项目地址： https://github.com/mylxsw/typeflux
官方网站： https://typeflux.app

我现在是全职独立开发者（开发的一些好玩儿的东西我会在这里发布，欢迎关注），这个项目也是我目前最重要的方向。欢迎大家试用、提问题、给建议。一起把它做好。

语音输入法

开源

agent

38 replies • 2026-04-27 14:03:31 +08:00

getadoggie

6h 18m ago via iPhone

支持一下

xiafuxin

6h 9m ago

前排支持，我觉得语音输入是 ai 时代的一个刚需。希望 op 能够越做越好！

Echo28

6h 8m ago via iPhone

typeless 引导印象太深刻了，都操作了至少 5 分钟，价格也是真贵

mylxsw

6h 4m ago

@getadoggie 谢谢支持

mylxsw

6h 4m ago

@xiafuxin 谢谢支持

mylxsw

6h 3m ago

@Echo28 而且还不能跳过引导，必须做完🤣

xyovo999

6h 3m ago

支持

mylxsw

6h 1m ago

@xyovo999 感谢支持

1bo

5h 11m ago via Android

没有 windows 版本，遗憾。

capric

5h 8m ago

请问是实时识别吗，还是像微信语音那样按住说完松开再识别

AEDaydreamer

5h 5m ago

目前 typeless8000 字够用, 不过还是下载试试, 同时我觉得识别首尾吞字也是一个很细节的体验. 有些软件做的一般.

Crazy07

5h 2m ago

豆包测试版已出

mylxsw

5h 1m ago

@capric 暂时没有，后面如果 Mac 版本稳定了考虑开发 Windows 版本

mylxsw

5h 0m ago

@capric 分为两个阶段：语音识别支持实时，但是后面的大语言模型改写是要等识别完后再开始的

mylxsw

5h 0m ago

@AEDaydreamer 有任何问题欢迎反馈😄

mylxsw

4h 59m ago

@Crazy07 现在做语音输入的厂家挺多的，Codex 也支持语音输入了🤣

kaishi123

4h 52m ago

非常不错。不过有没有类似功能的安卓版输入法？

mylxsw

4h 45m ago

@kaishi123 Typeless 官方是支持安卓版的，用起来还不错

hoor

4h 44m ago

typeless 的平替版，使用中，看看效果

jeremyding

4h 30m ago

用于语音识别性价比和准确度都比较高的模型有哪些呀

AEDaydreamer

4h 24m ago

@mylxsw 目前发现识别完成后貌似不能退出 macos 的 microphone 模式, 会导致其他软件的声音怪怪的.

mylxsw

3h 48m ago

@AEDaydreamer 哈喽，方便帮提个 issue 不？详细说说怎么复现，或者直接加我微信 mylxsw 我们聊聊

https://github.com/mylxsw/typeflux/issues/new

mylxsw

3h 44m ago

@jeremyding 本地 SenseVoice, Whisper ，远程 API 用阿里和豆包的实时语音转写

mylxsw

3h 44m ago

@hoor 有问题欢迎反馈

teaguexiao

2h 36m ago

本地跑 SenseVoice Small 延迟很低，中文识别率也够用，M 系列芯片基本无压力。想要更准的话豆包实时 ASR 是个好选择，价格比 Whisper API 便宜不少。

trio

2h 13m ago

已赞，已添加 Issue-希望增加词典管理的功能。

🐶 昨天在做 Typeless 增强管理工具，功能就是词典管理以及历史记录的查询增强。在这里顺便安利一下～ https://github.com/penwyp/TypeLens

bigdogbigpig

PRO

2h 3m ago

https://github.com/yetone/voice-input-src

claude \
--dangerously-skip-permissions \
--output-format=stream-json \
--verbose \
-p "请实现一个 macOS menu-bar 语音输入法应用（ Swift ，macOS 14+），具体要求：

1. 按住 Fn 键录音，松开后将转录文字注入当前聚焦的输入框。优先使用流式转录（ Apple Speech Recognition framework ）。Fn 键通过 CGEvent tap 全局监听，需抑制 Fn 事件传递以防止触发 emoji 选择器。
2. 默认语言必须为简体中文（ zh-CN ），确保开箱即用就能识别中文输入。同时在菜单栏提供语言切换选项（英语、简体中文、繁体中文、日语、韩语）。语言选择存储在 UserDefaults 中。
3. 录音时在屏幕底部居中显示一个特别优雅精致的无边框胶囊状悬浮窗，不要有红绿灯和 titlebar 。使用 NSPanel （ nonactivatingPanel ）+ NSVisualEffectView （.hudWindow 材质），高度足够（ 56px ，圆角半径 28px ），包含：
- 左侧 5 根竖条波形动画（ 44×32px ），必须由实时音频 RMS 电平驱动（不要用写死的假动画），说话声音大波形就大、安静时波形就小。各竖条权重为 [0.5, 0.8, 1.0, 0.75, 0.55] 形成自然的中间高两侧低效果，平滑包络（ attack 40%、release 15%），每根竖条添加 ±4% 随机抖动增加有机感。波形要足够大，清晰可见。
- 右侧文字标签（弹性宽度 160-560px ）实时显示转录文本，胶囊随文字变多而弹性变宽
- 入场弹簧动画（ 0.35s ）、文字宽度平滑过渡（ 0.25s ）、退场缩放动画（ 0.22s ）
4. 文字注入使用剪贴板 + 模拟 Cmd+V 粘贴方式，注入前需检测当前输入法：如果是 CJK 输入法，先临时切换到 ASCII 输入源（ ABC/US 键盘）再粘贴，粘贴完成后恢复原输入法，防止中文输入法拦截 Cmd+V 。注入完成后恢复原剪贴板内容。
5. 接入 LLM 来提升语音识别的准确率，尤其是中英文混杂的情况下。通过 OpenAI 兼容 API （可配置 API Base URL 、API Key 、Model ）对转录文本进行 refine 。LLM 的 system prompt 要求非常保守地纠错：只修复明显的语音识别错误（如中文谐音错误、英文技术术语被错误转为中文如「配森」→「 Python 」、「杰森」→「 JSON 」），绝对不要改写、润色或删除任何看起来正确的内容，如果输入看起来正确则必须原样返回。
6. 在菜单栏提供 LLM Refinement 子菜单，包含启用/禁用开关和 Settings 入口。Settings 窗口包含 API Base URL 、API Key 、Model 三个输入框，API Key 输入框要能完全清空，以及 Test 和 Save 按钮。松开 Fn 键后如果 LLM 已启用且已配置，悬浮窗显示 Refining... 状态，等 LLM 返回后再注入最终文本。
7. 应用以 LSUIElement 模式运行（仅菜单栏图标，无 Dock 图标）。使用 Swift Package Manager 构建，提供 Makefile （ build/run/install/clean ），构建产物为签名的 .app bundle 。"

mylxsw

1h 53m ago

@trio 谢谢支持

mylxsw

1h 53m ago

@bigdogbigpig 👍