V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
mylxsw

花了一个多月时间做的开源语音输入法 Typeflux V0.2.0 已发布,希望让每个人都能用上 Typeless 级别的体验

  •  
  •   mylxsw ·
    mylxsw · 14h 57m ago · 469 views

    大家好,之前我在 V2EX 发过一次 Typeflux 的第一个版本。五一假期这几天,我基本都在连续加班改 Typeflux ,终于赶在假期结束后,把第二个版本 Typeflux 0.2.0 正式发布出来了。

    Typeflux 是一款开源的 macOS 菜单栏语音输入工具。按住快捷键说话,松开后自动把文字输入到当前 App 的光标位置。它也支持选中文本后用语音指令进行润色、改写、翻译、提问,以及通过人设配置不同场景下的表达风格。

    观看视频

    第一个版本发布之后,收到了不少朋友的反馈,也暴露出了一些比较影响体验的问题。

    比如:

    • 语音输入速度偏慢,说完之后还要等一会儿
    • 输入效果不够稳定,输出内容里偶尔会中英文混杂
    • 用户说话内容有时会被截断,结果不够完整
    • 邮箱注册时,有些用户收不到邮件验证码

    V0.2.0 围绕实时转写、界面体验、上下文理解、应用级 AI 配置和稳定性做了一次比较集中的升级,希望让语音输入真正变成一个可以每天顺手使用的工作流。

    这次最重要的变化:实时转写

    之前的转写流程更接近“录完一段音频,然后等待识别结果”。短句还好,稍微说长一点,等待感就会比较明显。

    V0.2.0 里,Typeflux 的音频转写流程已经升级为实时处理。你说话的过程中,Typeflux 会持续处理音频内容,不再需要等整段录音结束后才开始识别。

    实际体验上,会明显感觉到:

    • 录音后出结果更快
    • 长语音输入的等待感降低了很多
    • 转写反馈更及时
    • 本地模型和云端模型的整体体验都更顺滑

    这是这次版本里我最希望大家试一下的部分。语音输入这类工具,很多时候差的不是“能不能识别”,而是等待的那一两秒会不会打断思路。实时转写就是在解决这个问题。

    界面也重新打磨了一轮

    V0.2.0 对主要界面做了比较大的视觉和交互调整。

    product-image.png

    包括录音浮窗、Ask & Answer 、Persona 选择器、设置界面、登录窗口、菜单栏和新手引导,都重新整理过。整体会更轻、更干净,状态反馈也更清楚。

    比如:

    • 录音状态更直观
    • 处理过程更容易理解
    • Ask & Answer 更像自然的对话界面
    • 设置项的层级更清晰
    • 整体界面更统一

    更强的上下文理解

    Typeflux 现在会更努力地理解你当前正在做什么。

    无论你是在浏览器、编辑器,还是普通输入框中使用 Typeflux ,它都会尽量结合当前选中的文本、正在编辑的内容和应用环境,生成更贴近当前场景的结果。

    一些典型用法:

    • 选中一段文字后直接提问
    • 对当前输入内容进行润色、改写或翻译
    • 根据网页或编辑器中的上下文生成更准确的回答
    • 在 Ask 模式中保留当前选区和上下文

    我自己很常用的是:选中一段内容,然后直接问“这段话有没有问题”“帮我改得更自然一点”“翻译成英文但不要太机器”。这类场景下,上下文能力提升之后,结果会更像是在当前工作流里自然发生,而不是每次都要复制粘贴到另一个聊天窗口。

    应用级人设配置

    这是 V0.2.0 里另一个我很喜欢的功能。

    photo-7.png

    现在你可以为不同应用设置不同的使用方式。

    比如:

    • 在聊天软件里使用更自然、更口语化的表达
    • 在邮件客户端里使用更正式的表达
    • 在代码编辑器里使用更简洁的技术风格
    • 为不同 App 自动切换不同人设
    • 对某些 App 禁用特定人设
    • 针对不同工作场景使用不同参数和词汇表

    语音输入不是一个孤立场景。写 IM 、写邮件、写 issue 、写代码注释、写文档,对表达风格的要求都不一样。应用级配置就是希望 Typeflux 能更贴近你的实际工作环境,而不是所有地方都套同一套提示词。

    其它改进

    这次还做了不少体验和稳定性更新:

    • 词汇表体验增强:更适合维护人名、项目名、产品名、专业术语和常用表达,导入、搜索、排序和管理都更顺手
    • 应用内反馈上线:可以直接在 Typeflux 内提交反馈,并支持附带图片
    • 快捷键体验改进:优化了快捷键录制和显示,支持更多触发方式,也修复了一些修饰键相关问题
    • 历史记录与导出优化:历史音频播放体验更好,导出历史记录时可以选择保存位置
    • 自动更新更可靠:下载、验证和安装流程更稳定,减少更新失败或安装异常
    • Typeflux Cloud 体验优化:连接、路由和错误提示更清楚,也修复了部分用户收不到邮箱验证码的问题
    • 本地模型与兼容性改进:本地语音模型体验继续优化,同时改进了 Intel 版本发布支持

    此外,还修复了多个录音、转写、麦克风切换、界面显示、登录、更新和设置相关的问题。

    旧系统和 Intel Mac 支持

    这次也补了一块之前被忽略的事情:旧版本系统和不同芯片架构的兼容性。

    V0.2.0 对 macOS 14 、macOS 15 做了测试,希望更多还没有升级到最新系统的用户也能正常使用。同时,这次也增加了对 Intel 芯片 Mac 的发布支持。

    不过这里需要特别说明一下:Intel 芯片版本我目前还没有合适的设备做完整测试。如果有使用 Intel Mac 的朋友愿意帮忙试一下,非常感谢。你们的反馈会很有价值。

    后续等会员服务准备好之后,我们也计划给参与测试和反馈的朋友赠送一定额度的会员服务。不过这部分现在还在准备中,等细节确定后会再同步。

    关于 Typeflux Cloud

    Typeflux Cloud 仍然在早期测试阶段,目前可以免费使用。

    不想自己配置各种 API Key 的话,可以直接注册账号开箱即用。与此同时,Typeflux 的核心功能会继续保持开源,也会一直支持你自己配置任意语音模型和大语言模型。

    本地推理仍然是支持的:你可以用本地语音模型搭配 OpenAI 兼容的大模型 API 或者 Ollama 等本地大模型,不需要把内容发到云端。

    我现在是全职独立开发者,Typeflux 也是我目前最重要的方向。

    欢迎大家升级试用,也欢迎反馈问题、建议和真实使用场景。上一版发布后收到不少朋友的建议,这次 V0.2.0 里有很多细节就是根据这些反馈改出来的。希望这个工具能继续往“真正顺手的桌面语音工作流”方向走。

    4 replies    2026-05-08 11:42:06 +08:00
    yukminnie
        1
    yukminnie  
       8h 27m ago
    体验很不错,即使只使用纯粹的本地识别功能,再搭配自定义 API ,整体使用过程也相当顺畅舒适.
    froransom
        2
    froransom  
       3h 33m ago
    有个问题,这个模型下载看不出进度啊。。选了也看不出到底下载下来没有。。另外如果设置别的大模型润色,这个速度就不确定了,别的也试过,就很慢。。体验上就还是豆包那个流式最顺畅的感觉
    mylxsw
        3
    mylxsw  
    OP
       34 mins ago
    @yukminnie 感谢支持
    mylxsw
        4
    mylxsw  
    OP
       31 mins ago
    @froransom 感谢反馈,模型下载进度现在是有的,在语音模型-本地模型-下拉到最底部,可能不太直观,下个版本优化。

    可以试试登录账号使用云端模型看看速度怎么样,云端我这边测试的比较多。自己配置模型慢的问题我知道原因了(对模型 Thinking 的处理没有做好,很多模型会进行深度思考,导致输出速度很慢),下个版本解决
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4385 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 04:13 · PVG 12:13 · LAX 21:13 · JFK 00:13
    ♥ Do have faith in what you're doing.