爱意满满的作品展示区。
ytgui

Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

  •  
  •   ytgui · 2 days ago · 1544 views

    最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。

    FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

    核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。

    蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

    🤗 HF: Qwen3.5-Sonnet-9B

    Supplement 1  ·  8h 29m ago

    看起来大家的 Mac 基本都是 16GB,很难跑起来这个模型。

    虽然我很不喜欢低精度量化,但是做了 GGUF 版本 (Q8_0, Q4_K_M, Q4_K_S):

    Qwen3.5-Sonnet-9B-GGUF

    祝大家玩的愉快

    6 replies    2026-05-17 11:12:30 +08:00
    zhang666
        1
    zhang666  
       2 days ago via iPhone
    22G 可以用吗?
    kuhung
        2
    kuhung  
       2 days ago
    好奇有做效果测试和对比吗 另外有考虑提供更近一步的量化和苹果环境的权重嘛
    ytgui
        3
    ytgui  
    OP
       2 days ago   ❤️ 1
    @zhang666 试了下,19.5GB 显存可以跑 100K 的 context 长度
    ytgui
        4
    ytgui  
    OP
       2 days ago
    @kuhung 还在跑,ifeval (指令跟随) 和 gpqa_diamond (通用知识)没有弱化。我提供的权重是 hugging face 的标准 fp8 ,不是很熟悉苹果权重,可能会做~
    tootfsg
        5
    tootfsg  
       2 days ago via Android
    好奇,这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好,尺寸可以说一样大。
    ytgui
        6
    ytgui  
    OP
       1 day ago
    @tootfsg 跑分的话确实 30Bx4bit 高于 15Bx8bit 。但是实际体验其实不好,高峰期感觉到的那种模型降智,基本就是低精度量化版本的锅
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   928 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 20:48 · PVG 04:48 · LAX 13:48 · JFK 16:48
    ♥ Do have faith in what you're doing.