QingmuSanren
V2EX  ›  问与答

大佬们是怎么解决 glm5.2 无法处理视觉理解的问题的

  •  
  •   QingmuSanren · 18h 29m ago · 689 views

    现在用的火山引擎的 codig plan ,对 glm5.2 非常满意,但是么美中不足,现在没办法处理视觉理解。我看之前 glm5.1 也是文本模型,是怎么做到可以处理视觉理解的,现在 5.1 下架了。

    8 replies    2026-06-29 15:11:08 +08:00
    jotsai
        1
    jotsai  
       18h 24m ago
    用的 GLM Coding Plan ,模型服务端已内置 image_analysis 工具,具备图片理解能力 😊

    https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server#%E6%94%AF%E6%8C%81%E7%9A%84%E5%AE%A2%E6%88%B7%E7%AB%AF
    QingmuSanren
        2
    QingmuSanren  
    OP
       18h 14m ago
    @jotsai glm 的 coding plan 根本抢不到啊,痛,现在只能退而用火山。看大佬发的视觉理解 mcp ,文中说的大概意思就是,再买点搭配的视觉模型 token 一起用?
    jotsai
        3
    jotsai  
       15h 25m ago
    @QingmuSanren 这个 MCP 应该只是给 GLM Coding Plan 补视觉短板的,非 GLM Coding Plan 的我感觉直接接 1 个原生多模态的大模型比较好吧
    yvyvyv
        4
    yvyvyv  
       15h 3m ago
    让 claude 用文字描述出来
    skyemin
        5
    skyemin  
       14h 58m ago
    质谱和 coding plan 和火山里面用 glm5.2 的模型有区别吗
    106npo
        6
    106npo  
       14h 50m ago
    5.1 是用 4v 外挂识别的
    你让 agent 写个 tool ,找个支持视觉输入的模型去按要求描述图片.但肯定效果没原生支持视觉的模型好
    QingmuSanren
        7
    QingmuSanren  
    OP
       14h 46m ago
    @yvyvyv 怎么说大佬
    QingmuSanren
        8
    QingmuSanren  
    OP
       14h 44m ago
    @skyemin glm 的 coding plan 抢不到,所以无法对比,我只能说 火山的的 glm5.2 我用起来感觉很不错,值得
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   945 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 21:55 · PVG 05:55 · LAX 14:55 · JFK 17:55
    ♥ Do have faith in what you're doing.