V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  V2EX 站点状态

20241230 - vLLM + Qwen2.5-Coder-32B-Instruct 驱动的新的标签系统

  •  
  •   Livid · 18 天前 · 2569 次点击
    V2EX 除了节点之外,也会根据主题内容生成 3 个 tag 。

    之前这个系统用的是 Boson NLP 提供的服务,不过他们后来停止了这个 API 服务。

    然后这件事情就搁置了一段时间。

    最近用 vLLM 部署了 Qwen2.5-Coder-32B-Instruct ,然后尝试用 prompt 的方式来为主题生成标签。虽然某些时候会产生无限循环,但是大部分情况下效果很不错。

    目前大概 2 - 3 秒可以分析完一个主题并生成 3 个 tag 。
    13 条回复    2025-01-02 18:40:38 +08:00
    Tubbs
        1
    Tubbs  
       18 天前 via Android
    vLLM 部署确实很方便,用的什么设备部署的呢?
    yangyaofei
        2
    yangyaofei  
       18 天前   ❤️ 1
    可以用 guided 参数让模型输出固定格式的内容 https://docs.vllm.ai/en/latest/usage/structured_outputs.html, 在加上两部输出(先输出标签格式随意, 输出内容用 LLM 再格式化为 json), 可以获得很好的效果, 当然 prompt 和模型够强够好一部也没问题.

    还有, 我好奇为啥用 coder
    Donaldo
        3
    Donaldo  
       18 天前
    同一张卡,同一个 CUDA 版本,vllm 我实测比 ollama 快几个 token/s 。
    Livid
        4
    Livid  
    MOD
    OP
       18 天前
    @yangyaofei 也试过 Llama 和 QwQ-32B-Preview

    Llama 会在输入是中文内容的情况,依然给出英文结果。

    QwQ 的输出结果大部分情况下太自由发挥了。

    Qwen2.5-Coder 的结果是最稳定的。

    Google 的 Gemini 2.0 效果也很好,但是免费额度和频率限制不太够用。
    Livid
        5
    Livid  
    MOD
    OP
       18 天前
    另外一个考虑就是因为这里大部分的内容,估计和 Coder 的训练内容也是重合的。
    Livid
        6
    Livid  
    MOD
    OP
       18 天前
    有时候甚至会生成一些原文中没有出现的词,但似乎也不完全是坏事,比如这个主题:

    https://www.v2ex.com/t/1101285

    “比较”这个词没有在原文里出现。
    scys
        7
    scys  
       18 天前   ❤️ 1
    其实也有不准的地方,好想这个帖子:

    https://www.v2ex.com/t/1101303#reply29
    scys
        8
    scys  
       18 天前
    好想 => 好像,感觉 Prompt 可以提供例子,可能会更加准确。我现在用的 Flux Prompt 构建器,提供例子会更加准确。仅作参考,不是 Prompt 达人。
    Livid
        9
    Livid  
    MOD
    OP
       18 天前
    @scys 是的。而且每次生成的结果是不一样的。

    我试试让那个帖子重新生成一次。
    musi
        10
    musi  
       18 天前 via iPhone   ❤️ 1
    除了标签之外 v2 有考虑使用 embedding 做语义化搜索帖子的功能吗
    yangyaofei
        11
    yangyaofei  
       17 天前   ❤️ 2
    @Livid #4 哦, qwq llama 肯定是不行的, 前者是尽量 CoT 会输出很多中间过程, llama 个代都对中文支持很不好, 我想说的是比如 qwen2.5-instruct 这种非 coder 模型. 如果显存够的话, 65B 的 4bit 量化模型性能很不错的

    生成原文没有的词挺正常的, 毕竟生成模型, 而且也不一定影响结果的正确, 想避免的话可以 prompt 加入用原文的词的设定, 想进一步控制的话, 可能性能就下降很多了(比如前面的 Guided 方式也可以实现)
    Livid
        12
    Livid  
    MOD
    OP
       15 天前   ❤️ 1
    @musi 今天刚刚把 faiss 的 demo 跑通,这个东西太有意思了,可以做的不只是搜索,相关性推荐看起来也可以。

    如果用 384 的 dimension 参数,貌似要把 V 站目前的 110 万个主题给索引,差不多可能需要至少 1.5G 的显存?
    musi
        13
    musi  
       15 天前 via iPhone   ❤️ 1
    @Livid 赞,希望在不久的将来能在 v2 上看到这些功能。不过推荐的话不知道有没有用户反感推荐算法的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   986 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 90ms · UTC 20:57 · PVG 04:57 · LAX 12:57 · JFK 15:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.