V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
crocoBaby
109.08D
V2EX  ›  Local LLM

折腾了一晚上大模型,索然无味

  •  
  •   crocoBaby · 1 天前 · 6109 次点击
    买的新显卡 5060 凑合能跑 7B 的推理大模型,发现有一个叫 LM STUDIO 的软件可以直接下载大模型并且运行推理,在尝试了各大厂开源的大模型,发现也就那样,没啥特别的使用场景,而且还不能联网搜索,你们玩 ai 大模型的到底都在玩啥啊?有点好奇
    83 条回复    2025-11-20 18:53:56 +08:00
    OneLiteCore
        1
    OneLiteCore  
       1 天前
    日常使用场景无非就是问技术思路/代码自动补全/翻译,个人用户的话有这个预算不如直接去买现成的 AI 服务一个月最多百来块。

    只有到注重数据安全的企业级使用场景,比如要部署公司内部的代码补全或者 AI 问答服务这种需要避免公司资产和动向被当成免费语料的时候才需要。其他场景比如要生成视频和图片这种大规模的,或者 AI 女友之类的怕被赛博 NTR 的,但是这种 case 太少。
    urlk
        2
    urlk  
       1 天前
    既然你都能本地部署 AI 了, 那么这个问题直接问 AI 它也会告诉你答案的
    HojiOShi
        3
    HojiOShi  
       1 天前
    5060 ,甚至都不是大显存的 5060ti ,打打游戏画质高点都爆显存,搞本地 LLM 这些还是太勉强。
    usn
        4
    usn  
    PRO
       1 天前 via iPhone
    搞了半天本地部署是能得到比 chatgpt5.1 更聪明的回复还是比 gemini3 更漂亮的前端
    coolfan
        5
    coolfan  
       1 天前
    5060 的显存规模跑大模型难有惊艳的效果 16g 的 5060ti 或许不错
    crocoBaby
        6
    crocoBaby  
    OP
       1 天前 via iPhone
    @OneLiteCore 我尝试了接入 trae ,发现并不支持本地部署的大模型,感觉有用的场景就是生成色图了,用小说的情节去生成
    slowgen
        7
    slowgen  
       1 天前
    5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
    crocoBaby
        8
    crocoBaby  
    OP
       1 天前 via iPhone
    @urlk 甚至听不懂我的问题,虽然它罗列了很多它能干的事情
    crocoBaby
        9
    crocoBaby  
    OP
       1 天前 via iPhone
    @HojiOShi 实用的话感觉还是得直接买 nvdia 的 ai 计算机,我查阅了一下资料,消费级显卡满足不了大部份使用场景,除非是微调大模型针对语料推理
    crocoBaby
        10
    crocoBaby  
    OP
       1 天前 via iPhone
    @usn 都不行,很鸡肋,只能学习到大概的部署和使用方法,想要获得从业技能不太科学
    crocoBaby
        11
    crocoBaby  
    OP
       1 天前 via iPhone
    @coolfan 大概能跑 30b 的吧加上量化优化,但是距离现在主流上的还差太远了
    forisra
        12
    forisra  
       1 天前
    7B 参数量的大模型本地部署的话就是已读乱回,当然没啥效果。
    crocoBaby
        13
    crocoBaby  
    OP
       1 天前 via iPhone
    @slowgen 对,你形容的很贴切,就是这个感觉,感觉想要入门 ai 开发,门槛挺高的
    crocoBaby
        14
    crocoBaby  
    OP
       1 天前 via iPhone
    @forisra 哥们都是玩的多少 b 的?完全没有思路有什么使用场景
    forisra
        15
    forisra  
       1 天前   ❤️ 1
    @crocoBaby 本地部署按照现在的显存价格就没啥好方案啊,司马黄仁勋之前还专门出了一个推理特化的产品,一看价格 5070 的算力 4 万块的售价.....
    HojiOShi
        16
    HojiOShi  
       1 天前   ❤️ 4
    @crocoBaby #9 看来你查阅资料的能力不怎么样,能觉得英伟达那个小盒子实用,还因此否定所有消费级显卡。
    usn
        17
    usn  
    PRO
       1 天前
    @HojiOShi 好奇大佬是怎么搜集资料的
    usn
        18
    usn  
    PRO
       1 天前
    @crocoBaby #10 看个人
    bwnjnOEI
        19
    bwnjnOEI  
       1 天前   ❤️ 1
    建议不要用 LM STUDIO 或 OLLAMA 这些玩意,最起码会用 llama.cpp (虽然这俩都是基于 llama.cpp ),生产级部署都是 vllm 和 sglang 或自己写 cuda 。上 huggingface 下个 gpt-oss-20b 能凑合用,qwen-coder-7b 能代码补全,还有 DeepSeek-OCR 啥的能玩的挺多的,甚至内存 64g+你都能跑 gpt-oss-120b 但可能只有几 tokens/s 。
    crocoBaby
        20
    crocoBaby  
    OP
       1 天前 via iPhone
    @HojiOShi 没有深入了解,大佬科普一下
    bwnjnOEI
        21
    bwnjnOEI  
       1 天前   ❤️ 1
    @HojiOShi 那金色小盒子油管好几个博主都测完了:有点拉而且发热严重。
    crocoBaby
        22
    crocoBaby  
    OP
       1 天前 via iPhone
    @bwnjnOEI 目前硬件跑不动,而且 ai 萌新比较难上手
    bwnjnOEI
        23
    bwnjnOEI  
       1 天前   ❤️ 1
    @crocoBaby 嗯显卡缺失丐,如果不像投资买显卡真的想练手租个 gpu 云现在 4090 很便宜的
    crocoBaby
        24
    crocoBaby  
    OP
       1 天前 via iPhone
    @bwnjnOEI 好嘟,感谢回答
    Belmode
        25
    Belmode  
       1 天前
    装 CUDA ,跑各种视频处理工具
    1up
        26
    1up  
       23 小时 16 分钟前 via iPhone
    没什么用,这种数级的部署,已放弃
    archxm
        27
    archxm  
       23 小时 14 分钟前 via Android   ❤️ 1
    整个美女,撸一发,索然无味
    crocoBaby
        28
    crocoBaby  
    OP
       22 小时 22 分钟前
    @1up 感觉显卡可以退了,ai 用不上,游戏不知道玩什么
    crocoBaby
        29
    crocoBaby  
    OP
       22 小时 21 分钟前
    @Belmode 性能会不会不太够啊哥,问 ai 说只能跑 512*512 的图片
    fredweili
        30
    fredweili  
       22 小时 19 分钟前   ❤️ 1
    7b 能干啥,16G M4 都能跑,大模型是啥,LLM 最基本的语义理解生成
    5060 拿去打游戏更好
    huang86041
        31
    huang86041  
       22 小时 11 分钟前
    大模型靠的力大飞砖,你个本地私人部署,钱包不够厚不行的. 本地只能用用专业的小模型.
    crocoBaby
        32
    crocoBaby  
    OP
       22 小时 3 分钟前
    @huang86041 今晚尝试一下图片和视频生成,看看能不能搞个免费版的小韩漫看看
    penisulaS
        33
    penisulaS  
       21 小时 47 分钟前
    兄弟你这是小模型啊,其实搭建本地模型的优势用法在于搞瑟瑟,因为瑟瑟模型基本没有稳定的公共服务
    vikim
        34
    vikim  
       21 小时 37 分钟前
    @penisulaS 瑟瑟一般能整出什么花样 我挺好奇的
    crocoBaby
        35
    crocoBaby  
    OP
       21 小时 32 分钟前
    @penisulaS 求科普瑟瑟玩法,我今晚试试
    cyp0633
        36
    cyp0633  
       21 小时 24 分钟前
    @usn #17 前两天碰巧读过 lmsys org 的评测博客,推理性能 prefill 一骑绝尘,但 decode 太慢,导致整体比消费级显卡和 apple silicon 全面落后
    tomclancy
        37
    tomclancy  
       21 小时 20 分钟前
    蹲一下教程,我这 gemma 3 27b 动不动拒绝回答
    tomclancy
        38
    tomclancy  
       21 小时 20 分钟前
    @penisulaS #33
    蹲一下教程,我这 gemma 3 27b 动不动拒绝回答,太靠北了
    penisulaS
        39
    penisulaS  
       21 小时 15 分钟前
    @tomclancy 其实就是各种 NSFW/Decensored 模型,我用的模型比较老了,big tiger Gemma 27b/CusalLm 35B Beta Long 。不过有些未审查模型虽然能生成未审查内容,要么像发春的母猪,要么像干巴巴的木头,很下头。
    Cheez
        40
    Cheez  
    PRO
       21 小时 8 分钟前
    本地模型本来就没有可玩性啊…… 就是免费、私密和自由,然后什么都没有了呀。理论上你可以 24 小时处理一些 7b 模型能做的事情,例如你的账单你觉得很私密,可以让本地模型去帮你分类记录;

    我是觉得,没有必要本地……
    crocoBaby
        41
    crocoBaby  
    OP
       21 小时 7 分钟前
    @penisulaS 有办法通过开放权重的大模型微调去做调教吗?
    crocoBaby
        42
    crocoBaby  
    OP
       21 小时 6 分钟前
    @Cheez 单纯 chat 的本地部署完全没有必要,但是视频和图片的有待验证
    penisulaS
        43
    penisulaS  
       21 小时 5 分钟前   ❤️ 1
    @crocoBaby hf 上不都有很多微调好的吗,直接用就是了,毕竟微调的成本也不低,效果也不一定好
    YanSeven
        44
    YanSeven  
       21 小时 2 分钟前
    这种超小型的本地大模型,纯玩具吧。。。,确实没什么好玩的。
    nash
        45
    nash  
       21 小时 1 分钟前   ❤️ 1
    打游戏就专心打游戏,那玩意能干啥,要玩上云算力玩
    1up
        46
    1up  
       21 小时 1 分钟前 via iPhone
    @crocoBaby 真这样的话,是的
    viking602
        47
    viking602  
       20 小时 58 分钟前
    5060 打游戏都不一定够用的东西跑大模型肯定不够用啊 想玩模型去用云服务不好嘛 为啥非纠结本地模型
    Meteora626
        48
    Meteora626  
       20 小时 57 分钟前   ❤️ 1
    薅几个推理平台的羊毛,千万 token 慢慢用, 自己部署没意思的 模型太小了
    bitmin
        49
    bitmin  
       20 小时 53 分钟前   ❤️ 1
    7b 给翻译插件用已经算可用水平了,我核显都跑的飞快

    联网搜索用 mcp 实现
    czhen
        50
    czhen  
       20 小时 50 分钟前
    我还以为是那种人形大模型呢, 兴冲冲的点进来, 哎🥱
    crocoBaby
        51
    crocoBaby  
    OP
       20 小时 38 分钟前
    @YanSeven gpt-oss-20b 的量化格式貌似也能跑,应该比 7B 好一点吧
    crocoBaby
        52
    crocoBaby  
    OP
       20 小时 37 分钟前
    @viking602 主要想入门 ai 开发吧,但又不想投入太多
    crocoBaby
        53
    crocoBaby  
    OP
       20 小时 36 分钟前
    @czhen 这也能联想到?!老司机!!!
    Xyg12133617
        54
    Xyg12133617  
       20 小时 27 分钟前
    公司买的 90G 显存的机器给我们几个玩。从开始部署 qwen30b 满负载,到后面部署 STT 的模型,再到周年庆部署的 DreamO 。到现在的部署 sukura 模型和 qwen1.5-7b-chat ,确实没啥意思。就是折腾的时候有点费时间。可能最近又要部署 dify 这类工作流调用通用模型了。
    autumncry
        55
    autumncry  
       20 小时 23 分钟前   ❤️ 1
    借楼顺带讨论一下,自己本地部署,构建一个股票/虚拟货币之类的市场预测模型,是否可行呢?
    crocoBaby
        56
    crocoBaby  
    OP
       20 小时 23 分钟前 via iPhone
    @Xyg12133617 纯部署吗?不过你们公司挺好的,愿意提供这么好的硬件,我公司写代码的电脑都能卡半天
    crocoBaby
        57
    crocoBaby  
    OP
       20 小时 23 分钟前 via iPhone
    @autumncry 这个正是我的目的,目前还在摸索中
    jmliang
        58
    jmliang  
       20 小时 21 分钟前
    懒得折腾,gemini-2.5-flash-lite 很便宜了
    shm7
        59
    shm7  
       20 小时 17 分钟前
    99.9999%的人从 2 年前开始就是在瞎玩,就和买 50 块的二手 cpu 组个机器差不多的
    abel533
        60
    abel533  
       18 小时 1 分钟前
    本地 AI 生图合适,看看 SD,ComfyUI..本地无限制。
    keller
        61
    keller  
       17 小时 34 分钟前
    是谁告诉你学习 ai 相关的开发就必须要本地部署?
    wwhontheway
        62
    wwhontheway  
       17 小时 25 分钟前
    是谁告诉你学习 ai 相关的开发就必须要本地部署?
    crocoBaby
        63
    crocoBaby  
    OP
       17 小时 7 分钟前
    @keller
    @wwhontheway 呃,我猜的
    coefu
        64
    coefu  
       17 小时 3 分钟前
    @autumncry 如果完成度算 100% 的话,99.99%的人大概能做到 10% 进度,往后就是极限。
    herozzm
        65
    herozzm  
       16 小时 49 分钟前
    本地大模型和线上大厂的相去甚远,小玩具都算不上
    PbCopy111
        66
    PbCopy111  
       16 小时 39 分钟前
    https://github.com/SillyTavern/SillyTavern

    本地部署去,然后下一个本地模型,角色卡去 discord 的类脑找。
    crocoBaby
        67
    crocoBaby  
    OP
       16 小时 29 分钟前
    @PbCopy111 大概了解一下,只能扣个 6
    keller
        68
    keller  
       16 小时 6 分钟前   ❤️ 1
    去注册个火山引擎账号,免费的 token 足够你玩很长时间了
    YUCOAT
        69
    YUCOAT  
       15 小时 54 分钟前
    在本地部署过 stable diffusion ,没玩多久就腻了
    h4ckm310n
        70
    h4ckm310n  
       15 小时 37 分钟前
    我玩了快一年了,就是拿来涩涩的。
    一开始用我游戏本的 3060 跑,但只有 6G 显存,跑个 12B Q4 都慢死。
    后来用平时上班用的 macbook pro 来跑,32G 内存能跑 14B Q8 了。但是 mac 也只是生成阶段速度可以,处理输入还是慢,拿来玩画图也慢。
    618 的时候自己组了一个台式机,4060ti 16G+5060ti 16G ,再加上 96G 内存,纯显卡的话可以跑 32B Q6 左右,加上内存可以跑更大的 MoE 模型。目前我主要用的模型就是 Qwen3 235B 2507 Q2 ,算是我本地能跑的最大的模型了。除了 LLM ,还可以玩画图,5060ti 跑 SDXL 速度比 macbook 快多了,但是跑 Wan 或者 Qwen Image 这样更大的模型还是慢。
    Narcissu5
        71
    Narcissu5  
       15 小时 23 分钟前
    你等于是在问:以目前的 AI 能力有什么好的落地场景?

    半个纳斯达克都在等这个问题的答案
    crocoBaby
        72
    crocoBaby  
    OP
       15 小时 16 分钟前
    @YUCOAT 别剧透啊,我还没玩
    Xyg12133617
        73
    Xyg12133617  
       15 小时 14 分钟前
    @crocoBaby #56 部署加测试,加一部分开发吧
    crocoBaby
        74
    crocoBaby  
    OP
       15 小时 12 分钟前
    @h4ckm310n 膜拜大佬,量化 Q2 不会精度太低导致不可用吗?我 5060 8G 跑 7B Q4 看来还是太保守了,今晚试试 14B Q4,不过 ai 也有说图片生成精度要求不用太高,有没有成品可以欣赏一下啊?
    crocoBaby
        75
    crocoBaby  
    OP
       15 小时 11 分钟前
    @Narcissu5 瑟瑟是第一生产力!
    edisonwong
        76
    edisonwong  
       14 小时 29 分钟前
    个人级别的没必要折腾,伪需求,除非你想搞色色不合规的东西
    公司级别的最近折腾几台 dgx spark + mac ,还是挺多东西折腾+用途的
    cheng6563
        77
    cheng6563  
       14 小时 8 分钟前
    7B 你还想要啥自行车,能出正常流畅的句子就差不多了。
    cheng6563
        78
    cheng6563  
       14 小时 8 分钟前
    你不要小看大语言模型这个大
    jjtang11
        79
    jjtang11  
       13 小时 55 分钟前
    ai 本地部署在我看来就是一种新的中年男人玩具,就像摄影,hifi ,nas...玩到最后玩的是器材本身
    version
        80
    version  
       13 小时 55 分钟前
    文字类的没啥好玩...玩图像或者视频吧
    内存 96g 加 5090D 32G 显存 这个是起步价
    跑出目前国内大企业的图像一样效果..因为他们都是拿开源模型来部署
    h4ckm310n
        81
    h4ckm310n  
       13 小时 21 分钟前
    @crocoBaby 只要参数量够大(起码上百 B ),Q2 用着还是可以的。AI 生成的图片可以上国内的 liblib 或国外的 civitai 看
    sharpy
        82
    sharpy  
       12 小时 52 分钟前
    加点儿内存跑 qwen3-30b-a3b ,感受会不一样
    CraftDeadMRC
        83
    CraftDeadMRC  
       12 小时 22 分钟前
    5060 的显存太小了吧,MoE 的话应该也只能到 Qwen3-Next-80B-A3B 的样子,然后这样还会有消费级内存带宽。不过个人使用的话其实本地只用跑 embedded 模型和 reranker 模型对上下文检索就行,然后 api 接 gemini 或者别的模型,要不然长上下文会很蛋疼
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1078 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 23:16 · PVG 07:16 · LAX 15:16 · JFK 18:16
    ♥ Do have faith in what you're doing.