babymonster
V2EX  ›  Local LLM

私有化部署大模型的“终点”是 Mac 还是 Nvidia?

  •  
  •   babymonster · Apr 30 · 4865 views
    This topic created in 48 days ago, the information mentioned may be changed or developed.
    自己家里的 5070Ti 跑模型起来太费劲了,用了一下同事的 macbook 顶配版跑模型比 5070Ti 要强一点点,感觉都差不多,所以大佬可以指点下有没有必要搞一个 Mac studio 还是 Nvidia thor 或者 DGX Spark
    29 replies    2026-05-02 11:34:32 +08:00
    frantic
        1
    frantic  
       Apr 30
    mac studio 顶配二手价格都翻倍了
    zenfsharp
        2
    zenfsharp  
       Apr 30
    看部署目的啊。
    如果是自己用,那 Mac 的包容性强,起码能塞得下权重,开得起 context 窗口啊,自己用吐答案慢点就慢点。
    如果是内部多人用,还得是正经显卡啊,只要能跑起来,比 Mac 的处理器强太多了。
    maymay5
        3
    maymay5  
       Apr 30
    看咋用吧,另外看要部署多大参数,Mac 说实话挺慢的,不能发个 hi 当测试用例,上下文强度提高点,Mac 的慢就很明显了
    stimw
        4
    stimw  
       Apr 30   ❤️ 2
    个人场景搞私有化的唯一作用就是涩涩,涩涩的话也不需要参数多大的模型
    penisulaS
        5
    penisulaS  
       Apr 30
    mac 方便堆显存,nv 方便堆算力
    sentinelK
        6
    sentinelK  
       Apr 30
    在显存够用的前提下,显卡的解码能力远大于统一内存方案(不管是 GB10 、AMD MAX+395 ,还是 mac )
    反之,统一内存方案更容易达到更大的内存级别(能跑更大参数的模型)


    所以,如果你要跑快,只能选显卡。
    如果你要选能用,可扩展性,尝试更多模型,只能选统一内存。(为了大参数换显卡,基本上你整台 PC 也都要换)
    sentinelK
        7
    sentinelK  
       Apr 30
    @stimw 个人场景最大的优势是不会暴露隐私。而且有去掉拒绝模块的模型可用(可以忽略道德、法律、伦理等因素)。
    sentinelK
        8
    sentinelK  
       Apr 30
    对了,还忘了一点,到了生产力阶段,家庭用显卡就不现实了。

    因为生产力显卡的噪音非常大。
    mxT52CRuqR6o5
        9
    mxT52CRuqR6o5  
       Apr 30
    现在这些产品都算不上终点,终点是未来出的专门为这个场景打造的硬件
    babymonster
        10
    babymonster  
    OP
       Apr 30
    @stimw 搞涩涩
    liubaicai
        11
    liubaicai  
       Apr 30
    @mxT52CRuqR6o5 那不就是 DGX Spark 么
    andlp
        12
    andlp  
       Apr 30
    噪声大的难以忍受了....
    iorilu
        13
    iorilu  
       Apr 30
    临时用用可以租 gpu 把

    自己随便玩玩没必要专门弄个机器感觉

    现在模型进化太快, 自己完全瞎折腾, 除非你是想学习自己训练, 微调模型
    bwnjnOEI
        14
    bwnjnOEI  
       Apr 30 via iPhone
    带宽太低 略坑 跑跑 moe 还行
    songray
        15
    songray  
       Apr 30
    是 5 年后捡洋垃圾 h20
    mxT52CRuqR6o5
        16
    mxT52CRuqR6o5  
       Apr 30
    @liubaicai #11 哦哦,之前没看清楚以为 OP 在说 5090/H100 这种,Nvidia thor 、DGX Spark 这类产品确实挺可能是「私有化部署」的终点的
    diudiuu
        17
    diudiuu  
       Apr 30
    @mxT52CRuqR6o5
    DGX Spark 是个挫货就不用想了,内存+带宽两个都要盯着
    hutng
        18
    hutng  
       Apr 30
    自己玩玩可以 mac ,稍微专业点还是得 NV
    a0210077
        19
    a0210077  
       Apr 30
    建议 N 卡,不止能跑大模型,还能用现成的 ComfyUI 包出图出视频
    按照 OP 的配置再往上升主要关注单卡显存大小:价格敏感可以考虑 4080s 32G/4090 48G 的魔改卡,要正品只能 5090 / PRO 5000 / PRO 6000
    a0210077
        20
    a0210077  
       Apr 30
    #10 按照这个思路,建议 N 卡的设备,但依旧推荐独立显卡而不是统一内存
    p1094358629
        21
    p1094358629  
       Apr 30
    @stimw 求教,怎么搞,这个我觉得很有市场!!
    coefu
        22
    coefu  
       Apr 30
    我选 amd ,内存带宽都有。只是没钱买,有钱也买不到。
    rccoder
        23
    rccoder  
       Apr 30
    终点是用云端模型🤣
    tootfsg
        24
    tootfsg  
       Apr 30 via Android
    这个问题很简单
    能拿出 6,7w ,甚至 10w 多人民币买显卡就上 NVIDIA 工作站 pro6000 这种。
    能拿出几十万就上 NVIDIA 服务器显卡。
    2-3-4w ,还想舒服点跑大模型,等上 m5 pro 的 mac mini/studio 。

    5070ti 留着玩 comyui 吧。

    据我所知玩模型有两种
    1 是训练模型,只能上 nvidia 的显卡。
    2 是推理,就是下载别人训练好的模型自己部署使用
    2 这种我建议上 mac ,因为 5070ti 价格还行但显存太鸡肋了,5090 24g cuda 核多但显存太小,价格又翻倍,5090 32g 得摸到 3w 人民币了,cuda 核心更多但显存只是 7000 块钱的 5070ti 翻倍,而且又和 nvidia 工作站显卡价格接近了了。

    能拿的出钱就买 6w 左右一张的 pro6000 这种,只需要看 nvidia 工作站显卡就行了。
    预算低就 3-4w 左右的 m5 mac
    再低就继续用 5070ti 跑 27b 以下的 iq4xs 吧。
    mxT52CRuqR6o5
        25
    mxT52CRuqR6o5  
       May 1
    @diudiuu 『这类产品』,指的是这个形态,而不是指某个型号
    expkzb
        26
    expkzb  
       May 1
    @stimw 细说涩涩
    Rorysky
        27
    Rorysky  
       May 1
    本地化是伪命题

    除非是商业保密场景
    zichen
        28
    zichen  
       May 2
    本地化适合一些垂直场景,譬如出图出建模,如果是独立游戏开发者,本地搞这些事儿比云端省钱多了
    bobguo
        29
    bobguo  
       May 2   ❤️ 1
    目前公认小型化部署的模型,最强的是 Qwen3.X 27B 和 Gemma4 31B 这两个稠密模型,FP4 量化英伟达 24G 显存的卡能跑起来,解码速度还有一些优化方案,比 Mac 运行速度快很多

    Mac 方案适合本地跑更大尺寸的模型,比如 128G 应该能跑起来 GLM 4.7 FP4 量化,或者前几年的 Qwen3 70B ,但是就算能跑起来,解码速度也很低,实用价值太小了

    免责声明:以上都是我的观察,没实操过,但我观察的量确实很大
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   977 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 108ms · UTC 22:32 · PVG 06:32 · LAX 15:32 · JFK 18:32
    ♥ Do have faith in what you're doing.