现在算力过剩,瓶颈都是显存带宽和显存大小,搜了一圈,感觉就两个方案有些可行性
一是 qwen3 embedding 8b int8 ,给本地知识库做向量化,结合云端 API ,应该能省一些 tokens ,配置的话,16G 显存的 N 卡都大差不差,或者 Apple M4 + 32G ?想试试给 claude code 加个 local embedding mcp
从这个角度讲,M4+32G 确实是个挺好的配置
二是买张魔改的 4090 48G ,可以跑 30b int8 或者 70b int4 ,可以用 QLoRA 调一下模型,玩玩 SillyTavern ?但看网评还是比云端 API 差太多,所以估计只有 刘备 玩家值得一试?
不知道 3 年后,国产 HBM+国产 GPU 能不能把大内存推理显卡的价格打下来……现在 Local LLM 还是不太行
一是 qwen3 embedding 8b int8 ,给本地知识库做向量化,结合云端 API ,应该能省一些 tokens ,配置的话,16G 显存的 N 卡都大差不差,或者 Apple M4 + 32G ?想试试给 claude code 加个 local embedding mcp
从这个角度讲,M4+32G 确实是个挺好的配置
二是买张魔改的 4090 48G ,可以跑 30b int8 或者 70b int4 ,可以用 QLoRA 调一下模型,玩玩 SillyTavern ?但看网评还是比云端 API 差太多,所以估计只有 刘备 玩家值得一试?
不知道 3 年后,国产 HBM+国产 GPU 能不能把大内存推理显卡的价格打下来……现在 Local LLM 还是不太行