V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lithiumii  ›  全部回复第 3 页 / 共 91 页
回复总数  1803
1  2  3  4  5  6  7  8  9  10 ... 91  
2025 年 3 月 17 日
回复了 zcm3579 创建的主题 Local LLM 如何估算一个大模型需要用到什么性能配置的硬件?
理论上最低限度的跑起来:显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件(比如 ollama )一般不能直接把硬盘当缓存用,所以比较傻瓜的一键跑起来:显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒,所以跑起来并且速度勉强能用:每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽,普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡,所以模型放到显卡的比例越大,速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡,不走 nvlink 仍然速度很快,因为不同的层之间通信要求没有那么高,所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积,一般的完整模型 fp16 每 B 近似 2G ,量化到 q4 的模型近似 0.5G 每 B ,但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦,不同参数的模型需要的不一样,而且可以自己调高调低,ollama 默认给得非常低只有 2k (很多模型支持到 128k ),所以再加个 10% 当余量。
那就是 显存 + 内存 > 1.3 × 模型体积。
2025 年 3 月 16 日
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
2025 年 3 月 8 日
回复了 nexmoe 创建的主题 分享创造 Free QWQ - 世界首个免费无限制分布式 QwQ API
petals 比你们早吧,而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。
2025 年 2 月 10 日
回复了 abcfreedom 创建的主题 生活 求分享砍价技巧
跟父母学了点,就很简单,一直问能不能再便宜点
2025 年 2 月 7 日
回复了 geligaoli 创建的主题 问与答 zerotier-one 可能偷偷做小动作限制自建 moon 了
是的,有一阵子不稳定,就改自建 planet 了,ztncui
2025 年 1 月 26 日
回复了 readman 创建的主题 NAS 突然想不通了,做备份的意义是什么?
小姐姐:没 raid ,直接分盘存,炸了拉倒
收藏的影视作品:raid1 ,万一炸了一个盘还有一个,万一都炸了就认倒霉
重要数据:在各种地方都复制了一份
2025 年 1 月 1 日
回复了 sleepingdog 创建的主题 NAS 硬盘容量不够,除了买买买,还有没其他方案?
20T 硬盘也就两三千吧,够你全家拍十年了吧,除非是 24 小时录像
2025 年 1 月 1 日
回复了 hapsinge 创建的主题 Apple 苹果 Vision Pro 真的会停产吗?
去店里修手机要等,就给我弄了个试用。效果是真的好,比家里的 q2 不知高到哪里去了。希望苹果持续烧钱,把整个供应链成本拉下来,然后我们买竞争对手的平替
倍怎么发财,比特币不可能再翻一百倍了
不翻一百一千
2024 年 12 月 27 日
回复了 hubayi 创建的主题 生活 大家有没有发现国内吸烟的人越来越多?
年轻人抽得少,但我们是老龄化社会
2024 年 12 月 22 日
回复了 justincnn 创建的主题 VPS (help)日本的 vps 想建一个可以在浏览器运行的浏览器
搜 docker+你爱用的浏览器就行,本质是 docker 里帮你整合好了浏览器和一个用浏览器访问的 vnc
2024 年 12 月 19 日
回复了 caicaiwoshishui 创建的主题 Kubernetes 10 macmini4 怎么最大化搞多个 k8s 集群?
买多个 usb4 接口的迷你主机,雷电线互连,获得万兆 mesh 网络,比 mac mini 搭配万兆交换机应该便宜多了。比如主机带 2 个口的话,就可以三台两两互连
2024 年 12 月 17 日
回复了 solomon6 创建的主题 分享发现 有没有感觉最近支付宝的 nfc 碰一碰开始发力了
解锁状态下,碰一下直接完成支付,比扫码还是快的,因为我手机烂,开相机慢。所以我觉得是进步
2024 年 12 月 17 日
回复了 yorkyoung 创建的主题 程序员 一个监控 22 端口的程序——是谁在敲打我窗
我也有一个,直接部署了 cowrie 写到数据库里
交互还行吧,但是这种程度我直接用 c 站不行吗,模型还多
github 有个 money printer 项目,看描述应该是一键 ai 生成抖音小视频,然后大概就是起号刷量挣钱吧
1  2  3  4  5  6  7  8  9  10 ... 91  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4560 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 88ms · UTC 05:59 · PVG 13:59 · LAX 21:59 · JFK 00:59
♥ Do have faith in what you're doing.