bwnjnOEI

bwnjnOEI

V2EX 第 545030 号会员,加入于 2021-05-11 13:45:47 +08:00
今日活跃度排名 24110
根据 bwnjnOEI 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
bwnjnOEI 最近回复了
@zzutmebwd 你指的是单一量化格式吧,现在都是混合精度,比如 moe 里用 fp8 layernorm 里保持精度能掉多少精度,而且 kv cache 一般都不量化而且我们现在天天用的套餐都是量化后的模型。
@bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受
@bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
11 天前
回复了 wyfig 创建的主题 程序员 你们的私人项目 git 库现在都保持到哪里?
去年纠结很久最后没买 nas 买的 macmini 挂尿袋,用的 gitea ,待机才不到 6w
@w3 怎么感觉变相夸自己呢
是侵入式遥测那家吗?我 X 的页面一翻译就崩溃 retry
买了 bandwagon ( LA )和 racknerd (圣何塞),从大概 11 月初 bandwagon 和 racknerd 都开始不稳定( hysteria2 和 Reality ),到了 12 月 bandwagon 恢复正常了但是偶尔也小抽风,racknerd 干脆用不了。坐标:辽宁移动。
2025 年 12 月 20 日
回复了 LimboRunner 创建的主题 VPS 我们的服务宗旨是不退钱! RackNerd VPS 大避雷
家里移动这两天连不上了已经 偶尔下午几小时能用 估计是线路问题
2025 年 12 月 14 日
回复了 dddddddy 创建的主题 Local LLM 想自己搞个量化投资模型,怎么解决训练资源的问题?
现在内存和固态涨成这样你得多花多少钱,等明年吧。另外,你可以看看 b/y 上的装机博主装机视频看看搞量化的都啥配置 3w 不算 gpu 应该够,我看他们至少 1 万多那个入门级线程撕裂着 >256g 内存 显卡当然越多越好
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   957 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 21:45 · PVG 05:45 · LAX 13:45 · JFK 16:45
♥ Do have faith in what you're doing.