V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

TPS Calculator · GPU 推理速度计算器

买不起机子，所以做了这个。

在线地址：tps.bunai.cc

突发奇想赶紧记录下来，直接 vibe code ，说敲就写

一个 vibe code 出来的 GPU 推理性能估算工具。

起因很简单——显卡太贵，买不起，想跑个模型又不知道自己的配置够不够，于是把网上散落的参数和公式汇总了一下，做成了这个计算器。

输入显卡型号、模型、量化方式和运行参数，快速估算：

显存占用与 OOM 风险
Decode / Prefill token/s
TTFT / TPOT / 总时延
带宽瓶颈还是算力瓶颈
多卡 TP 通信效率

适合干什么

✅ 在买机子 / 租卡之前，先大概预估一下跑不跑得起来
✅ 学习推理性能建模，理解量化、KV Cache 、TP 、Roofline 这些概念
✅ 做方案初筛和参数对比

❌ 不适合直接替代真实 benchmark
❌ 不适合把估算值当作生产承诺
❌ Mac 电脑没有放出来，验证了一下差距有点大，先放一放

参考资料

模型参数来源：HuggingFace model cards 及 Ollama 官方页面
MoE CPU Offload 场景参考：val1813/kaiwu
自己搭建模型Gemma4 26b
自己搭建模型Gemma4 31b
还有个 4070ti 得数据

这套公式和参数是我自己整理汇总的，没有大量真机跑过验证。如果你手上有真实的测试数据，发现哪里估算偏差大、公式有问题， 欢迎开 Issue 或 PR 指出来，大家一起学习，一起把这个东西做得更准。

希望有真实数据的大佬帮忙指正，谢谢！🙏

Supplement 1 · Apr 29

1. 可以根据 gpu 直接推荐最佳模型
2. 可以选择两个配置进行对比

GPU

推理

计算器

12 replies • 2026-05-07 09:27:48 +08:00

qazwsxkevin

Apr 29

谢谢，可以增加 Qwen Coder 系列模型吗?

diudiuu

Apr 29

@qazwsxkevin 没问题的

diudiuu

Apr 29

@qazwsxkevin 已经追加了，希望能帮到你

diudiuu

Apr 29

@coefu 老哥看下小弟做的这个预测准不准

coefu

Apr 29

@diudiuu #4 其实对于这些细节，我也是一知半解的，我没沉下去细究过。😏

我去年囤了几条内存，今年出手赚了点差价，换了一个 amd mi50 32G ，最近都在折腾它。哎，一分钱一分货，早知道加点钱搞 v100 32G 了，折腾的太麻烦了。把我之前的主力机主板都搞崩了，就很烦。

你做的这个事情，很好，我目前帮不到什么忙。

nanshan2012

Apr 29

做得不错，提点建议。

在显存为 8G 的 4060 GPU 上跑 Qwen 3.6 35B MoE 模型，通过 offload 方式可以实现吞吐量在 20 token/s 以上，但网页提示的信息似乎有出入，请确认。

diudiuu

Apr 30

@nanshan2012
算法重新优化了一下，差不多

使用 MoE ，类型的需要默认打开 MoE CPU 卸载（在左下角），现在已经默认打开了

之前没有打开这个，没有考虑显存不够的情况，目前已经加上去了。

可以再试下

diudiuu

Apr 30

@coefu 等我拿这个赚钱，到时候买显卡

coefu

Apr 30

@diudiuu #8 太 tm 悲催了，我因为用错了电源线，把 amd mi50 的 hbm2 显存给烧了。以后坚决不买这种小众的东西了，电源线都找不到。还得是一分钱一分货。内存差价这种钱，果然还是赚不得。

nanshan2012

Apr 30

@diudiuu 不错不错，修正之后正常了，牛！！！

leven87

14h 23m ago

我的服务器是 NVIDIA GeForce RTX 4090 显卡，但是本机检测不出来，要自己手动选。

diudiuu

13h 46m ago

@leven87 改了也不知道对不对，可以再试下

自己做了一款在线 GPU 推理速度计算器 · TPS Calculator

TPS Calculator · GPU 推理速度计算器

突发奇想赶紧记录下来，直接 vibe code ，说敲就写

适合干什么

参考资料