买不起机子,所以做了这个。
在线地址:tps.bunai.cc
一个 vibe code 出来的 GPU 推理性能估算工具。
起因很简单——显卡太贵,买不起,想跑个模型又不知道自己的配置够不够, 于是把网上散落的参数和公式汇总了一下,做成了这个计算器。
输入显卡型号、模型、量化方式和运行参数,快速估算:
✅ 在买机子 / 租卡之前,先大概预估一下跑不跑得起来
✅ 学习推理性能建模,理解量化、KV Cache 、TP 、Roofline 这些概念
✅ 做方案初筛和参数对比
❌ 不适合直接替代真实 benchmark
❌ 不适合把估算值当作生产承诺
❌ Mac 电脑没有放出来,验证了一下差距有点大,先放一放
这套公式和参数是我自己整理汇总的,没有大量真机跑过验证。 如果你手上有真实的测试数据,发现哪里估算偏差大、公式有问题, 欢迎开 Issue 或 PR 指出来,大家一起学习,一起把这个东西做得更准。
希望有真实数据的大佬帮忙指正,谢谢!🙏
1
qazwsxkevin Apr 29
谢谢,可以增加 Qwen Coder 系列模型吗?
|
2
diudiuu OP @qazwsxkevin 没问题的
|
3
diudiuu OP @qazwsxkevin 已经追加了,希望能帮到你
|
5
coefu Apr 29
@diudiuu #4 其实对于这些细节,我也是一知半解的,我没沉下去细究过。😏
我去年囤了几条内存,今年出手赚了点差价,换了一个 amd mi50 32G ,最近都在折腾它。哎,一分钱一分货,早知道加点钱搞 v100 32G 了,折腾的太麻烦了。把我之前的主力机主板都搞崩了,就很烦。 你做的这个事情,很好,我目前帮不到什么忙。 |
6
nanshan2012 Apr 29
做得不错,提点建议。
在显存为 8G 的 4060 GPU 上跑 Qwen 3.6 35B MoE 模型,通过 offload 方式可以实现吞吐量在 20 token/s 以上,但网页提示的信息似乎有出入,请确认。 |
7
diudiuu OP @nanshan2012
算法重新优化了一下,差不多 使用 MoE ,类型的需要默认打开 MoE CPU 卸载(在左下角),现在已经默认打开了 之前没有打开这个,没有考虑显存不够的情况,目前已经加上去了。 可以再试下 |
9
coefu Apr 30
@diudiuu #8 太 tm 悲催了,我因为用错了电源线,把 amd mi50 的 hbm2 显存给烧了。以后坚决不买这种小众的东西了,电源线都找不到。还得是一分钱一分货。内存差价这种钱,果然还是赚不得。
|
10
nanshan2012 Apr 30
@diudiuu 不错不错,修正之后正常了,牛!!!
|
11
leven87 14h 23m ago
我的服务器是 NVIDIA GeForce RTX 4090 显卡, 但是本机检测不出来,要自己手动选。
|