Web  收录于 VXNA 的 1 个网站
61 篇文章 feed address
 est 最近的时间轴更新
这个是啥?
2014-02-12 13:50:12 +08:00
est

est

shitposting in progress
V2EX 第 362 号会员,加入于 2010-05-03 18:29:41 +08:00
今日活跃度排名 28051
根据 est 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
est 最近回复了
3 天前
回复了 zyp38263547 创建的主题 宽带症候群 中国联通申请了 PCDN 识别的专利
说白了就是吃了核心网的流量,不管你什么技术,都封杀。
你用 cloudflare argo 跑反代就行。主机不要监听公网端口。
7 天前
回复了 nealHuang 创建的主题 Apple 发现 Mac 自带了网络质量测试工具
% networkQuality
==== SUMMARY ====
Uplink capacity: 829.894 Kbps
Downlink capacity: 388.094 Mbps
Responsiveness: Low (1.101 seconds | 54 RPM)
Idle Latency: 92.458 milliseconds | 648 RPM


这也太搓了。
如果硬件工程师考虑地球上一个地方温度条件不足怎么办?他可能会综合地理,纬度,气温,洋流等等,最后小心翼翼设计一套复杂的暖通工程

软件工程师:replace(太阳, 更大的太阳)
9 天前
回复了 heyjianjun 创建的主题 电动汽车 买车决赛圈极氪 001 还是蔚来 ET5T
byd 发布 5 分钟充电 400km 了。。蔚来危。。。。
另外再说一个简单的 token 吐字效率计算。大语言模型你可以看成所有参数都需要顺序激活一次参与计算,假如 7G fp32 的 LLM 每一秒钟输出一个 token ,就至少需要 28 GB/s 的显存带宽。
7B == 7,000,000,000 ,得到 7G 。每一个参数 4byte (fp32) 那么就需要 7x4 == 28GB 显存

用了 fp16 优化就只需要 14GB 显存。用 int8 量化就需要 7GB 显存,用 int4 量化就需要 3.5GB 显存

当然 transformer 还有很多其他的各个环节提升,这里 x4 x2 x1 x0.5 可以进一步打折优化。这里只是一个大概的计算
@julyclyde 我名字记这么准确,那我肯定知道自己在说什么。
归根结底还是实名制

实名制归根结底还是 周济 干出来的第一发。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3063 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 14:18 · PVG 22:18 · LAX 07:18 · JFK 10:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.