V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 1 页 / 共 24 页
回复总数  475
1  2  3  4  5  6  7  8  9  10 ... 24  
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。


需求不急的话可以等一波,先用着各种供应商提供的 api ( together.aifireworks.ai 等)
https://docs.openwebui.com/features/ 这个集成了搜索,源码里集成了好几家搜索引擎,免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ,在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。
15 天前
回复了 importmeta 创建的主题 Node.js 吐槽一下 Nest.js 太复杂了
Nestjs 封装是有点过度了,既然是 TypeScript 这种语言加上 Node 的 runtime ,很多东西是可以做减法的。
我用的时候就做了很多减法,比如:
service 全部用 static 函数,就不需要注入了,要 mock 直接 class.method = function(){},要是非 static 的就 class.prototype.method 重新赋值来覆盖;
Providers 直接不用,官方案例简直是神经病连 HttpClient 都封装一层,它以为自己在用.NET 上吗,还不如开个文件在里面定义个常量然后导出,不也是全局唯一的吗;
Guards 也放弃,哪来那么多策略,直接在 Middleware 里简单鉴权就行了,复杂的我宁愿单独写一个 api 网关;
Modules 只拿来做业务模块区分,里面只引入控制器;

现在,我直接换 hono 了,搞个 module 文件夹自己分层就好了
16 天前
回复了 leenhawk2 创建的主题 程序员 安卓 16 支持 Linux 子系统了
连 Linux 子系统都支持了,按这个发展说不定再迭代几个版本就把 Chrome OS 给合并完了,然后放弃 Chrome OS
17 天前
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
@datou 看走眼了,还以为只用了腾讯云的 cos 。要是用 deno 的话在代码目录就可以没有 node_modules 了,眼不见为净。

to 楼主,node 项目我以前用 pkg 打成二进制放容器里的,整个 Docker 镜像压缩后只有 60~70MB 左右,还挺好用
17 天前
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
已经不用 Node 了,现在小项目在选 Deno 和 Bun 。Bun 在 1.2 内置了 S3 和 Postgres 客户端,可以给项目做不少减法 https://bun.sh/blog/bun-v1.2
20 天前
回复了 bwijn 创建的主题 Python scrapy 的 item 队列把内存挤爆
scrapy 出来的时候还没什么 serverless 的概念,都是靠堆机器的方式来增加抓取规模,但是它的 IO 和计算没有分离,必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后,你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务,如果是单纯搞搞字符串之类的,可以使用 cloudflare worker 把计算部分分离出去,甚至把 IO 部分也可以分离出去( IO 等待不计时,deno deploy 也是)。
41 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
@dongfanga 不好说,等产品出来了有评测对比才知道。Mac 跑大模型的劣势就是到目前为止还用不上 NPU ,白白浪费了性能,纯 GPU 在那算,跑激活参数越大的模型越吃亏,72B 就已经很慢了
42 天前
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips GB10 更有看头,跑本地大模型专用,128G 统一内存,3000 美元起售,5 月开卖,不知道国内搞到的成本要多少
43 天前
回复了 passon 创建的主题 美酒与美食 茶叶有没有科技
茶水发霉与否,不是和细菌繁殖条件相关的吗?我做的冷泡茶基本上放冰箱 2 周还能喝,保证容器干净就行。
Cloudflare Workers 连冷启动都没有,而且 IO 等待的耗时不计在内,只算 CPU 时间,比 Serverless 好太多了
迪卡侬山地车 EXPL500 ,重新激发了对运动的喜爱,经常骑出去溜圈,身体健康了很多
@kaichen 你这个链接里恰巧说明了 Qwen2.5.1-Coder-7B-Instruct 这个 7B 的模型即使在 8bit 量化下也非常接近 gpt4 啊
104 天前
回复了 Jak 创建的主题 Android OPPO 授权体验店购买一加 13 的垃圾体验
后续结果不错,恭喜楼主了,送三无充电宝就是送炸弹,就算是自己要丢掉也要放那种处理有害垃圾的桶,丢街边的垃圾桶万一太阳照射下高温起火了也是很可怕的事情。

1:充电宝强制 3C 认证了
自 2023 年 8 月 1 日起,对锂离子电池和电池组、移动电源实施 3C 认证管理;自 2024 年 8 月 1 日起,未获得 3C 认证证书和标注认证标志的,不得出厂、销售、进口或者在其他经营活动中使用。

2:充电宝有国标
https://std.samr.gov.cn/gb/search/gbDetailed?id=71F772D82450D3A7E05397BE0A0AB82A
https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=7256184719B195F1E60A1610156A1C76

里面明确提到了必须印刷的信息、材料的阻燃等级、环境适应性里不得爆炸和起火。

这些年也有不少充电宝起火和爆炸的新闻,不符合标准的充电宝连飞机都上不去,我对待电池相关产品一直都是小心翼翼的,生怕家里有电池鼓包起火,所以非常理解楼主。
@dafen7 mac book pro 能跑 70B 吗?能
带宽不足吗?不足,所以速度慢
慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用
106 天前
回复了 Jak 创建的主题 Android OPPO 授权体验店购买一加 13 的垃圾体验
送三无充电宝和送炸弹有什么区别,肯定要较真啊,不保留好证据万一起火爆炸时起诉都麻烦
P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
111 天前
回复了 babyedi31996 创建的主题 程序员 本地部署大语言模型哪家强?
@LaTero 是的,更多的优质数据训练出来的模型就是底大一级压死人,roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高,本地难部署,期待未来会有个更好的架构,基础模型是个智商和学习能力都很强的白纸,然后选择外挂要用到的知识库进行对话,那样就爽了。
111 天前
回复了 babyedi31996 创建的主题 程序员 本地部署大语言模型哪家强?
@babyedi31996 我当时是买官方翻新的,不到 4.5w 。现在肯定不买,按刚出的 M4 Max 内存带宽推断 M4 Ultra 内存带宽应该能超过 1000GB/s 了,跑推理的速度比 M2 Ultra 要快 1/4 ,不急的话还可以等官方翻新 + 员工优惠叠加更便宜。教育优惠貌似不能在 studio 上使用
1  2  3  4  5  6  7  8  9  10 ... 24  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5648 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 42ms · UTC 03:28 · PVG 11:28 · LAX 19:28 · JFK 22:28
Developed with CodeLauncher
♥ Do have faith in what you're doing.