jinsongzhaocn's recent timeline updates
jinsongzhaocn

jinsongzhaocn

V2EX member #460727, joined on 2019-12-22 23:54:22 +08:00
jinsongzhaocn's recent replies
向国产海光 DCU 过度应该挺方便吧,投资未来 5 年
@zsj1029 本地 qwen3.6 27b 慢吗?玩过阅读代码出总结,速度比在线的 GLM 快多了. 你是用 ollama 跑还是 vllm? vllm+上 mpt 优化速度才能起来哦
@passion336699 下滑最快的三个里面就有 go ,你的体感有问题啊。
js ts go 下降,java 平,其他都在上涨。趋势就是难的语言都在上涨,应该是因为 AI 编程普及导致吧
17 days ago
Replied to a topic by Cabana 信息安全 Linux 内核又双叒叕现严重本地提权漏洞
ESP 和 RxRPC , 一个是 VPN 用的,一个是分布式文件系统的。没那么害怕
@PeterTanJJ 27b 的速度,参数和 post 结构影响很大. 我经历过 11 秒到 1 秒的提速
文档写得好认真, 感觉丢给 AI 可以开始写出来了. Kwcode 最难的可能是定位了, CC 的定位其实挺完善的, 非常难竞争. CC 很开放,它可以对接第三方大模型,对接本地模型也足够写汇总规划,引流方面这已经是极致了吧,对比其他大厂推出的 coding 工具,都是适配自家模型; 虽然禁止国内访问, 但这也是最契合它的商业定位.毕竟中国是超级流量,但是总体消费水平还不够高,大量的多人共享账号,哪怕实名制也够呛能控制. 应该算是把开放性和成本控制都做到了最佳实现.再偏袒用户一点,估计就是允许多路由了,选不同模型切换不同的供应商, 这个又被 OpenCode 实现了, 但也验证了开了这个口子,收入大减,OpenCode 的兼容适配速度这么慢就知道缺少资源投入.
参考这里的回复: https://www.v2ex.com/t/1210011?p=1#reply7
跑过 lightRAG 的配置
給 24GB 显存的推荐一个实用的组合:
# LLM 模型+嵌入模型+24GB 显存组合配置(2026-04-30)
## Qwen-9B 19252MB LLM 模型
docker run -d --name vllm-qwen3.5-9b-awq-bf16-int4 --gpus all \
-p 8100:8000 \
-e VLLM_USE_MODELSCOPE=True \
-v /home/tab/docs/vllm_model:/models \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/cyankiwi/Qwen3___5-9B-AWQ-BF16-INT4 \
--served-model-name Qwen3-9B \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--enable-auto-tool-choice \
--max-model-len auto \
--max-num-seqs 4 \
--enable-prefix-caching \
--speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
--gpu-memory-utilization 0.80

## bge-m3(1024 维度) 嵌入模型
docker run -d \
--gpus all \
--name vllm-baai-bge-m3 \
--ipc=host \
-p 8101:8000 \
-v /home/tab/docs/vllm_model:/models \
-e VLLM_USE_MODELSCOPE=True \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/BAAI/bge-m3 \
--served-model-name bge-m3 \
--gpu-memory-utilization 0.2
这种配置要亏死你, 你的成本怎么可能做得过算力云供应商. 就算自己也用, 也是极其浪费的.
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3822 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 04:21 · PVG 12:21 · LAX 21:21 · JFK 00:21
♥ Do have faith in what you're doing.