V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shuimugan  ›  全部回复第 3 页 / 共 22 页
回复总数  422
1  2  3  4  5  6  7  8  9  10 ... 22  
114 天前
回复了 Int100 创建的主题 程序员 AI(大模型)本地化项目 和 部署设备
客户端
https://lmstudio.ai/ 界面布局合理,功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
@hancai 是的,报价里附带的服务器配置清单和参考价格,分分钟比系统还贵,直接劝退不少客户。
有的时候其实不是微服务和单体的事,而是你的项目的性能和资源消耗的问题。举个例子:
有的微服务项目,一个实例启动需要 2 核 4G 甚至 4 核 8G~16G ,但是能承载的并发只有 100 甚至 50 ;
有的微服务项目,一个实例启动需要 2 核 4G 甚至 1 核 0.5G ,但是能承载的并发有 500~2000 ;

一年下来的开销差异可不少,真的别吹内存不值钱了,在云服务上就是真的贵。反正我是见过一年 2000w 云服务支出,一小半支出在云服务商的数据库上,另外大部分的钱都是 ECS ,cpu 大量空闲时间但是内存水位常年 75%以上占用的,是什么语言为主大家都懂的,钱都花在刀把上了,现在就在那里开猿节流、降本增笑。
119 天前
回复了 qinjiang 创建的主题 Vue.js 2024 前端圈开年之战
我站 Angular
yi-34B 确实不错,连训练黄文都用它做的基底.4bit 的量化下在 m2 ultra 上可以 1 秒跑 19~22token,大概占用 28G 显存.装个 lm studio 把一部分数据卸载到内存配合 cpu 跑的话,用 2080ti+5900x1 秒是可以 1.3 个 token 左右
122 天前
回复了 magese 创建的主题 Java 有实际使用 SpringWebFlux 的大佬分享下经验吗?
调研过,用了就相当于回到 2017 年之前的 nodejs 还没到 8.0 lts(async/await 进入稳定版)前代码中的回调地狱,当然这个 async/await 也是抄 2012 年.NET Framework 4.5 的。所以一般也就面试问问看看是不是真的有人脑子抽了选型用这个。知道它能干嘛的,确实需要解决问题的,大概率也会换个语言把要做的事情做了。
128 天前
回复了 leven87 创建的主题 数据库 django+mariadb 多租户架构方案讨论
方案一很勇哦,先想一想灰度方案怎么做,怎么样更新不会影响全租户,租户有没有数据库私有化的需求,有没有"坏租户"数据量过大拖垮整个数据库性能的风险
https://insomnia.rest/
https://www.usebruno.com/

git 友好的 http client
162 天前
回复了 viewer003 创建的主题 职场话题 关于规范公司空调使用的通知
降本增笑,开猿节流😂
见怪不怪了,这种多漏洞的 web 应用,部署的时候都是前置一个网关放个 basic auth 或者扫码登录啥的,过了前置认证再进入真正的 web 应用,防止 0day 出来时直接被干
如果不肯把全部项目升级到统一版本,我一般就是去 https://nodejs.org/en/download 把各个版本的 zip 包下载解压到不同路径,敲命令时使用绝对路径的 node/npm
203 天前
回复了 xyxsw2023 创建的主题 JavaScript 群友出了一道 JS 异步顺序题😫
没啥意义,敢这么写的都让我打回去用正规 async function 写法了。
IDE 的坏味道告警出题人真不看是吧,async function 里面不用 await 的话,函数为啥不去掉 async 。
setTimeout 换成 const setTimeout = require('timers/promises').setTimeout 保平安。

以前面试 PHP 技术管理时,也碰到过 PHP 里类似题目,我就写了几个代码里出现能勉强容忍的,剩下的写"不回答,在团队里敢这么写的都会被打回去重写"。然后一面时告诉我,我的笔试题是历史上最高分的。
220 天前
回复了 hokman 创建的主题 程序员 话说群发邮件为啥一般要挂 ip 代理?
还有一种目的是防止从邮件原文的 ip 信息里抓到源站,然后导致源站被 DDoS
229 天前
回复了 unt 创建的主题 Node.js node 写简单接口发现一件诡异的事,求解答
基础不牢看什么都是魔法,上抓包数据
减少用平台编写简历功能,每个公司投一个 pdf ,里面名字随机一下,比如投网易就吴彦易,投淘宝就吴彦宝,甚至可以做个表格记录一下映射,以后还能抓到有没有内鬼倒卖你简历。帮别人做背调时同理。
小米 8 刷了 LineageOS 具流畅,被我拿来当测试机了,再刷一个谷歌相机拍照也超好
本质就是一个 C10K 的问题,当你想用多线程搞线程池的时候已经错误了,要用全链路异步的方案.

通常纠结这个问题的一般是纯 java 系程序员,换个带异步语言会豁然开朗了.
这哪大佬了?从我多年面试经验来看,这个顶多算 5 年经验,后面时间都在重复前面的,广度深度都不足,下面是分析过程

1:写 java 的,笔记本推荐最低 16g 内存而不是 32g,证明平时不怎么开虚拟机,cpu 就写了个 i7 没有具体型号,说明也不了解硬件和价格,一般这种人折腾能力不足,通常反映出来的就是运维技能偏弱,线上出事故了不能全局分析问题和排查定位;

2:2023 年,并发还在讲多线程,证明技术栈落后,不关注主流技术演进方案,就像现在教你 ie 的兼容方案一样,该扫进垃圾堆了;
3:企业级开发那里,有 k8s 的情况下还给你上注册中心,证明没有思考不会做减法.再看网关选型,云原生的一个都没,就知道除了 java 啥都不会了,技术广度不足;

4:项目架构图那里,监控方案居然把 supervisord 都写上了,这玩意就一个守护进程工具,在 k8s 流行之前给服务做守护进程用的,但凡用了 k8s 你都不会再用它了,而且旁边出现的竟然是"docker 容器化"而不是"k8s",说明实践不足,技术深度不足;

做个项目 leader 带点人干活还行,架构师能力远远不足,带个并发三五百的项目就接近上限了.
我这 win10 ltsc 下的 vscode 也经常出现卡住的问题,只有在 amd cpu 的 win10 ltsc 上会出现(2700x,5700g,5900x,4800h,5800h 都会),另一个 intel 的 8700k 跑 win10 ltsc 就不会
nestjs 就可以了,web 就那点东西,随便一个框架抄一年半载都能把功能抄得差不多了,看 nestjs 最近的版本迭代就能发现了.

可以看下<大规模 Node.js 网关的架构设计与工程实践> https://www.infoq.cn/article/KtgQDQS3qxus5zhNyuA0
1  2  3  4  5  6  7  8  9  10 ... 22  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2550 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 14:27 · PVG 22:27 · LAX 07:27 · JFK 10:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.