V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  doraemon0711  ›  全部回复第 1 页 / 共 2 页
回复总数  27
1  2  
26 天前
回复了 ggp1ot2 创建的主题 GitHub Copilot Cursor 崩了吗?
我在使用时倒是经常碰到编辑器输入卡顿,吞掉输入的文字等 bug
@heihe 大概明白了,是不是可以理解成提高召回更多的是对 query 做处理,而 doc 只需要维护好分词词典就可以了,ik 分词器已经解决了大部分中文分词的情况了
@heihe 我的数据到不了每天几十亿,但是每天几百万的写入请求可能是有的,目的实际上也是减轻 es 的压力,顺便不确定 ik 分词的 ik_max_word 模式是否合适(这个倒是次要的)
不过看你回复的实体识别本身和分词没有关系,是不是可以理解成分词和 NER 是平行两条线,在将 doc 传入 es 前,先通过 NER 提取出关键词然后作为另一个字段额外保存,而文档本身还是在 es 中做分词处理(我一直理解的是 NER 是要基于分词结果做处理)
@heihe 我的想法整体和你一致,就是分词放到 ES 上游,分好的 terms 用空格拼接,ES 内部再用空格分词;只不过我在分词之后额外做一个持久化存储( mongodb ),原因是我不清楚 es 保留全部_source 会不会对性能产生影响,如果只保留部分 field ,添加新 field 并要刷数据是就要用到(省去重新分词的步骤)


@lix7 其实我主要的问题就是分词要不要从 es 拿出去,一是不清楚分词插件能否满足实际情况,以及维护自定义词典的成本;二是对 query 改写,如果要做实体识别提权等处理,是不是也要先分词才能处理?如果是的话不如就全放到 es 外面来做好了,灵活性还会更高一些,但一想到 es 已经集成了,就比较纠结。
排序这一块不太确定理解的对不对,我理解的是粗排已经由 es 做了,即 es 的主要作用时召回+粗排。精排则需要自己在外部服务去实现,我想法是每次查询请求召回的数量应该比前端请求的数量要多,比如前端传 20 条,我则是查询 es 返回 1000 条,然后再对这 1000 条数据进行精排并添加缓存。但是需求中往往有用户指定按照某个字段排序的情况,这时是不是和粗排精排就没关系了
2023-05-05 19:06:26 +08:00
回复了 doraemon0711 创建的主题 Python 最近在用 Python ,有些混乱请教一下大家
谢谢,准备试试 miniconda ,再问个问题,如果不动 base 环境,但想加一些全局的命令(例如 tldr)该怎么做
2020-04-04 23:33:26 +08:00
回复了 doraemon0711 创建的主题 问与答 oracle 的 hint 算不算一种控制反转的思路
@lhx2008 这么说控制反转这个概念只适用于编译型语言吗
2020-01-28 00:56:26 +08:00
回复了 NoahsArk 创建的主题 Android 寻求一个网盘映射至安卓的方式
好久之前了,lz 找到解决方案了吗,我也遇到了同样的需求,但我的设备是非 root 的
2019-11-26 20:58:44 +08:00
回复了 jeffh 创建的主题 程序员 都来分享一下自己的效率工具吧,互相借鉴,我先来
win 上的截图推荐一个 FastStone Capture
2019-09-28 06:59:03 +08:00
回复了 Kronos 创建的主题 Ruby 问一个 ruby 的问题
@lululau java 一样的
2019-09-08 12:27:58 +08:00
回复了 leoleoasd 创建的主题 问与答 有没有现代编译器不支持旧标准的例子?
vb6.0
2019-08-17 19:08:11 +08:00
回复了 doraemon0711 创建的主题 问与答 有没有脚本可以屏蔽 stackoverflow 的爬虫翻译网站
有时候就是懒得看外文才用中文搜的,并且这种网站不止四五个,并且这些网站都是 google 或是 bing 搜出来的(百度太垃圾已经不用了)
2019-07-20 17:17:05 +08:00
回复了 doraemon0711 创建的主题 问与答 VSCode 能不能设置不同系统用不同的字体
找了下 SyncSetting 的 issues,好像有相关的 ignore 的设置,有空试一下..
2019-07-10 00:06:52 +08:00
回复了 doraemon0711 创建的主题 Chrome Chrome 有没有扩展可以多账号数据同步
@Jirajine 没怎么用过火狐,如果收藏夹文件解析方式一样或许可以写个文件监听,如果文件发生改变就复制到对方文件夹当中
2019-07-07 22:35:23 +08:00
回复了 doraemon0711 创建的主题 问与答 现在 wsl 能装到非系统盘吗?
@Satelli 谢谢,这样确实可以,我先装到移动硬盘上了,看看效果怎么样
2019-07-07 19:33:12 +08:00
回复了 doraemon0711 创建的主题 问与答 现在 wsl 能装到非系统盘吗?
#3 @yujiaxin 虚拟机占资源应该会比这个多一些吧,虽然也没关系但还是想试试 wsl 这东西怎么样
#4 @Jirajine 也想过,但感觉这样做很别扭,并且系统盘是 ssd,感觉 users 放在系统盘有些东西会启动快一些
#5 @Satelli 我试了下手动部署,用 Add-AppxPackage 安装仍然是直接安装了,并不会安到所在路径,还是我理解错了?
2019-07-07 15:24:22 +08:00
回复了 doraemon0711 创建的主题 问与答 现在 wsl 能装到非系统盘吗?
@Humorce 是移动 lxss 吗,查了一下好像是说不支持...
@REDPANDA1997 ...我到不觉得是那方面原因啊,因为斗鱼很久以前就这样了
2019-04-19 01:09:19 +08:00
回复了 Mohanson 创建的主题 程序员 Gameboy 模拟器 点火成功!
厉害厉害,我是之前关注了 mvba 的项目想学习,但一直都没动力开始,话说写模拟器是不是汇编必须玩的 6
2019-04-17 11:08:52 +08:00
回复了 mscb 创建的主题 职场话题 10k 工资在上海一个月省吃俭用能存下多少钱呢
唉,实习都 10k 了,lz 啥学历方便说一下吗?</br>
上海不同地方租房价格还是差距挺大的,一般能住人的都得 1.5k 以上,通勤时间也是看地方,比如我住在上海西边,去上海东边坐地铁一般得 1 小时左右
2019-04-10 14:23:42 +08:00
回复了 doraemon0711 创建的主题 问与答 你们工作的环境是排排坐还是隔间的?
可能没表达清楚,不是单独的房间,而是工位之间隔个板子,排排坐上班要如何摸鱼啊😂
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4425 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 05:32 · PVG 13:32 · LAX 21:32 · JFK 00:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.