doraemon0711 最近的时间轴更新
doraemon0711

doraemon0711

V2EX 第 379711 号会员,加入于 2019-01-24 12:44:38 +08:00
根据 doraemon0711 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
doraemon0711 最近回复了
22 天前
回复了 ggp1ot2 创建的主题 GitHub Copilot Cursor 崩了吗?
我在使用时倒是经常碰到编辑器输入卡顿,吞掉输入的文字等 bug
@heihe 大概明白了,是不是可以理解成提高召回更多的是对 query 做处理,而 doc 只需要维护好分词词典就可以了,ik 分词器已经解决了大部分中文分词的情况了
@heihe 我的数据到不了每天几十亿,但是每天几百万的写入请求可能是有的,目的实际上也是减轻 es 的压力,顺便不确定 ik 分词的 ik_max_word 模式是否合适(这个倒是次要的)
不过看你回复的实体识别本身和分词没有关系,是不是可以理解成分词和 NER 是平行两条线,在将 doc 传入 es 前,先通过 NER 提取出关键词然后作为另一个字段额外保存,而文档本身还是在 es 中做分词处理(我一直理解的是 NER 是要基于分词结果做处理)
@heihe 我的想法整体和你一致,就是分词放到 ES 上游,分好的 terms 用空格拼接,ES 内部再用空格分词;只不过我在分词之后额外做一个持久化存储( mongodb ),原因是我不清楚 es 保留全部_source 会不会对性能产生影响,如果只保留部分 field ,添加新 field 并要刷数据是就要用到(省去重新分词的步骤)


@lix7 其实我主要的问题就是分词要不要从 es 拿出去,一是不清楚分词插件能否满足实际情况,以及维护自定义词典的成本;二是对 query 改写,如果要做实体识别提权等处理,是不是也要先分词才能处理?如果是的话不如就全放到 es 外面来做好了,灵活性还会更高一些,但一想到 es 已经集成了,就比较纠结。
排序这一块不太确定理解的对不对,我理解的是粗排已经由 es 做了,即 es 的主要作用时召回+粗排。精排则需要自己在外部服务去实现,我想法是每次查询请求召回的数量应该比前端请求的数量要多,比如前端传 20 条,我则是查询 es 返回 1000 条,然后再对这 1000 条数据进行精排并添加缓存。但是需求中往往有用户指定按照某个字段排序的情况,这时是不是和粗排精排就没关系了
2023-05-05 19:06:26 +08:00
回复了 doraemon0711 创建的主题 Python 最近在用 Python ,有些混乱请教一下大家
谢谢,准备试试 miniconda ,再问个问题,如果不动 base 环境,但想加一些全局的命令(例如 tldr)该怎么做
2020-04-04 23:33:26 +08:00
回复了 doraemon0711 创建的主题 问与答 oracle 的 hint 算不算一种控制反转的思路
@lhx2008 这么说控制反转这个概念只适用于编译型语言吗
2020-01-28 00:56:26 +08:00
回复了 NoahsArk 创建的主题 Android 寻求一个网盘映射至安卓的方式
好久之前了,lz 找到解决方案了吗,我也遇到了同样的需求,但我的设备是非 root 的
2019-11-26 20:58:44 +08:00
回复了 jeffh 创建的主题 程序员 都来分享一下自己的效率工具吧,互相借鉴,我先来
win 上的截图推荐一个 FastStone Capture
2019-09-28 06:59:03 +08:00
回复了 Kronos 创建的主题 Ruby 问一个 ruby 的问题
@lululau java 一样的
2019-09-08 12:27:58 +08:00
回复了 leoleoasd 创建的主题 问与答 有没有现代编译器不支持旧标准的例子?
vb6.0
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2922 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 08:10 · PVG 16:10 · LAX 00:10 · JFK 03:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.