V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
findlisa
V2EX  ›  程序员

请教个检索系统技术问题

  •  
  •   findlisa · 139 天前 via iPhone · 645 次点击
    这是一个创建于 139 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在要做个检索系统,数据大概 500w ,数据源来源于外部,第一次全量解析 xml 文件,后续每天拿到增量数据包增量更新,检索要求可以根据相似度匹配(可调节相似度)
    目前调研
    1.大文件文件解析可以用事件方式 如 stax ,防止一次加载到内存
    2.相似度查询目前了解可以用 es 或者数据库 fulltext ,但是考虑到查询性能倾向 es
    3.数据解析的话解析时候写到数据库,同时同步到 es ,只同步查询字段,然后检索先在 es 查到主键再去数据库根据主键查询

    问问各位大佬技术选择和方案有没有什么问题,或者数据存储、查询有没有别的方式,谢过各位🧐,这也是小弟第一次负责做一个从 0 到 1 的系统,有点怕做不好呢
    findlisa
        1
    findlisa  
    OP
       138 天前 via iPhone
    没人吗🤣
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1798 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:16 · PVG 00:16 · LAX 09:16 · JFK 12:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.