V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
respect11
V2EX  ›  程序员

[中文地址提取关键词,匹配标准库的关键词更换] 有什么好的实现思路吗?

  •  
  •   respect11 · 2022-10-10 14:39:17 +08:00 · 1516 次点击
    这是一个创建于 809 天前的主题,其中的信息可能已经有所发展或是发生改变。

    实例数据:

    1.柒松江区上海市松江区岳阳街道木鱼弄 5-16 号木鱼弄小区木鱼弄 16 号 301 室 
    

    #.提取为 [木鱼弄 16 号 301 室]

    #.提取为标准库中的[西林塔居委]

    2.九亭镇涞亭北路 99 弄 203 号 502 室 
    

    #.提取为 [九亭镇涞亭北路 99 弄 203 号 502 室]

    #.提取为标准库中的[奥园居委]

    类似这样的数据,标准库中具体是什么关键词这个也不太清楚。有什么推荐算法或者实现思路吗?
    
    13 条回复    2022-10-10 17:15:21 +08:00
    blankmiss
        1
    blankmiss  
       2022-10-10 14:50:20 +08:00   ❤️ 1
    怎么看起来像是 es 的分词?
    respect11
        2
    respect11  
    OP
       2022-10-10 14:54:06 +08:00
    @blankmiss #1 差不多,大佬可以推荐个分词后进行匹配算法吗?
    joApioVVx4M4X6Rf
        3
    joApioVVx4M4X6Rf  
       2022-10-10 15:00:35 +08:00   ❤️ 1
    ner?
    buyan3303
        4
    buyan3303  
       2022-10-10 15:01:09 +08:00   ❤️ 1
    总感觉和顺丰自动提取地址类似,这个是不是可以在 GITHUB 上搜索一下 [顺丰 地址] 之类的关键词
    respect11
        5
    respect11  
    OP
       2022-10-10 15:04:07 +08:00
    @buyan3303 #4 对,第一步拆分提取差不多。核心主要是和标准库数据进行匹配,相当于路名或者小区提取出来某个居委会或者街道
    respect11
        6
    respect11  
    OP
       2022-10-10 15:04:26 +08:00
    @v2exblog #3 谢谢大佬,我去研究下
    Troevil
        7
    Troevil  
       2022-10-10 15:17:37 +08:00   ❤️ 1
    nlp? 类似 paddlenlp 应该可以实现,不过对于你这个需求可能有点重
    Vegetable
        8
    Vegetable  
       2022-10-10 15:18:50 +08:00
    你这路子感觉不对劲,交给地图不好吗,使用高德之类的 API ,可以轻松的将不规则的地址标准化,再拿到自己的库里比对居委会,这玩意确实没见过开放 API
    respect11
        9
    respect11  
    OP
       2022-10-10 15:20:45 +08:00
    @Vegetable #8 环境特殊..这个必须内网😂
    Vegetable
        10
    Vegetable  
       2022-10-10 15:30:36 +08:00
    @respect11 你这么一说,大家估计都猜出来你在做什么了...你这个挺麻烦,但愿有现成的轮子吧
    respect11
        11
    respect11  
    OP
       2022-10-10 15:32:30 +08:00
    @Vegetable #10 😂
    QuinceyWu
        12
    QuinceyWu  
       2022-10-10 15:33:14 +08:00   ❤️ 1
    TimePPT
        13
    TimePPT  
       2022-10-10 17:15:21 +08:00   ❤️ 1
    标准库中具体是什么关键词这个也不太清楚
    ================
    这个提取好说,就是地点 NER 。但和标准库没法直接 NLP 替换啊,文本层面一点相似性都没有。你这匹配规则是啥都不清楚。明显是需要地点和区域映射。
    如果外网的话,有些地图服务商提供 API 的,内网的话,只能自己维护。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:58 · PVG 10:58 · LAX 18:58 · JFK 21:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.