首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

爬虫如何快速爬取某搜索 api 中所有数据?

  •  
  •   qfdk · 59 天前用 iPhone 发布 · 1263 次点击
    这是一个创建于 59 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个小小的需求, 有一个搜索引擎专门搜索到公司信息的列表 比如 baidu 会出现相关 百度公司的信息. 那么问题来了 如何快速爬(复)取(制) 这里面的所有数据呢? 那搜索 api 全文匹配 。。

    思考的方法以 a-z 为关键字 模糊匹配 然后去重复入库?

    不知道老哥们有没有更风骚的方法

    15 回复  |  直到 2019-05-23 13:44:58 +08:00
        1
    tikazyq   59 天前
    听说过 xpath 和 css selector 么,爬虫没有这些基本干不了活,除非是用正则匹配。想了解更多爬虫么,关注一下开源爬虫平台 Crawlab 吧,github: http: // github. com/tikazyq/crawlab
        2
    qfdk   59 天前
    @tikazyq #1 你没有明白这个问题,相当于一个搜索框要把里面存在的关键词都搞出来 关键词都是公司的名字
        3
    tomczhen   59 天前
    技术我不懂,但是怎么判断爬取到的数据就是所有数据呢?
        4
    newtype0092   59 天前
    你这相当于盲猜啊,都不知道有哪些公司怎么搜?
    可以从其他渠道获取一个公司列表,然后作为 key 用这个 api 去查。
        5
    qfdk   59 天前
    @newtype0092 #4 对的 就是盲猜 所以想 用 a-z 的方法 因为都是 外国公司
        6
    hakono   59 天前 via iPhone
    搂住你自己都给出了解决办法了。
        7
    qfdk   59 天前
    @hakono #6 我是想问问有没有更高端的办法
        8
    lbfeng   58 天前
    @tikazyq 爬 API 不是页面
        9
    lbfeng   58 天前
    @qfdk 这样对服务器算攻击吧。
        10
    LukeChien   58 天前 via Android
    ES Query 注入
        11
    qfdk   58 天前
    @LukeChien #10 java 写的 后端是 wildfly 服务器

    @lbfeng #9 应该不算吧,但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面 拿数据好困难 找到 api 但是各种奇葩
        12
    dengtongcai   58 天前 via iPhone
    f12 右键,copy selector …
        13
    zdnyp   58 天前
    首先你要有企业名称的数据,然后调搜索的接口,采集入库
        14
    qfdk   58 天前 via iPhone
    @dengtongcai 我知道 但是这里不好用
        15
    qfdk   58 天前 via iPhone
    @zdnyp 目的是盲猜 不过目的已经达到了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2071 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 21ms · UTC 15:37 · PVG 23:37 · LAX 08:37 · JFK 11:37
    ♥ Do have faith in what you're doing.