zarte
V2EX  ›  问与答

有个新需求很头大来这求教。

  •  
  •   zarte · Dec 14, 2018 · 1894 views
    This topic created in 2712 days ago, the information mentioned may be changed or developed.

    任意添加网站一般是论坛,爬虫每天根据关键词爬取帖子(整个页面应该也行)。
    问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath (实际用起来貌似也会有问题)。
    2.帖子的日期如何获取
    3.如何不重复爬取。

    这种需求的难度:低 中 高 ?

    11 replies    2018-12-15 10:23:37 +08:00
    Bryan0Z
        1
    Bryan0Z  
       Dec 14, 2018 via Android
    一个爬虫爬遍任意网站?有点厉害
    wly19960911
        2
    wly19960911  
       Dec 14, 2018
    是超高
    jinksw
        3
    jinksw  
       Dec 14, 2018   ❤️ 1
    添加网站的时候 让他给你 然后 你挨个添加规则 分页规则 内容规则 日期规则 唯一性规则
    zarte
        4
    zarte  
    OP
       Dec 14, 2018
    @jinksw 嗯,先按这个弄
    a62527776a
        5
    a62527776a  
       Dec 14, 2018
    那以后每天的工作就是研究各个网站的规则了 →。→
    maplelin
        6
    maplelin  
       Dec 14, 2018
    这是让你去造高达吧
    Kinnice
        7
    Kinnice  
       Dec 14, 2018 via Android
    爬虫框架 5k,规则 1k 一条 可持续收入 /滑稽
    limuyan44
        8
    limuyan44  
       Dec 14, 2018 via Android
    ai 啊,添加一条数据后给你发短信,你把代码写好在放上去,最重要的是要按网址收费。。
    zarte
        9
    zarte  
    OP
       Dec 14, 2018
    @a62527776a 不愁没工时了(`・ω・´)
    zarte
        10
    zarte  
    OP
       Dec 14, 2018
    @maplelin 能做出来的话可以自己拿去卖哈哈 ̄ω ̄=
    adrianyoung
        11
    adrianyoung  
       Dec 15, 2018 via Android
    url 去重做缓存检查
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   924 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 20:50 · PVG 04:50 · LAX 13:50 · JFK 16:50
    ♥ Do have faith in what you're doing.