V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jakeyfly
V2EX  ›  问与答

关于爬虫,现在有没有技术可以实现,不请求连接,而能知道目标网站是否更新的技术?

  •  
  •   jakeyfly · 2018-05-31 20:12:29 +08:00 · 1807 次点击
    这是一个创建于 2371 天前的主题,其中的信息可能已经有所发展或是发生改变。

    增量爬取,肯定要先读取页面,或接口,才能知道目标源是否更新。我觉得这就像一个黑洞一样,你不把头伸进去,是不会知道里面情况是否变化的。 可我一直发现有人吹,可以在不请求的情况下,得知目标网站是否变化? 实在想不通其中原理,求大佬们解惑。

    18 条回复    2018-06-01 16:46:19 +08:00
    wintercoder
        1
    wintercoder  
       2018-05-31 20:14:00 +08:00
    对方调你接口,然而这是不太可能的
    xiaoke0718
        2
    xiaoke0718  
       2018-05-31 20:15:02 +08:00
    用 Python
    whoami9894
        3
    whoami9894  
       2018-05-31 20:24:49 +08:00 via Android
    要不问问吹的那个人怎么做到的
    Kendall
        4
    Kendall  
       2018-05-31 20:30:45 +08:00 via Android
    访问 archive 或者 Google 的缓存页面?
    jakeyfly
        5
    jakeyfly  
    OP
       2018-05-31 20:38:30 +08:00
    @Kendall。。。缓存怎么可能有实时信息
    Foolt
        6
    Foolt  
       2018-05-31 20:47:44 +08:00
    原理很简单,只要敢吹,什么都有可能。
    jiangnanyanyu
        7
    jiangnanyanyu  
       2018-05-31 20:52:17 +08:00 via Android
    去他们公司工作
    LukeChien
        8
    LukeChien  
       2018-05-31 20:55:20 +08:00 via Android
    静态页面用 head 方法读响应头的 etag,可以节约流量。部分情况下有效。
    opengps
        9
    opengps  
       2018-05-31 20:58:03 +08:00
    可以啊,变相实现,请求百度的快照#######
    a7a2
        10
    a7a2  
       2018-05-31 21:11:32 +08:00
    这些都是你自己写代码实现的一部分。。。

    每次访问取 body 然后 md5 写入数据库,下次同样方式然后对比 md5 即可

    “可以在不请求的情况下,得知目标网站是否变化?“是不可能的,对自己掌握的技术及一些基本原理要有信心。

    爬虫在页面停留,页面自动刷新已经算是接收了数据。
    gamexg
        11
    gamexg  
       2018-05-31 21:27:33 +08:00
    访问列表页,列表页按更新时间排序?
    night98
        12
    night98  
       2018-05-31 21:32:49 +08:00
    http 304 ?否则不请求怎么可能知道有没有变化,就跟你不去执行方法你怎么知道方法的返回值是什么?
    qsnow6
        13
    qsnow6  
       2018-05-31 22:33:03 +08:00 via iPhone   ❤️ 1
    http header 的 tag md5 length 都可以 不需要读取 body
    shiny
        14
    shiny  
       2018-05-31 22:37:23 +08:00
    用算法预测网站的更新时间
    xkeyideal
        15
    xkeyideal  
       2018-06-01 08:59:33 +08:00
    买通对方的程序员即可
    Sylv
        16
    Sylv  
       2018-06-01 09:49:23 +08:00 via iPhone
    量子。。。量子纠缠?
    jakeyfly
        17
    jakeyfly  
    OP
       2018-06-01 11:03:59 +08:00
    @qsnow6 这样也算请求了吧
    Len1133
        18
    Len1133  
       2018-06-01 16:46:19 +08:00
    建立预测模型
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1064 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 20:03 · PVG 04:03 · LAX 12:03 · JFK 15:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.