gongfuxiongmao
V2EX  ›  问与答

有大佬能抓取这个网址吗

  •  
  •   gongfuxiongmao · Mar 4, 2020 · 5187 views
    This topic created in 2266 days ago, the information mentioned may be changed or developed.

    http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

    这个网址看着是静态网站,但是还是抓不到数据

    27 replies    2020-03-09 12:42:30 +08:00
    shuizhengqi
        1
    shuizhengqi  
       Mar 4, 2020
    你信不信你会被喝茶
    murmur
        2
    murmur  
       Mar 4, 2020   ❤️ 4
    一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了
    gongfuxiongmao
        3
    gongfuxiongmao  
    OP
       Mar 4, 2020
    @shuizhengqi 抓一个这网站,还好吧?又没违法
    opengps
        4
    opengps  
       Mar 4, 2020
    诚心建议:写爬虫不要碰这类网站
    ESeanZ
        5
    ESeanZ  
       Mar 4, 2020
    “.gov.cn”这种域名的就别碰了
    mianbao1
        6
    mianbao1  
       Mar 4, 2020 via iPhone
    这是 zf 的网站吧
    gongfuxiongmao
        7
    gongfuxiongmao  
    OP
       Mar 4, 2020
    好吧,那还是听大家的吧,本来只是想学习一下,有疫情更新,就给自己发个邮件。
    jeffrycheng
        8
    jeffrycheng  
       Mar 4, 2020
    相信网警的力量,分分钟就警察到你家
    hundan
        9
    hundan  
       Mar 4, 2020 via iPhone   ❤️ 3
    又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶?
    fengbjhqs
        10
    fengbjhqs  
       Mar 4, 2020
    没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有

    静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom,

    再有如果是疫情网上有其他 api,没有必要爬这个哇
    aureole999
        11
    aureole999  
       Mar 4, 2020
    curl 都可以拿到内容啊,有啥不行的?
    coderluan
        12
    coderluan  
       Mar 4, 2020
    告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。
    Altar
        13
    Altar  
       Mar 4, 2020
    headless chrome
    fish267
        14
    fish267  
       Mar 4, 2020
    这么低频的,写个自动化脚本不就搞定了么
    barrelsoil
        15
    barrelsoil  
       Mar 4, 2020 via Android
    @fengbjhqs 知乎把字节跳动屏蔽了?
    13k
        16
    13k  
       Mar 4, 2020
    疫情数据新浪和网易都有 api,自行搜索 v 站
    crella
        17
    crella  
       Mar 4, 2020 via Android
    这种静态网页,说不定连访问 ip 记录都没有……

    广东省教育厅网页也几乎全是静态网页,加载速度很快
    Macguffin
        18
    Macguffin  
       Mar 4, 2020 via Android
    feed43,注册一个免费账号就行
    Mavious
        19
    Mavious  
       Mar 4, 2020 via iPhone
    feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

    目前发现 feed 的 5 种失败情况:
    1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望)
    2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望)
    3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了)
    4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。
    5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。
    gongfuxiongmao
        20
    gongfuxiongmao  
    OP
       Mar 4, 2020
    这个网站我用 postman,发现返回的数据,没有正文
    aloyuu
        21
    aloyuu  
       Mar 4, 2020 via Android
    @hundan 你肯定没被请喝茶过
    gongfuxiongmao
        22
    gongfuxiongmao  
    OP
       Mar 4, 2020
    @aureole999 curl 我这里怎么拿不到,里面的正文内容是空的,只有一堆 js
    dallaslu
        23
    dallaslu  
       Mar 4, 2020
    带着 Cookie 应该还好吧。另外 gov.cn 肯定能爬,不然天眼查的数据都哪里来的
    l0wkey
        24
    l0wkey  
       Mar 4, 2020 via iPhone
    @barrelsoil $BIDU$投资了
    npm
        25
    npm  
       Mar 4, 2020
    小心喝茶噢
    hundan
        26
    hundan  
       Mar 4, 2020 via iPhone
    @aloyuu 你轻车熟路?
    aureole999
        27
    aureole999  
       Mar 9, 2020
    chrome 打开 f12,找到页面请求,右键 copy as curl 就可以
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5959 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 157ms · UTC 03:25 · PVG 11:25 · LAX 20:25 · JFK 23:25
    ♥ Do have faith in what you're doing.