有大佬能抓取这个网址吗

网址

静态

大佬

抓

27 replies • 2020-03-09 12:42:30 +08:00

1

shuizhengqi

Mar 4, 2020

你信不信你会被喝茶

2

murmur

Mar 4, 2020

4

一天一条数据你还写个爬虫，是家里的饭不香了还是房子没单间大了

3

gongfuxiongmao

OP

Mar 4, 2020

@shuizhengqi 抓一个这网站，还好吧？又没违法

4

opengps

Mar 4, 2020

诚心建议：写爬虫不要碰这类网站

5

ESeanZ

Mar 4, 2020

“.gov.cn”这种域名的就别碰了

6

mianbao1

Mar 4, 2020 via iPhone

这是 zf 的网站吧

7

gongfuxiongmao

OP

Mar 4, 2020

好吧，那还是听大家的吧，本来只是想学习一下，有疫情更新，就给自己发个邮件。

8

jeffrycheng

Mar 4, 2020

相信网警的力量，分分钟就警察到你家

9

hundan

Mar 4, 2020 via iPhone

3

又不造成影响访问频率跟浏览差不多吧除非你拿来做奇怪的用途楼上一群未免矫枉过正？ icp 备案查询不也是 gov 域名用 icp 备案查询网站做爬虫反代的你们是没见过吗？别说请你喝茶不讲理由爬这个站点是触动了什么利益吗看心情请你喝茶？

10

fengbjhqs

Mar 4, 2020

没有楼上说的那么可怕，不要爬取用户信息，还有遵循 robots 协议，比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ，坑爹的是这个网站没有

静态文件可以用正则，如果是 js 可以用 cheerio 或者 jsdom，

再有如果是疫情网上有其他 api，没有必要爬这个哇

11

aureole999

Mar 4, 2020

curl 都可以拿到内容啊，有啥不行的？

12

coderluan

Mar 4, 2020

告诉楼主个思路，别用爬虫，用油猴，数据肯定能拿到，这样实际上抓取的操作都是在你自己的电脑完成的，对于网站来说你只是打开页面速度很频繁而已，完全是安全的，这种方式”爬“数据的唯一缺点就是性能。

13

Altar

Mar 4, 2020

headless chrome

14

fish267

Mar 4, 2020

这么低频的，写个自动化脚本不就搞定了么

15

barrelsoil

Mar 4, 2020 via Android

@fengbjhqs 知乎把字节跳动屏蔽了？

16

13k

Mar 4, 2020

疫情数据新浪和网易都有 api，自行搜索 v 站

17

crella

Mar 4, 2020 via Android

这种静态网页，说不定连访问 ip 记录都没有……

广东省教育厅网页也几乎全是静态网页，加载速度很快

18

Macguffin

Mar 4, 2020 via Android

feed43，注册一个免费账号就行

19

Mavious

Mar 4, 2020 via iPhone

feed43 不是通用型爬虫，遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

目前发现 feed 的 5 种失败情况：
1，post 协议给数据（ feed43 只支持 get，除非自建，否则完全无法解决，绝望）
2，该网站不允许国外访问（年久失修 g0v 居多，除非自建，否则完全无法解决，绝望）
3，js 返回数据的（看近几年有好转，feed43 正在改善这个问题，现在很少见了）
4，成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目，今日已读完，明天网站没有更新条目，但这 20 条又推过来了，简直重复条目轰炸。
5，网站临时性无法访问，feed 推个 bad request，长期性无法访问，就第一次推过 bad，然后就悄无声息了~？需要人肉排查找出无法更新的源，有时候很久才发现爬虫挂了，然后错过重要信息。累。

20

gongfuxiongmao

OP

Mar 4, 2020

这个网站我用 postman，发现返回的数据，没有正文

21

aloyuu

Mar 4, 2020 via Android

@hundan 你肯定没被请喝茶过

22

gongfuxiongmao

OP

Mar 4, 2020

@aureole999 curl 我这里怎么拿不到，里面的正文内容是空的，只有一堆 js

23

dallaslu

Mar 4, 2020

带着 Cookie 应该还好吧。另外 gov.cn 肯定能爬，不然天眼查的数据都哪里来的

24

l0wkey

Mar 4, 2020 via iPhone

@barrelsoil $BIDU$投资了

25

npm

Mar 4, 2020

小心喝茶噢

26

hundan

Mar 4, 2020 via iPhone

@aloyuu 你轻车熟路？

27

aureole999

Mar 9, 2020

chrome 打开 f12，找到页面请求，右键 copy as curl 就可以