https://www.anthonyboyd.graphics/wp-content/uploads/2018/06/Matte-Black-Bottle-Mockup.zip
尝试写爬虫练练手,找了个套了 CF 的无名小站,抓取它的静态地址时,用 chrome 和 Firefox 都能下载,用 php 咋都下载不下来,CF 直接给我 404,然后我把 Firefox 的 header 全复制下来,还是 404:
file_get_contents('https://www.anthonyboyd.graphics/wp-content/uploads/2018/06/Matte-Black-Bottle-Mockup.zip',false,stream_context_create(array(
'http'=>array(
'method'=>'GET',
'header'=>"Accept:text/html,application/xhtml+xm … plication/xml;q=0.9,*/*;q=0. \r\n".
"Accept-Language:zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2 \r\n".
"Host:www.anthonyboyd.graphics \r\n".
"Upgrade-Insecure-Requests:1 \r\n".
"User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"
)
)));
遂用 cURL,还是不行,CF 直接给我 404,这到底是怎么回事? CF 辨别机器人这么强悍?
1
lvsemi1 2018-06-07 17:46:06 +08:00
|
2
asdqwe876 2018-06-07 17:56:36 +08:00 via Android
楼主基础不行啊
|
3
Mazi 2018-06-07 18:21:07 +08:00 1
几个问题。
1、Accept 复制不全,中间省略了一段你没发现? 2、关键的 Accept-Encoding 你没复制,现代浏览器都有这个东西,尤其你 UA 都说自己是火狐了,你却缺少了这个,很明显你不是真实用户。 3、 加上 referer 字段,我刚测试了一下,没有 referer 返回 403,加上就 200 了。 我写了个 test.php 给你参考。注意:这个链接最多下载 20 次(我已经下载了 1 次),24 小时 后过期。 https://send.firefox.com/download/41f974a28a/#6o_Hfew3xBbF2NARCNhNCA |
4
jimages 2018-06-07 18:27:12 +08:00 via iPhone
已经占用一次下载
|
5
t123yh 2018-06-07 18:31:49 +08:00 via Android
将请求 Copy as cURL 了解一下
|
6
Menci 2018-06-07 19:15:42 +08:00 via Android
占用了一次下载
|