requests 请求京东商品搜索页返回登录页面问题

>>> import requests
>>> url = 'https://search.jd.com/Search?keyword=9787208151550'
>>> html_data = requests.get(url).text
>>> html_data
"<script>window.location.href='https://passport.jd.com/uc/login'</script>"

html_data

Requests

url

页面

9 条回复 • 2019-03-04 09:52:16 +08:00

napsterwu

2019-03-03 00:35:32 +08:00 via iPhone

你自己看看一个页面有多少报文头，爬虫是这么好做的？

bakabie

2019-03-03 00:45:20 +08:00

get 函数中设置一下 headers 报头吧。你好歹也装一下意思意思自己是个用户而不是爬虫呀

lithiumii

2019-03-03 00:55:04 +08:00

不会编 headers 可以先 f12，找到第一个请求右键复制成 cURL，然后去 curl.trillworks.com 转换成 python 或者别的语言。
京东搜索页我记得挺松的，只需要 headers 就可以了，cookie 可以不用，下面的 params 只保留关键词就行。

以下是搜 "1000x" 复制来的例子，cookie 我已经删了
import requests

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.5,zh;q=0.3',
'Referer': 'https://www.jd.com/',
'DNT': '1',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1',
'TE': 'Trailers',
}

params = (
('keyword', '1000x'),
('enc', 'utf-8'),
('wq', '1000x'),
('pvid', '70b2126fcf3246ce9f32710d41799ede'),
)

response = requests.get('https://search.jd.com/Search', headers=headers, params=params)