例如 V2EX 的某个话题页的 url 是: https://www.v2ex.com/t/362535 ,使用 requests 获取内容的代码为:
resp = session.get(url, headers=headers)
print resp.content
我以为是动态网页,又使用了 phantomjs 和 selenium ,代码为:
driver = webdriver.PhantomJS("D:/phantomjs-2.1.1-windows/bin/phantomjs.exe")
driver.get(url)
print driver.page_source
跟查看网页源代码的结果仍然不一样,部分 html 代码缺失了。 这是什么原因啊,真心求教。
1
oh 2017-05-20 21:48:38 +08:00
|
3
katsusan 2017-05-20 22:03:46 +08:00
试了一下登录状态会影响到网页源代码的好像
|
5
creatorYC OP 问题已经解决了,需要登录。谢谢大家
|
7
dd99iii 2017-05-21 15:45:02 +08:00 via iPhone
虽然 requests 也没问题,不过既然 ve2x 提供了 API 就用吧
|
9
dd99iii 2017-05-21 23:04:59 +08:00
|