爬虫相关，关于 XPath 的疑问

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 1417 days ago, the information mentioned may be changed or developed.

http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733222 http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733213

在上面这两个链接中我想获取对应的基金名称，我在浏览器里面获取到的 full XPath 如下

/html/body/table/tbody/tr/td[2]/table/tbody/tr[1]/td[1]/div/table[1]/tbody/tr[2]/td/div/div/table/tbody/tr[1]/td[2]/p

但是第二个链接中我能顺利获取到值，第一个获取到的内容为空

为了给大佬省事，对应的代码如下

from ast import main
from fake_useragent import UserAgent
from lxml import etree
import requests

ua = UserAgent()
headers = {"user-agent": ua.random}
url1 = "http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733222"
url2 = "http://eid.csrc.gov.cn/fund/disclose/instance_html_view.do?instanceid=11733213"


def get_fund_name(url: str):
    x = requests.get(url, headers = headers)
    selector = etree.HTML(x.content)
    fund_name = selector.xpath('/html/body/table/tbody/tr/td[2]/table/tbody/tr[1]/td[1]/div/table[1]/tbody/tr[2]/td/div/div/table/tbody/tr[1]/td[2]/p/text()')
    return fund_name

print(get_fund_name(url1))
print(get_fund_name(url2))

output 如下

[]
['长信利盈灵活配置混合型证券投资基金']

我仔细对比了这两个网页，实在是找不到原因……

34 replies • 2022-09-19 19:40:23 +08:00

dongtingyue

Sep 14, 2022

有些 dom 是 js 渲染的

MrVito

Sep 14, 2022

@dongtingyue 你可以看下这个网页，应该是纯静态的

Stoney

Sep 14, 2022 via iPhone

@MrVito get 里面加个 wait 设置等待时间？有时候是没来得及加载出来吧

humbass

Sep 14, 2022

2202 年的爬虫应该用 JS 来实现更强大；比如 Puppeteer

tankren

Sep 14, 2022

用 try+except 抛个异常看看，为啥要用绝对路径啊，不是不推荐吗

MrVito

Sep 14, 2022

@tankren 相对路径我也取不到……所以就用绝对路径了

MrVito

Sep 14, 2022

@Stoney 加了一个 timeout = 10 ，也还是不对……

MrVito

Sep 14, 2022

@tankren 也没有抛异常出来……

MrVito

Sep 14, 2022

@humbass 对 js 不熟……

zengxs

Sep 14, 2022

试试这个

//*[contains(text(), '基金名称')]/../../td[2]/p/text()

MrVito

Sep 14, 2022

@zengxs 卧槽，你这个确实可以，这个思路好像也是对的。但是我还是想不明白我那种为啥不行……

zengxs

Sep 14, 2022

@MrVito 因为两个页面的 html 内容不一样，你需要找到二者之间相同的特征才行

MrVito

Sep 14, 2022

@zengxs 问题是我用的 full xpath ，从浏览器提取出来的这两个页面的都是相同的呀？

zengxs

Sep 14, 2022

@MrVito 那可能是这个页面的 html 不规范，导致浏览器和 lxml 解析出来的 dom 不一样

humbass

Sep 14, 2022

网页是 JS 写的，爬虫当然是 JS 来写解析 DOM 结构也是天然的！ Python 是过去式了；

```
const jsdom = require('jsdom')
const axios = require('axios')
;(async () => {
const url =
'http://eid.csrc.gov.cn/xbrl/REPORT/HTML/2022/FC190100/CN_50470000_009421_FC190100_20220039/CN_50470000_009421_FC190100_20220039.html'
const response = await axios.get(url)
const result = new jsdom.JSDOM(response.data)
const table = result.window.document.querySelector('#tabItem0')
const title = table.querySelectorAll('p')[1].textContent
console.log('title:', title)
})()

``

zjuster

Sep 14, 2022

如果 Xpath 写的绝对路径太多了，可能要比较一下两个页面（虽然链接一致），但在 Dom 结构可能不一致的情况。
写的宽泛一点试试看。

wxf666

Sep 14, 2022

@humbass 问一下，看起来都是调包，Python 是有啥明显的坑吗？

humbass

Sep 14, 2022

@wxf666 也不是说 Python 有坑，而是网页解析这玩意本身就是 JS 的领域。

zengxs

Sep 14, 2022 via iPhone

@humbass 这个是和底层的 html parser 有关，和语言关系不大，jsdom 用的 html parser 和浏览器的也不一样

wxf666

Sep 14, 2022

@humbass js 本身也没有啥特别的语言特性，是用于描述 DOM 的吧

你是想说，无头浏览器能方便地，执行一些自己的 js 代码？

humbass

Sep 14, 2022

@wxf666 OP 主贴出来的需求，也用不到无头浏览器，简单的访问就可以了，
@zengxs 对比 python 的 xpath 和 document.querySelector 这样的语法，肯定是后者方便啊。

wxf666

Sep 14, 2022

@humbass xpath 不是 Python 的，只是 lxml 库的一个功能。这个库好像不支持 css 风格的查询

换成 BeautifulSoup 库就支持了：xxx.select('#tabItem0')

另外，我还是觉得 xpath 更方便描述 xml html

zengxs

Sep 14, 2022 via iPhone

@humbass 呃，xpath 和 css selector 只是两种不同的 html 查询方式而已，和语言无关，python 也可以 css selector 查询，js 也可以 xpath 查询

至于哪个更方便这个也不好说，css selector 语法简单是牺牲了很多功能换来的

bavtoex

Sep 15, 2022

@wxf666 +1,美丽汤的 xxx.select('#tabItem0') 很灵活

webcape233

Sep 15, 2022 via iPhone

这简单查询观察下写正则可能更快

mscststs

Sep 15, 2022

看到 tbody 就要注意了，浏览器会自动在 table 里面自动填充一级 tbody ，这就是为什么你取 Xpath 是一样的，实际上你右键查看源码，就能看出来，第一个链接的 html 没有在源码里面手写 tbody ，而第二个写了。

ADMlN

Sep 15, 2022

xpath 改成'/html/body/table/tbody'，第一个为空，第二个有值

brucmao

Sep 15, 2022

//p[contains(text(),'基金名称')]/../following-sibling::td/p

页面复制的经常不准确，可以试试 xpath 轴
https://developer.mozilla.org/en-US/docs/Web/XPath

另外可以用浏览器插件 SelectorsHub 辅助