之前的是 div class="rich_media_content " id="js_content">(.*?)</div>/s
现在 html 代码加了些东西 div class="rich_media_content " id="js_content" style="visibility: visible;">,在正则上也加了,为啥爬到空数据---
1
aihimmel 2020-02-07 19:19:23 +08:00 via Android 1
|
2
airyland 2020-02-07 22:34:32 +08:00
正则应该有 bug。我用的是 DOM(cheerio) 的方式解析 https://github.com/airyland/we-extract
|
3
wangyzj 2020-02-08 00:19:07 +08:00
敢问你是从 sogou 爬的吗?
|
5
EPr2hh6LADQWqRVH 2020-02-08 00:55:17 +08:00
连 HTML 都不 parse 就直接正则这是谁教会的
|