关于反爬 js 处理的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 906 天前的主题，其中的信息可能已经有所发展或是发生改变。

获取下来的页面代码是这样的

<span class="rb504"></span>

他要执行一段 js 如

$(document).ready(function () {
    $('.rb504').html(8080);
    });

最后页面展示

<span class="rb504">8080</span>

在不使用无头浏览器的情况下

可以通过 bs4 和 execjs 处理后返回最终渲染后的页面代码吗

如果有其他方案也行，无头浏览器效率太低了

8 条回复 • 2023-04-06 09:17:45 +08:00

yankebupt

2023-04-05 08:13:19 +08:00

(事先声明，可能没有帮助)
看你的样子是抓纯文字……不在乎样式、图片什么的……
无头浏览器你屏蔽图片了么？

llsquaer

2023-04-05 11:21:02 +08:00

看你演示代码也不算复杂..直接正则匹配下 js 中的代码就好了啊.何必去考虑模拟渲染啥的,没那么复杂

wgit

2023-04-05 11:42:04 +08:00

@yankebupt 啊这，原来还能屏蔽图片....

wgit

2023-04-05 11:49:21 +08:00

@llsquaer 目前是在用正则的，在想要是以后遇到比这个复杂的
无头要打开一个页面要发送至少十几个请求
只请求页面源代码的话只需要发送两个请求
如果网站限制每分钟最多多少次访问的话
在不增加代理 ip 数量的情况下，能不用无头是最好的

yankebupt

2023-04-05 16:02:49 +08:00

我只是觉得.ready 不是个好兆头

现在看着是个.ready 很简单，将来可能会挂一堆 eventListener,setInterval 和 Promise 在上面，利用事件的冒泡顺序来生成……
或者利用浏览器特定的非固定 tag 会被挤到 container tag 之外或者挤没之类的特有特性来验证混淆，逼你模拟 DOM 或生命周期……

当然 puppeteer 也可能被针对有时还不如简单请求，两说

yankebupt

2023-04-05 16:18:26 +08:00

不让贴 GPT 回答，不过我问了下，说 puppeteer 不光 headfull 模式，headless 模式也可以加 cache ，多开几个 page 就行，js 只读取一次就行，除非站点反爬抽风，把 js cache disable 了,不过那会影响用户浏览的......
不知真的假的

hxy100

2023-04-05 17:57:49 +08:00

无头浏览器其实是成本最低的做法，否则针对不同的网站，不管是 PyExecJS 还是正则匹配，你都需要去扒他的 JS 逻辑和算法，很麻烦，简单的网站还可以这种操作，复杂的、JS 代码经过混淆编译的，那基本就是噩梦。

luzihang

2023-04-06 09:17:45 +08:00

这不算反爬吧，直接正则获取 js 里的值就行