爬虫怎么能把整个网站给爬下来

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 653 days ago, the information mentioned may be changed or developed.

如题：

有什么办法可以把整个网站都爬下来，包括二级页面和各种 tab, 里面包括递归和 JS 渲染，想想都头大，各位彦祖集思广益，想想办法。

爬虫

网站

递归

30 replies • 2024-08-04 09:53:10 +08:00

weixind

Aug 2, 2024

爬虫爬的好，牢饭吃得饱。

crocoBaby

Aug 2, 2024

直接爬路由

9A0DIP9kgH1O4wjR

Aug 2, 2024

抓取页面中的所有连接，爬到一个页面就继续访问里面的链接，无限递归。
高级一点的就是分析 URL 结构，自己拼接 URL 抓。

FengMubai

Aug 2, 2024

试试 idm

erquren

Aug 2, 2024

是不是为了合规

gaoyangang

Aug 2, 2024

@weixind 国外网站，不慌

D0n9

Aug 2, 2024

https://www.httrack.com/

iyiluo

Aug 2, 2024

做个链接去重不就行了，链接去重后塞进队列里面慢慢爬，不过你爬虫爬的时候小心有人敲门

gaoyangang

Aug 2, 2024

@hanierming 有些 tab 要点击，才能加载出来

wysnxzm

Aug 2, 2024

爬虫小寄巧

9A0DIP9kgH1O4wjR

Aug 2, 2024

@gaoyangang 那应该是会调接口的吧？你直接请求接口？

whoosy

Aug 2, 2024

https://github.com/projectdiscovery/katana

这种开源库应该能满足你需求吧

linhongjun

Aug 2, 2024

以前我记得还有那种网站下载的软件就是下载整站。。。。后来就没用过了

xiangyuecn

Aug 2, 2024

无头浏览器直接正常访问渲染，想要什么数据就读什么数据，管他乱七八糟的

150530

Aug 2, 2024

http://wget.oiweb.cn/ 这种可以全站爬取

justwe7

Aug 2, 2024

楼上老哥正解，单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码

CS50

Aug 2, 2024

@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml

Mechanical

Aug 2, 2024

Teleport Ultra

tool2dx

Aug 2, 2024

@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有，数据都是 ajax 动态读取的。

yulgang

Aug 2, 2024

Offline Explorer

adimn

Aug 2, 2024

@gaoyangang #9 #9 那在加个 playwright 模拟点击

vituralfuture

Aug 2, 2024 via Android

用 scrapy 轻轻松松，之前有个课设就是做这个，我用 rust 手搓 http 协议，通过 flutter-rust-bridge 接到 dart ，dart 再用正则，xpath 等解析，把 vuejs.org 爬下来了

当然动态资源不容易爬取

vituralfuture

Aug 2, 2024 via Android

@vituralfuture 简单来说就是一个广度优先遍历，把出现在 HTML 中的链接统统加入队列，之后去爬，还要处理一下 css 中的链接

anjv

Aug 2, 2024

在 Linux 下，通过一个命令就可以把整个站相关的文件全部下载下来。
wget -r -p -k -np
参数说明：
-r：递归下载
-p：下载所有用于显示 HTML 页面的图片之类的元素
-k：在转换文件 X 前先将它备份为 X.orig 。
-np：不追溯至父目录

wget -r -np -nd http://example.com/
这条命令可以下载 http://example.com 网站根目录中的所有文件。其中，-np 的作用是不遍历父目录，-nd 表示不在本机重新创建目录结构。
wget -m -k (-H) http://www.example.com/
该命令可用来镜像一个网站，wget 将对链接进行转换。如果网站中的图像是放在另外的站点，那么可以使用 -H 选项。