这种反爬虫策略怎么破

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3196 天前的主题，其中的信息可能已经有所发展或是发生改变。

你无法顺着页面的其他链接爬完整个站点，大部分内容被隐藏的很好。
每个目标页面的 id(网址上的 number)为 5~6 位数字，但是似乎没什么规律，随便输入一个数字，有很大概率那个页面是空的。算上空白的页面总共有 40 万页不到。即便能爬完一次，更新的时候也很麻烦。因为新的页面很有可能是插入原来的空白页面中。我估计有效内容只有 1/5 不到。
想获取没有显示出来的信息，唯一的途径就是使用网站提供的搜索功能。正常人通过搜索框输入关键词获取他需要的信息，但机器很明显不可能那么做(我知道我要拿什么信息我还来抓啊？)，我也试过一些范围关键词，并没有用。
这个网站提供了高级搜索，但是你一次输出的数量有限，有可能几十条，但最多不过 500 条，然而问题在于这个限度很莫名其妙，你完全不知道他为什么只显示那么多（明明还有很多没显示）。
通过高级搜索把范围设窄，一点一点组合起来是最有效的办法，然而这里有一个大坑。2 年前我来爬这个网站的时候，那时候的高级搜索是用 get 请求的，现在变成了 post 请求。然后 get 请求搜到的东西 post 请求搜不到，反之也是如此。这就很尴尬，你永远不可能知道你到底缺少了哪些东西没抓下来。
通过搜索引擎(google 等)只能显示 200+条
这个网站对于我来说并非不可替代，也就是一些商品信息之类的东西，该不该放弃？我觉得我是没办法了。另外我也不会去把全站给爬下来，感觉很浪费对方资源，如果是什么百度新浪腾讯这种大网站，那我肯定不会手软了。