1
jatesun 2018-12-19 18:15:24 +08:00
题目没有描述清楚过滤规则,所以没法给出具体的建议。如果过滤规则可以代码话,那就通过过滤器校验就好了。
|
2
ClutchBear 2018-12-19 18:17:14 +08:00
url 个数量小,
url 用 redis 的 set 去重 url 数量多上百万 用 redis 的 bloomfilter 插件去重 |
3
cyy564 OP 抱歉可能没描述清楚。
没有过滤规则,没有去重的问题,简单说就是爬虫第一次手动筛掉的数据,如何在第二次不去爬它 |
4
xpresslink 2018-12-19 18:55:26 +08:00
记录爬过的每个页面的根域名和 path URL,给标题做 MD5 存摘要,爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。
|
5
zarte 2018-12-19 18:58:07 +08:00
没描述清楚你的数据是什么,词还是文本还是网页。除了文本应该都可以先把去掉的数据存起来,爬虫爬下来要存的时候过滤下。
|