各位大佬请教一下，关于爬虫的过滤问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2191 天前的主题，其中的信息可能已经有所发展或是发生改变。

现有一个爬虫，现在爬下来需要手动过滤一遍（ ps 这里吐槽一下人工都无法完美筛选，挺蛋疼的，更别提只用脚本清洗了

但接下来要定时抓取，每个月都要抓一遍，那么如何设定规则不让抓那些被筛除掉的数据，数据量会越来越大的感觉

过滤

爬虫

蛋疼

除掉

5 条回复 • 2018-12-19 18:58:07 +08:00

jatesun

2018-12-19 18:15:24 +08:00

题目没有描述清楚过滤规则，所以没法给出具体的建议。如果过滤规则可以代码话，那就通过过滤器校验就好了。

ClutchBear

2018-12-19 18:17:14 +08:00

url 个数量小,

url 用 redis 的 set 去重

url 数量多上百万
用 redis 的 bloomfilter 插件去重

cyy564

2018-12-19 18:22:14 +08:00

抱歉可能没描述清楚。

没有过滤规则，没有去重的问题，简单说就是爬虫第一次手动筛掉的数据，如何在第二次不去爬它

xpresslink

2018-12-19 18:55:26 +08:00

记录爬过的每个页面的根域名和 path URL，给标题做 MD5 存摘要，爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。

zarte

2018-12-19 18:58:07 +08:00

没描述清楚你的数据是什么，词还是文本还是网页。除了文本应该都可以先把去掉的数据存起来，爬虫爬下来要存的时候过滤下。