首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

你们一般都爬些什么?

  •  
  •   julyclyde · 2017-07-17 22:53:39 +08:00 · 7889 次点击
    这是一个创建于 728 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我看很多人都从爬虫入手学习 python 啊,可是在我的认识里,基本上是个网站都有各种防爬措施了吧,那你们到底在爬什么呢?如何区分是自己的程序有问题还是被对方给防御了?
    第 1 条附言  ·  2017-07-18 07:43:16 +08:00
    如何区分是自己的程序有问题还是被对方给防御了?
    60 回复  |  直到 2017-07-25 22:34:54 +08:00
        1
    duan602728596   2017-07-17 23:02:14 +08:00 via iPhone
    爬手机某些 app 的数据,爬某些网站的数据并实时发送到群里,脚本节省人工的时间
        2
    tgxh   2017-07-18 00:04:36 +08:00 via Android
    爬某番号站的磁力链接
        3
    cnbeining   2017-07-18 00:06:57 +08:00
    爬 Chegg 的答案 HTML 解析成 Markdown 渲染成 PDF 就可以丢 iPad 上随时看了(暴露年龄)
        4
    0xvincebye   2017-07-18 00:12:29 +08:00 via iPad
    爬美女图片呀
        5
    am241   2017-07-18 00:14:02 +08:00
    合法福利图片
    历史价格记录
    公开的非直接提供的数据
        6
    Tunar   2017-07-18 07:20:06 +08:00 via Android
    。宅男福利图片
        7
    Mutoo   2017-07-18 07:36:40 +08:00
    例如在墨尔本,政府有开放数据平台,可以获得各种有意思的社会化数据。有提供相应的 API 接口读取,可以用爬虫自己采集整合到自己的网站。
    https://data.melbourne.vic.gov.au/
        8
    hotsymbol   2017-07-18 08:14:27 +08:00
    爬知乎的各种照片
        9
    laoyuan   2017-07-18 08:18:57 +08:00
    害羞组?
        10
    xoxo419   2017-07-18 08:26:37 +08:00
    @am241 #5 都是实用数据.
        11
    xspoco   2017-07-18 08:29:43 +08:00   ♥ 3
    请问有没有爬汤不热的啊 https://carry9109.tumblr.com/archive [NSFW]
        12
    xiayibu   2017-07-18 08:31:29 +08:00
    中纪委数据
        13
    janxin   2017-07-18 08:31:51 +08:00
    爱情动作片? XX 照?
    如果实在没什么要爬的,你也没必要非爬不可
        14
    lxml   2017-07-18 08:32:33 +08:00
    Javbus, 一个 Java 学习网站
        15
    ivlioioilvi   2017-07-18 08:34:42 +08:00 via Android
    1024
        16
    janxin   2017-07-18 08:38:50 +08:00
        17
    jeffersonpig   2017-07-18 08:52:27 +08:00
    爬写真集的下载链接然后自动下载解压
        18
    est   2017-07-18 09:30:28 +08:00
    @xspoco 开车了。。
        19
    gauzeehom   2017-07-18 09:50:26 +08:00
    爬山爬树
        20
    annielong   2017-07-18 09:58:06 +08:00
    爬汤的太多了,但都没有管理功能,爬一次以后,不能检测更新文件
        21
    jiangzhuo   2017-07-18 10:52:36 +08:00
    看最近有谁出什么问题八卦了,爬他相关的社交账号内容,顺手 archive。等他删除后把黑料卖给利益相关的。
        22
    am241   2017-07-18 11:07:10 +08:00 via Android
    @xoxo419 对啊实用数据才有动力爬,尤其是妹子图片
        23
    zwik   2017-07-18 11:13:16 +08:00
    爬花瓣和 p 站的图到本地 做个本地备份
        24
    ARhen   2017-07-18 11:24:06 +08:00
    @lxml 我凑 我还真天真的百度了下,,,,想着又多了个 Java 网站....结果真是个 JAVa 网站....
        25
    timwei   2017-07-18 12:15:14 +08:00
    页游的推广码
        26
    Rice   2017-07-18 12:27:24 +08:00 via iPhone
    @lxml
    这网站学习 JAVA 会导致学得营养跟不上。
        27
    myself659410   2017-07-18 12:43:20 +08:00
    爬数据: 房价, 股票
        28
    aaronzjw   2017-07-18 12:44:35 +08:00 via Android
    煎蛋妹子图,知乎,豆瓣不要害羞小组,国外高清大图,汤不热,p**nhub 等
        29
    downsky   2017-07-18 12:52:50 +08:00
    @am241 历史价格,淘宝里面有吗?同步一下,也让偶学习学习!
        30
    syncher   2017-07-18 13:07:37 +08:00 via Android
    爬楼梯
        31
    ikeeper   2017-07-18 13:23:39 +08:00
    mark 了,回头把你们说的都爬一下
        32
    jaky666   2017-07-18 14:25:20 +08:00
    mark
        33
    hayao650   2017-07-18 14:46:12 +08:00
    @lxml 谢谢推荐,我一定要好好学习 Java
        34
    caniuse   2017-07-18 14:48:57 +08:00
    人体艺术图片
        35
    showgood163   2017-07-18 14:50:16 +08:00
    看来 PYTHON 还是得学
        36
    binjoo   2017-07-18 14:52:25 +08:00
    @lxml 我信了你的邪。
        37
    BadMan   2017-07-18 15:35:55 +08:00
    我是从写脚本入门 Python 的,够小清新吧
        38
    2929899530pgy   2017-07-18 15:52:31 +08:00
    一般晚上爬
        39
    wolffn   2017-07-18 15:58:23 +08:00
    我一般都爬山。
        40
    ss0xt   2017-07-18 16:47:54 +08:00
    第一印象 想说爬山的。。。
        41
    kangu   2017-07-18 17:10:13 +08:00
    @ikeeper 哈哈哈哈,好主意,同 mark !!
        42
    af463419014   2017-07-18 18:30:17 +08:00
    爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
    然后可以给 livid 统计一下他的工时
        43
    mnhkahn   2017-07-18 18:32:42 +08:00
    豆瓣害羞组
        44
    sxm   2017-07-18 18:42:20 +08:00   ♥ 1
    @lxml 前不久用 PHP 爬过,3 大类的车牌差不多 34 万+,磁力 85 万+,各类图片 1 千万+(下载下来 4 百多 G,开了 30 个 PHP 进程来抓,花了 1 天多)
        45
    wlbcs   2017-07-18 18:52:55 +08:00
    @myself659410 用的哪的接口啊?
        46
    Kalv8n   2017-07-18 19:04:17 +08:00 via Android
    hentai 网站,不过看腻了又不想玩了
        47
    yu099   2017-07-18 20:29:44 +08:00 via Android
    @sxm 数据还是很容易拿的,就是难以筛,好坏要是能用机器学习筛出来的话。
        48
    OpenJerry   2017-07-18 21:34:57 +08:00
    mark
        49
    gulangyu   2017-07-18 21:52:45 +08:00
    豆瓣害羞组爬虫已写好,高速运行中... 多谢科普!
        50
    stzz   2017-07-18 23:08:36 +08:00
    靠,本来自制力就弱,结果不小心点开这个帖子
    今天鸡儿又没得放假了😢
        51
    mingyun   2017-07-18 23:32:10 +08:00
    @janxin mark 了
        52
    ddjian   2017-07-19 08:41:06 +08:00
    mark 了 谢谢各位!
        53
    wqqdhero   2017-07-19 09:54:00 +08:00
    mark 感谢各位司机
        54
    myself659410   2017-07-19 10:00:47 +08:00
    @wlbcs 强行爬取
        55
    linus3389   2017-07-19 10:22:35 +08:00
    pixiv
        56
    icerwinter   2017-07-19 12:09:33 +08:00 via iPhone
    A 级通缉令的数据
        57
    niuoh   2017-07-19 15:48:47 +08:00
    推荐一个 http 代理网站 http://www.ip-chi.net
        58
    tumbzzc   2017-07-19 17:26:16 +08:00
    tumblr、1024、各种视频网站,应有尽有
        59
    sunwei0325   2017-07-19 22:01:53 +08:00
    给老司机们跪了
        60
    Mavious   2017-07-25 22:34:54 +08:00 via iPhone
    在线学习,20 分钟要确认一次在线。机器代挂机。
    对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3819 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 22ms · UTC 08:04 · PVG 16:04 · LAX 01:04 · JFK 04:04
    ♥ Do have faith in what you're doing.