V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
z1421012325
V2EX  ›  Python

现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

  •  1
     
  •   z1421012325 · 2019-06-22 13:12:10 +08:00 · 17958 次点击
    这是一个创建于 2016 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在搞电商爬虫,
    京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..


    但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

    根据用户行为来判断是否爬虫的吗?

    还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

    那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

    49 条回复    2020-07-10 12:02:28 +08:00
    VDimos
        1
    VDimos  
       2019-06-22 13:24:16 +08:00 via Android   ❤️ 2
    为啥说的不让你爬错了一样,于情于理不让你爬都没问题
    shanlan
        2
    shanlan  
       2019-06-22 13:26:15 +08:00
    未经同意,擅自爬取数据违法。
    o00o
        3
    o00o  
       2019-06-22 13:27:41 +08:00 via Android
    PC 端连正常用户都受影响了,更何况爬虫了
    z1421012325
        4
    z1421012325  
    OP
       2019-06-22 13:27:49 +08:00
    @VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了
    z1421012325
        5
    z1421012325  
    OP
       2019-06-22 13:29:29 +08:00
    @o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...
    daquandiao2
        6
    daquandiao2  
       2019-06-22 13:29:56 +08:00
    你最后不都想到两种办法了 怎么不试试
    z1421012325
        7
    z1421012325  
    OP
       2019-06-22 13:30:31 +08:00
    而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个
    z1421012325
        8
    z1421012325  
    OP
       2019-06-22 13:31:02 +08:00
    @shanlan 学习不商用,试试爬爬,加强技能
    q397064399
        9
    q397064399  
       2019-06-22 13:32:47 +08:00   ❤️ 3
    @shanlan #2 敞开大门做生意,换个姿势就不让插了? 真的是搞笑,哪天说不定我浏览器打开一下淘宝,就被定义为爬虫把我给抓走了,口袋罪何患无辞
    z1421012325
        10
    z1421012325  
    OP
       2019-06-22 13:33:07 +08:00
    @daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?
    Baboonowen
        11
    Baboonowen  
       2019-06-22 13:33:33 +08:00   ❤️ 1
    虽然我也写爬虫,但我不会觉得人家不让你爬错了……
    z1421012325
        12
    z1421012325  
    OP
       2019-06-22 13:40:30 +08:00
    @Baboonowen 也对,但是爬虫就是要反反爬吧
    sobigfish
        13
    sobigfish  
       2019-06-22 13:57:53 +08:00
    讨厌这些害的我正常浏览都要登录的 爬虫,但同时觉得,电商网站就应该明码实价,提供 API 给出价格都是应该的
    zxcslove
        14
    zxcslove  
       2019-06-22 14:04:15 +08:00
    @q397064399 根子就是不想公开竞争,弄羊毛忽悠用户,不好忽悠的用户都去死
    zxcslove
        15
    zxcslove  
       2019-06-22 14:11:31 +08:00
    @shanlan 相当于规定销售商品应当明码标价的情况下,未按商场指定方式看价格违法
    Jirajine
        16
    Jirajine  
       2019-06-22 14:17:08 +08:00 via Android
    mitm 可以试试吧,用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容(逆向 ActionScript 太痛苦)
    cabing
        17
    cabing  
       2019-06-22 14:48:20 +08:00
    我以前觉得还行吧~~,分析页面 js,ip 可以买个代理啥的。

    以前公司有个店铺卖书的,买个工具需要花钱,为了省钱,就爬过自己店铺的数据,然后再整理和分析。。
    vzev
        18
    vzev  
       2019-06-22 15:22:54 +08:00
    "但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈!
    kppwp
        19
    kppwp  
       2019-06-22 15:22:55 +08:00 via iPhone
    是通过用户行为分析的,一般还是用大量 ip 代理去解决问题。
    mrcn
        20
    mrcn  
       2019-06-22 16:10:25 +08:00 via Android
    淘宝天猫…我正常用户都用不了…
    akira
        21
    akira  
       2019-06-22 16:34:22 +08:00
    有海量 ip/账号 肯定可以爬
    z1421012325
        22
    z1421012325  
    OP
       2019-06-22 17:27:00 +08:00
    @akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..
    www6688w
        23
    www6688w  
       2019-06-22 17:35:08 +08:00
    用谷歌插件模拟真实用户采集试试呢?
    compiler
        24
    compiler  
       2019-06-22 17:37:12 +08:00
    我理解淘宝有反爬团队,干不过就加入,哈哈哈
    turi
        25
    turi  
       2019-06-22 18:24:29 +08:00
    淘宝有自动拨号 vps,每次 连上都是不同 ip.
    hgjian
        26
    hgjian  
       2019-06-22 18:39:01 +08:00 via Android
    @turi 能提供一下搜索关键词吗?没找到啊
    turi
        27
    turi  
       2019-06-22 19:02:54 +08:00
    @hgjian ip 混播
    试试这个,去年还有拨号的 vps,今年就清理干净了。
    turi
        28
    turi  
       2019-06-22 19:04:47 +08:00
    @hgjian

    这个关键词,还有的
    adsl ip
    z1421012325
        29
    z1421012325  
    OP
       2019-06-22 19:06:50 +08:00
    @www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的
    lonelygo
        30
    lonelygo  
       2019-06-22 19:13:40 +08:00
    #24 @compiler 好办法,打入敌人内部。
    UFc8704I4Bv63gy2
        31
    UFc8704I4Bv63gy2  
       2019-06-22 20:00:08 +08:00 via Android   ❤️ 1
    你们要爬什么我帮你们爬,一分钱一个商品可好?
    minami
        32
    minami  
       2019-06-22 20:25:18 +08:00   ❤️ 1
    淘宝那个反爬策略,我一正常用户都觉得恶心,多开几个商品页面就开始弹东西了
    jiejiss
        33
    jiejiss  
       2019-06-22 20:30:46 +08:00
    把下滑、点击之类的,自己先实际操作七八遍,让程序 100%记录,然后重放出来
    包括等待页面加载的时候鼠标的移动,或者是拖动浏览器的右侧滚动条,也要录
    每两次操作之间的间隔建议也是基数+随机数
    jiejiss
        34
    jiejiss  
       2019-06-22 20:31:09 +08:00
    或者干脆接入打码平台
    zdb1115
        35
    zdb1115  
       2019-06-22 21:24:51 +08:00 via Android
    31 楼的可以爬一个品类的吗?
    opengps
        36
    opengps  
       2019-06-22 21:44:54 +08:00 via Android
    爬虫本不应该是被提倡的,毕竟原创成分太少,影响真原创方的负载能力。
    DaWWW
        37
    DaWWW  
       2019-06-22 22:34:15 +08:00
    动态 ip,控制访问速度,淘宝反爬很正常啊
    dewi
        38
    dewi  
       2019-06-22 23:54:45 +08:00 via iPhone
    TB 的话可以试试淘客的 api,或者直接爬大淘客上的,但是这个方法仅适用于有返利的宝贝,无返利的宝贝目前无解。。。
    lovesky
        39
    lovesky  
       2019-06-23 00:00:35 +08:00 via Android
    selenium 是能被检测到的,你们要爬什么我帮你们爬,一分钱一个商品可好?
    hgjian
        40
    hgjian  
       2019-06-23 00:20:23 +08:00 via Android
    @turi 感谢提供
    bigbigeggs
        41
    bigbigeggs  
       2019-06-23 00:22:26 +08:00
    这个爬取好像市场价,两毛一条。
    selenium 好像不行,会有下拉框。
    可以试试 ip,那种有真实用户下单的 ip 段
    kingfalse
        42
    kingfalse  
       2019-06-23 04:08:13 +08:00 via Android
    周瑜打黄盖,常威咬来福。
    zzy578
        43
    zzy578  
       2019-06-23 04:47:42 +08:00
    我爬过一个店铺的,在 network 里找对数据的请求,分析 json 拿数据
    这个 url 没有反爬,把 cookie 加上就可以
    z1421012325
        44
    z1421012325  
    OP
       2019-06-23 11:17:36 +08:00
    @zzy578 详情页没啥反爬,只是列表页不好弄
    UFc8704I4Bv63gy2
        45
    UFc8704I4Bv63gy2  
       2019-06-23 23:11:08 +08:00 via Android
    @zdb1115 当然可以
    Jaho
        46
    Jaho  
       2019-06-24 09:05:03 +08:00
    要付费爬算我一个[手动狗头]
    yebo777
        47
    yebo777  
       2019-06-24 09:16:16 +08:00
    淘宝现在都不能正常使用,动不动就要验证
    fank99
        48
    fank99  
       2019-06-24 10:45:26 +08:00
    淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述"
    gxlonline
        49
    gxlonline  
       2020-07-10 12:02:28 +08:00
    需要挂上代理 IP,推荐:酷鱼代理 IP
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2850 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:09 · PVG 17:09 · LAX 01:09 · JFK 04:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.