首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
leishi1313
V2EX  ›  分享创造

迫于老婆要买衣服,写了个 serverless 的 selenium 玩具

  •  
  •   leishi1313 · 33 天前 · 3044 次点击
    这是一个创建于 33 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目在这儿: https://github.com/leishi1313/serverless-web-differ

    主要用途就是可以在云端有个无头浏览器不断地帮你查看你想查看的页面,一旦发现有不同,可以通过 Email,Server 酱之类的发送通知。因为是 serverless 的,所以可以很省心,不用担心服务下线(其实我就是想这么玩玩看)。

    技术上主要基于Serverless&AWS Lambda,还有就是 Selenium。所以本身就禁 Selenium 的几个网站:淘宝、知乎、大众点评等等还是爬不了(或者说要多费点手段),反正我的需求只要能够爬老婆的几个卖衣服网站就 OK,所以就先这样了。感兴趣的可以配置一下玩玩看

    过两天再做个 docker image,更通用一些

    16 回复  |  直到 2020-01-17 19:20:47 +08:00
    greatghoul
        1
    greatghoul   33 天前
    真的有老婆吗?
    precisi0nux
        2
    precisi0nux   33 天前 via iPhone
    灰机杯好评
    pcbl
        3
    pcbl   33 天前 via Android
    不从淘宝买衣服的老婆不是好老婆
    SquirrelMAN
        4
    SquirrelMAN   33 天前
    最近正好有类似需求 支持
    JCZ2MkKb5S8ZX9pq
        5
    JCZ2MkKb5S8ZX9pq   33 天前
    请问 selenium 现在可以突破 taobao 了嘛?
    之前不会加 header 被识别过,后来也没再试过。
    JCZ2MkKb5S8ZX9pq
        6
    JCZ2MkKb5S8ZX9pq   33 天前
    汗,刚看到详情了,打扰了。
    非淘宝的话直接 requests 更轻吧
    controller
        7
    controller   33 天前 via Android
    散了散了,要老婆的。
    leishi1313
        8
    leishi1313   33 天前
    @JCZ2MkKb5S8ZX9pq 大部分购物网站光 requests 是不行的。再说靠 selenium 的话可以直接访问网页通过 xpath 得到价格,用 requests 还得一个个费劲地找价格对应的 API 是什么。理想状态下加监控的网站只需要修改配置文件然后重新 deploy 就可以了,代码都不需要改
    leishi1313
        9
    leishi1313   33 天前
    @greatghoul
    @controller 要的要老婆的,而且还得背着每月收入-100%的 debuff
    haozes
        10
    haozes   32 天前
    puppeteer 他们能防得住么?
    leishi1313
        11
    leishi1313   32 天前 via Android
    @haozes 能的,只要想防什么都能。
    myqoo
        12
    myqoo   32 天前
    @haozes ofcourse
    pincoudeduanyin
        13
    pincoudeduanyin   32 天前
    啥意思,这个有什么用处,不太懂...
    leishi1313
        14
    leishi1313   32 天前 via Android
    @pincoudeduanyin 看不懂就是用不上,点个星星就好👌
    ohoh
        15
    ohoh   31 天前
    我记得有个 chrome 插件干这个的, 相当强大, 功能也超多, 但是
    我 不记得也找不到这插件叫啥了
    imdoge
        16
    imdoge   31 天前
    @leishi1313 淘宝没试过,知乎试过,防不住的,无非是正确的 ua,http 头,还有 webdriver 等字段
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2116 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 00:41 · PVG 08:41 · LAX 16:41 · JFK 19:41
    ♥ Do have faith in what you're doing.