V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linhanqiu
V2EX  ›  Python

做爬虫做久了感觉都要学学安全方面的东西了,比如接口破签, app 脱壳,唉。。。。。

  •  
  •   linhanqiu · 2018-06-23 15:53:14 +08:00 · 7130 次点击
    这是一个创建于 2127 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家一起来说说,做爬虫以后的方向

    47 条回复    2018-06-30 20:56:08 +08:00
    Phant0m
        1
    Phant0m  
       2018-06-23 16:04:54 +08:00   ❤️ 1
    爬虫犯法。。。
    Immortal
        2
    Immortal  
       2018-06-23 16:07:33 +08:00
    怎么还有人在说爬虫犯法..
    qsnow6
        3
    qsnow6  
       2018-06-23 16:13:47 +08:00
    爬虫往高了走都是逆向
    H0TSp1RnG
        4
    H0TSp1RnG  
       2018-06-23 16:26:54 +08:00 via Android
    除了这些 一共还要学哪些安全的东西
    Mascdo
        5
    Mascdo  
       2018-06-23 16:32:23 +08:00
    题主做爬虫多久了啊
    silencefent
        6
    silencefent  
       2018-06-23 17:14:23 +08:00
    一年零六个月警告
    crystone
        7
    crystone  
       2018-06-23 17:54:35 +08:00
    往后走都是黑客技术啊
    linhanqiu
        8
    linhanqiu  
    OP
       2018-06-23 18:07:04 +08:00
    @Phant0m 爬虫不犯法啊,只是把看得到的数据批量弄来罢了
    linhanqiu
        9
    linhanqiu  
    OP
       2018-06-23 18:07:30 +08:00
    @qsnow6 对,以后估计都得是这样
    linhanqiu
        10
    linhanqiu  
    OP
       2018-06-23 18:08:55 +08:00
    @Mascdo 做了一年多,做了很多反反爬的工作,也包括爬虫架构、数据处理等等,感觉现在需要在深层次提升一下自己了
    est
        11
    est  
       2018-06-23 20:20:14 +08:00
    我见过牛逼的爬虫都是直接 GUI 群控。。。。根本不需要逆向。
    qiayue
        12
    qiayue  
       2018-06-23 20:21:34 +08:00
    你看得见的数据,作者不一定就想给你
    SingeeKing
        13
    SingeeKing  
       2018-06-23 20:23:44 +08:00
    @est #11 效率低啊
    est
        14
    est  
       2018-06-23 20:24:24 +08:00
    @SingeeKing 写爬虫不到处都是 sleep 生怕别人给你封了。。。
    linhanqiu
        15
    linhanqiu  
    OP
       2018-06-23 20:26:29 +08:00
    @qiayue 对啊,所以说要研究里面特定的东西,既然看得到,肯定会有方法拿到的,这是做爬虫的人生信条把。
    jobtesting
        16
    jobtesting  
       2018-06-23 20:26:51 +08:00 via iPhone
    反爬虫
    linhanqiu
        17
    linhanqiu  
    OP
       2018-06-23 20:28:27 +08:00
    @est gui 群控的话不就是跟 web 端 chrome headless 打开一个网页一样耗资源耗时间
    est
        18
    est  
       2018-06-23 20:32:10 +08:00
    @linhanqiu 但是没办法啊。。。主要是别人改个协议,就要跟进。好麻烦。。
    zgwjustice
        19
    zgwjustice  
       2018-06-23 20:46:02 +08:00 via iPhone
    @linhanqiu 看头条前 cto 因为爬虫被判刑了吗 就只是爬了头条的视频
    linhanqiu
        20
    linhanqiu  
    OP
       2018-06-23 20:47:01 +08:00
    linhanqiu
        21
    linhanqiu  
    OP
       2018-06-23 20:47:33 +08:00
    @est 所以就得具体情况具体分析啦,看看业务需求
    linhanqiu
        22
    linhanqiu  
    OP
       2018-06-23 20:48:55 +08:00
    @est 也是,代理 ip 资源不够的话间隔时间都比 gui 爬取时间长多了
    zgwjustice
        23
    zgwjustice  
       2018-06-23 20:52:20 +08:00 via iPhone
    @linhanqiu 我记得罪名就是 UA 及 IP 绕过发爬机制 危害计算机系统 还赔了几万的技术服务费
    zgwjustice
        24
    zgwjustice  
       2018-06-23 20:53:15 +08:00 via iPhone
    @linhanqiu 伪造 UA 及 IP 绕过反爬机制
    linhanqiu
        25
    linhanqiu  
    OP
       2018-06-23 21:03:04 +08:00 via iPhone   ❤️ 1
    @zgwjustice 这个罪名也是 666 的
    wulasite
        26
    wulasite  
       2018-06-23 22:36:36 +08:00 via Android
    老铁啊,那你可知道学安全什么都要学啊。
    其实有什么需求就变成什么样的人,这不是常态吗(滑稽
    swulling
        27
    swulling  
       2018-06-24 08:48:07 +08:00 via iPhone
    伪造 UA 都犯法,你这还要脱壳?

    怕不是想吃牢饭了
    winglight2016
        28
    winglight2016  
       2018-06-24 09:08:12 +08:00 via iPad
    逆向用于商业目的就是违法的——包括破签、协议接口逆向等等,个人理解不一定准,不过如果是我,我会更低调一点
    tingyunsay
        29
    tingyunsay  
       2018-06-24 12:23:43 +08:00
    我搞了一年多的爬虫,除了新出现的反爬方法,就是 app 里的逆向了,推荐个博客:尼古拉斯*赵四,逆向入门都是看的这位哥的~~
    tingyunsay
        30
    tingyunsay  
       2018-06-24 12:25:17 +08:00
    卧槽,看了楼上几位的对话,现在感觉慌的一批啊.....
    tnt666666
        31
    tnt666666  
       2018-06-24 12:51:42 +08:00 via Android
    不要争辩是否违法,因为法律说你违法,你就违法了。
    fiht
        32
    fiht  
       2018-06-24 13:06:19 +08:00
    往反爬虫这个方向走,越走越死。
    alexnevsky
        33
    alexnevsky  
       2018-06-24 13:22:43 +08:00
    自己研究下没事,要是用于商业用途,东搞西搞,对方告你就是违法了
    linhanqiu
        34
    linhanqiu  
    OP
       2018-06-24 15:50:03 +08:00 via iPhone
    @tingyunsay 好的,哥们,多谢
    U87
        35
    U87  
       2018-06-24 22:23:44 +08:00
    @linhanqiu 兄弟,能问个东西吗
    sola97
        36
    sola97  
       2018-06-25 04:42:41 +08:00
    爬虫到头搞信息安全么
    erosripe
        37
    erosripe  
       2018-06-25 07:19:33 +08:00 via Android
    @tingyunsay 求链接
    linhanqiu
        38
    linhanqiu  
    OP
       2018-06-25 10:00:33 +08:00
    linhanqiu
        39
    linhanqiu  
    OP
       2018-06-25 10:01:01 +08:00
    @sola97 也不一定,看个人兴趣,不过至少得接触一点把
    linhanqiu
        40
    linhanqiu  
    OP
       2018-06-25 10:01:17 +08:00
    @U87 talk
    fengche361
        41
    fengche361  
       2018-06-25 11:20:29 +08:00
    还是要小心一点,感觉数据要是用于商业用途,基本上就是游走在法律边缘
    nbboy
        42
    nbboy  
       2018-06-25 13:07:42 +08:00
    不是逆向,是正向,逆向只是手段。产出程序才是正道。
    U87
        43
    U87  
       2018-06-25 13:52:24 +08:00
    @linhanqiu 爬虫使用代理时,公司提供了快代理收费接口,我这边直接拿到接口返回的那些 addres 和 port,然后做了个简单的判断,就是遍历拿到的代理 ip 列表访问个 http 的网站,返回 200 的我就取,然后就去实现我的爬虫(response = requests.get(url=url, headers=random.choice(self.headers), proxies=random.choice(proxy_list), timeout=10)),随机获取验证过的 ip,然后再请求.但是这样好像不行.都是这种报错 HTTPConnectionPool,请问前辈是哪里的问题
    18835579411
        44
    18835579411  
       2018-06-26 11:59:03 +08:00
    @linhanqiu 感谢
    rocketman13
        45
    rocketman13  
       2018-06-26 21:06:35 +08:00
    js 加密参数一般怎么破
    supervipcard
        46
    supervipcard  
       2018-06-27 20:22:32 +08:00
    爬虫做多了,不会点逆向跟深度学习,真心搞不动
    wushaojun321
        47
    wushaojun321  
       2018-06-30 20:56:08 +08:00 via iPhone
    一样啊,兄弟,发请求很容易,难的是发的内容,最近在看加密与解密
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2740 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 12:56 · PVG 20:56 · LAX 05:56 · JFK 08:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.