V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
bighead22
V2EX  ›  Python

现在公司写爬虫的风险有多大?还能抓吗?

  •  1
     
  •   bighead22 · 2018-12-26 11:49:22 +08:00 · 11121 次点击
    这是一个创建于 2141 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看了篇文章 https://www.yuanrenxue.com/crawler/web-crawler-law.html 里面讲了有公司抓今日头条数据,被今日头条告了, 以《刑法》第 285 条:非法获取计算机信息系统数据罪,被判有期徒刑,嚓 被判刑依据是“修改 UA,绕开访问频率控制”,写爬虫这不是常用手段吗????? 这下写爬虫前,岂不是先要去读一下刑法呀,呃呃

    49 条回复    2019-01-01 21:56:05 +08:00
    bighead22
        1
    bighead22  
    OP
       2018-12-26 12:01:57 +08:00
    要低调????
    idcspy
        2
    idcspy  
       2018-12-26 13:23:15 +08:00
    去判决文书网看看,多呢,特别是网安法施行以后。
    Allen163
        3
    Allen163  
       2018-12-26 13:31:34 +08:00
    爬虫都不是太合法吧。这可怎么办呢
    mapnaqi
        4
    mapnaqi  
       2018-12-26 13:45:13 +08:00
    应该是要看爬虫爬的数据是什么数据, 还有是否盈利
    bayker
        5
    bayker  
       2018-12-26 13:50:51 +08:00
    这里判刑的是绕过了身份验证的吧,正常爬公开的数据也违法?
    wsh1108
        6
    wsh1108  
       2018-12-26 13:54:55 +08:00
    背后一凉,我要辞职
    wenzhoou
        7
    wenzhoou  
       2018-12-26 14:03:25 +08:00 via Android
    如果法律上出现非法这个词而且没有解释的话。很搞笑啊。
    loveour
        8
    loveour  
       2018-12-26 14:15:26 +08:00   ❤️ 1
    不知道有没有谁知道详情,印象里判决书那段确实很扯,但是实情是抓数据的人是头条出来的,应该是利用了头条内部的什么漏洞抓的数据,不是爬公开数据。另外,如果判决真的就是那样成立的,那其实百度也可以被套进去。。
    o0
        9
    o0  
       2018-12-26 14:32:19 +08:00
    如果触犯刑法,那就肯定 GG。
    zzNucker
        10
    zzNucker  
       2018-12-26 14:37:34 +08:00
    显然违法的。。。 你多关心一下网络安全法和判例吧
    bighead22
        11
    bighead22  
    OP
       2018-12-26 14:54:37 +08:00
    判决文书里写得很模糊,感觉像绕开对方的访问控制策略就会遭殃。。。。。。。
    bighead22
        12
    bighead22  
    OP
       2018-12-26 14:55:15 +08:00
    @zzNucker 能再阐述多一点么
    crab
        13
    crab  
       2018-12-26 14:57:25 +08:00
    利用漏洞和正常爬能一样吗?要这样百度和谷歌都不敢爬了。
    tabris17
        14
    tabris17  
       2018-12-26 15:01:18 +08:00
    @bighead22 如果绕开访问控制策略就会判刑,那么必须公开自己的访问控制策略才行啊,否则我怎么知道是不是不小心歪打正着的
    zjsxwc
        15
    zjsxwc  
       2018-12-26 15:07:07 +08:00
    百度等搜索引擎或成为最大的被判刑者

    2333333333
    flatflax
        16
    flatflax  
       2018-12-26 15:24:15 +08:00
    文章的案例里面,写爬虫的小公司因为 Linkedin 反爬虫而告 Linkedin,法院还判胜诉了。

    结论是“如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。”

    黑人问号????
    bighead22
        17
    bighead22  
    OP
       2018-12-26 15:41:29 +08:00
    @flatflax 那个是讲的国外反例吧。。
    bighead22
        18
    bighead22  
    OP
       2018-12-26 15:42:06 +08:00
    @tabris17 这很讲理,哈哈哈
    hyshuang2006
        19
    hyshuang2006  
       2018-12-26 15:42:52 +08:00   ❤️ 2
    天眼查爬各大.政.府.部.门服务器的数据,怎么就没人管呢?还公开贩.卖企业负责人姓名、电话...
    passerbytiny
        20
    passerbytiny  
       2018-12-26 16:08:15 +08:00   ❤️ 1
    网络爬虫(英语:web crawler ),也叫网络蜘蛛( spider ),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。……网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。……不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用 robots.txt 文件之类的方法避免访问。 —— 摘自维基百科 https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2

    楼主你那不叫作爬虫,你那是恶意抓数据,从来就没合法过。

    Linkedin 案例,那个小公司是用正常的爬虫去爬,然后自己分析(简单得说就是高级人肉搜索),Linkedin 就加了手段,只让搜索引擎爬,不让那小公司爬。Linkedin 相当于开门接客,大家都可以只看不上,但是那个只画像并且回头用画像赚钱的鳖孙,乱棍赶走;头条那个案例相当于闭门接客,不准只看不上,有人捅窗户纸偷偷看:这俩区别太大了。
    xpresslink
        21
    xpresslink  
       2018-12-26 16:44:03 +08:00
    这种文章的目的不是为了真理和正确,也不是为了教育读者,能吸引更多眼球就是胜利。所以看看就好。
    黑客和爬虫行为上虽然有时很接近,但是本质是非常不同的,不能听见喇喇蛄叫就不种庄稼啦。
    yzkcy
        22
    yzkcy  
       2018-12-26 16:53:23 +08:00
    得看你爬什么数据,反正我见过的搞爬虫的,爬敏感数据的不是没有(更有甚者利用某些漏洞,比如越权、未授权的接口等)。

    其实这行业这么乱,也该整顿整顿了。
    chroming
        23
    chroming  
       2018-12-26 17:09:30 +08:00
    搞爬虫的很多,主要看你爬什么以及对方是不是在意了
    zzpx
        24
    zzpx  
       2018-12-26 17:10:46 +08:00 via Android
    百度地图爬大众点评数据,被判赔了几百万
    tabris17
        25
    tabris17  
       2018-12-26 17:13:45 +08:00
    @zzpx 李彦宏不用坐牢吗
    commadou
        26
    commadou  
       2018-12-26 17:33:33 +08:00
    我觉得应该是一个是看原网站的数据保留等级吧,另一个是看数据爬了怎么用,如果是免登陆就默认随便爬,如果你爬的时候又是模拟用户登陆又是绕过验证码又是避免浏览频率限制就有些问题了,如果是爬竞争公司的数据放到自己的平台上并作为盈利,这被告妥妥的。
    mytsing520
        27
    mytsing520  
       2018-12-26 17:38:30 +08:00
    突破 APPKEY 或 SecretKEY 的验证,及它的访问频率限制(如果有)等做法均可以被视为非法
    bighead22
        28
    bighead22  
    OP
       2018-12-26 18:03:43 +08:00
    @tabris17 大公司能赔钱免灾吧
    Pythondr
        29
    Pythondr  
       2018-12-26 18:12:31 +08:00
    neptuno
        30
    neptuno  
       2018-12-26 18:48:50 +08:00
    小公司不会被告,大公司不怕被告
    bighead22
        31
    bighead22  
    OP
       2018-12-26 19:30:18 +08:00
    @neptuno 是这个理
    mmdsun
        32
    mmdsun  
       2018-12-26 19:38:14 +08:00 via Android
    还有非法入侵他人计算机罪。所有爬虫公司要开高点。。
    mumbler
        33
    mumbler  
       2018-12-26 19:45:47 +08:00
    爬本身不存在违法与否,关键看用途,你爬了今日头条数据做语料分析,谁会来告你啊,但你做个今日头条竞品,人家就算买通法官也要搞死你,有没有法律都不重要,参考珊瑚虫 QQ 案
    wispx
        34
    wispx  
       2018-12-26 19:49:54 +08:00   ❤️ 1
    完了,我抓了 bing 的每日的图,bing 会不会告我啊。。。(doge),https://wallpaper.wispx.cn
    neo3991
        35
    neo3991  
       2018-12-26 19:59:43 +08:00
    今天同事还跟我讨论呢,如果你自己搭网站,爬虫新闻放到自己网站上,里面再放上谷歌、FB 的广告,然后自己就能运营起来赚钱了。。。。
    bighead22
        36
    bighead22  
    OP
       2018-12-26 22:39:11 +08:00
    @neo3991 这绝壁要遭
    richangfan
        37
    richangfan  
       2018-12-26 22:45:41 +08:00 via Android
    合情合法就不会有反爬虫了
    binghe
        38
    binghe  
       2018-12-26 22:51:44 +08:00 via Android
    假如目标网站是非盈利,公益性,便民性的,然后我爬过来的数据也是用于便民,非盈利的话,应该没事吧。
    akira
        39
    akira  
       2018-12-27 02:18:29 +08:00
    @neo3991 爬一堆新闻放自己的网站,做好了就是头条了呗
    luckbbs
        40
    luckbbs  
       2018-12-27 07:18:41 +08:00
    获取未授权的数据就是违法,今日头条的新闻是它的核心 IP 了。
    king1101
        41
    king1101  
       2018-12-27 09:23:52 +08:00
    我朋友在国企做爬虫,不知道有没有企业敢告国企
    BigNoooob
        42
    BigNoooob  
       2018-12-27 09:51:37 +08:00
    模拟加密参数直接从接口访问算吗?
    bighead22
        43
    bighead22  
    OP
       2018-12-27 11:10:26 +08:00
    @luckbbs 今日头条之前的新闻还全是未授权抓取的
    c4f36e5766583218
        44
    c4f36e5766583218  
       2018-12-27 13:00:30 +08:00
    python 写爬虫好用么,我没感觉,架构方法不行吧?
    zsdroid
        45
    zsdroid  
       2018-12-27 13:36:30 +08:00
    @luckbbs 未授权?我的手机号我没有授权还不是分分钟一个推销短信。
    wc110302
        46
    wc110302  
       2018-12-28 15:40:25 +08:00
    我感觉有点危言耸听了吧,比如有人在 githunb 上传的一些开源代码被人非法利用,那如果这个人违法被抓了,是否还会追溯到这个开源代码的人身上去呢
    ioven
        47
    ioven  
       2018-12-28 21:38:52 +08:00
    大把的百度云爬虫站,应该都是非法抓取吧
    dongdong95
        48
    dongdong95  
       2018-12-29 17:51:42 +08:00
    利用“爬虫”抓视频 法院审结首例非法盗抓数据案

    https://www.cnbeta.com/articles/tech/803327.htm
    lihnzx
        49
    lihnzx  
       2019-01-01 21:56:05 +08:00
    重点是不要把服务器爬到负载, 不然人家肯定会治你;
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3429 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 79ms · UTC 11:43 · PVG 19:43 · LAX 03:43 · JFK 06:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.