V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SlipStupig
V2EX  ›  程序员

分享一个有趣的小发现

  •  
  •   SlipStupig · 2016-04-20 02:03:33 +08:00 · 6370 次点击
    这是一个创建于 3141 天前的主题,其中的信息可能已经有所发展或是发生改变。
    只要在 github 搜索 spider 、 crawler 、 scrapy 、 scrapper 等一些跟数据抓取相关的项目基本上都是中国人写的,好像国内对数据抓取都特别狂热,特别 python 都已经变成了爬虫工具了,跟一些不了解 python 的朋友说 python ,一些朋友反映就是写爬虫的那个工具是吧!
    第 1 条附言  ·  2016-04-20 12:40:32 +08:00
    我犯贱的补充一句,其实我个人也在写一个爬虫项目,但是我认为数据处理和存储比抓取要难度大多了,实现了一些功能(本来就没啥功能)再加上个人代码水平实在不咋地,感觉实在是一个人开发太累了,有人有兴趣一起开发么?如果有的话,就打算开源出来了
    第 2 条附言  ·  2016-04-21 14:09:07 +08:00
    有点歪楼了,很多都涉及到法律了!基本上两派声音, 1.外国人比国人更狂热的做这个但是不怎么放出来 2.国内由于培训教程都是教你怎么弄,大家都这么学产生的
    34 条回复    2016-04-21 11:02:07 +08:00
    loading
        1
    loading  
       2016-04-20 04:55:11 +08:00 via Android
    楼主,听说过版权吗?
    markocen
        2
    markocen  
       2016-04-20 05:24:35 +08:00
    这是为什么呢
    hansnow
        3
    hansnow  
       2016-04-20 07:39:37 +08:00
    因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫
    murmur
        4
    murmur  
       2016-04-20 07:46:33 +08:00   ❤️ 1
    nutch 是啥东西呢?
    于是说版权 国内研究 到不说国内看不起 java 的多吧?
    aksoft
        5
    aksoft  
       2016-04-20 08:19:43 +08:00
    只能说明大部分人在追风,看书,没有创新能力
    murmur
        6
    murmur  
       2016-04-20 08:21:41 +08:00
    scrapy 这个怎么看也不像国人做的项目。。
    mkeith
        7
    mkeith  
       2016-04-20 08:28:46 +08:00
    这也能扯到国内国外啊...
    hechaqu
        8
    hechaqu  
       2016-04-20 09:19:10 +08:00
    那这说明什么呢?
    Mark24
        9
    Mark24  
       2016-04-20 09:26:11 +08:00
    大部分的入门教程都是以爬虫吸引眼球的
    dibage
        10
    dibage  
       2016-04-20 09:30:49 +08:00
    怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门
    hxndg
        11
    hxndg  
       2016-04-20 11:15:36 +08:00
    我感觉是主要是因为 python 写的很快。。。。
    虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。
    Wangxf
        12
    Wangxf  
       2016-04-20 11:22:57 +08:00
    爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉
    Surfer
        13
    Surfer  
       2016-04-20 11:43:36 +08:00
    @markocen 喜欢这个像素头像!
    SlipStupig
        14
    SlipStupig  
    OP
       2016-04-20 12:28:49 +08:00
    @murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来
    menc
        15
    menc  
       2016-04-20 12:38:45 +08:00
    @SlipStupig 你这个有偏颇啊
    最大的爬虫项目 scrapy 是外国人写的
    外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。
    外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。
    allan888
        16
    allan888  
       2016-04-20 12:50:09 +08:00
    @SlipStupig 你看到了表面而已。
    事实是数据大家都需要,不存在国内就更狂热。
    只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。
    在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。
    非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。
    @hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。
    murmur
        17
    murmur  
       2016-04-20 13:58:12 +08:00
    @SlipStupig 万物基于米 ui 开发 所以是中国人搞的多
    yangzj1992
        18
    yangzj1992  
       2016-04-20 14:03:11 +08:00
    我也认为国外公司 API 确实更开放是一个原因
    zonghua
        19
    zonghua  
       2016-04-20 14:36:29 +08:00
    Python 的编码这么痛心,真不知道你们是怎么处理的。
    sensui7
        20
    sensui7  
       2016-04-20 15:12:18 +08:00
    其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.
    举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思.
    fifuygg
        21
    fifuygg  
       2016-04-20 16:04:35 +08:00
    @zonghua python3 + ubuntu 没有遇到过编码问题了

    就像你第一个 web 应用基本都是 博客 而不是 商城 一样
    wy315700
        22
    wy315700  
       2016-04-20 16:42:22 +08:00
    国外版权管的紧,
    爬数据理论上是侵犯版权的事情。
    yumijie
        23
    yumijie  
       2016-04-20 17:03:43 +08:00
    国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的?
    penjianfeng
        24
    penjianfeng  
       2016-04-20 19:22:41 +08:00
    我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-||
    SlipStupig
        25
    SlipStupig  
    OP
       2016-04-20 20:37:52 +08:00
    @yumijie 很多都是你自己留下的
    kirisetsz
        26
    kirisetsz  
       2016-04-21 00:38:58 +08:00
    @zonghua 没有 HTTP Header 没有 <meta/> 还有 chardet 呀 (笑)

    @loading @wy315700 @yumijie 搜索引擎爬取页面算不算侵犯版权呢 (笑)

    爬虫框架很 OK 啊,永远不嫌少,语法越甜越好。小爬虫外国人写的也多,只是不放到 GitHub 上罢了 curl awk sed 解决的事情为什么用 Python 然后放到 GitHub 上去呢?
    wy315700
        27
    wy315700  
       2016-04-21 00:45:00 +08:00
    @kirisetsz 搜索引擎只能爬公开内容吧,你看 facebook 里面的内容哪个搜索引擎能搜到
    Slienc7
        28
    Slienc7  
       2016-04-21 01:37:32 +08:00 via Android
    @kirisetsz 有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。
    针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。
    dapang1221
        29
    dapang1221  
       2016-04-21 02:20:49 +08:00 via Android   ❤️ 1
    学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑)
    kirisetsz
        30
    kirisetsz  
       2016-04-21 09:27:56 +08:00 via Android
    @wy315700 @Slienc7 所以只要遵守 robot 就可以了,不过我不认为这是楼主想谈论的问题,爬虫为什么国人的多这个原因不应该扯上版权问题…
    wy315700
        31
    wy315700  
       2016-04-21 09:52:58 +08:00
    @kirisetsz 不就是喜欢爬别人数据然后自己做个站吗,或者是爬别人数据做分析
    Slienc7
        32
    Slienc7  
       2016-04-21 10:38:30 +08:00 via Android
    @kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。
    爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。
    jy02201949
        33
    jy02201949  
       2016-04-21 11:00:51 +08:00
    就跟很多学完 php 用来撸博客一样
    1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手
    2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等
    3 、有实用性,弄完可以自己用,写博客、爬小说漫画
    jy02201949
        34
    jy02201949  
       2016-04-21 11:02:07 +08:00
    。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5586 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:50 · PVG 15:50 · LAX 23:50 · JFK 02:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.