V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CallMeHoney
V2EX  ›  程序员

分享些各大编程语言的职位统计信息

  •  
  •   CallMeHoney · 2017-09-01 15:51:45 +08:00 · 5149 次点击
    这是一个创建于 2644 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Hi, all~

    在闲暇时间里写了个爬虫,爬取拉勾网的数据,目前爬到了将近 5.4W 条公司的数据,近 10W 条职位的数据。

    简单地做了个 web 页面展示关于各编程语言的职位详情,可以看到的信息有:

    工作年限要求分布、

    薪水分布、

    各城市职位占比、

    学历要求情况、

    职位数量的变化情况、

    招聘这些职位的公司的融资情况分布,

    可访问 http://www.jobinfo.cc:8000/ 查看这些信息。

    源码的地址: https://github.com/GuozhuHe/webspider

    爬取到的数据已经放到百度云上了( https://pan.baidu.com/s/1gfIi5gv), 密码在项目的 readme 文件可以看到,诸位可自取~~

    最后的最后,如果感觉还不错,不妨给个 star 哦 ~ yeap

    _(:з」∠)_

    33 条回复    2017-09-04 20:21:55 +08:00
    hololens
        1
    hololens  
       2017-09-01 16:04:01 +08:00
    楼主是知乎员工么,楼主能说一下学习爬虫的途径么。
    CallMeHoney
        2
    CallMeHoney  
    OP
       2017-09-01 16:21:40 +08:00
    买了本爬虫的书,了解些基础知识后就直接开始写项目了,遇到不会的问题就 google 解决。
    a87150
        3
    a87150  
       2017-09-01 16:25:07 +08:00
    echar.js 是啥? echarts ?
    silencefent
        4
    silencefent  
       2017-09-01 16:29:45 +08:00
    数据还是看不出价值...比如搜 js 和搜客服,出来的数据都差不多
    LeoNG
        5
    LeoNG  
       2017-09-01 16:33:35 +08:00
    不知道是我电脑辣鸡还是什么,网页打开会卡一下。

    Chrome. iMac 13.
    wen4434
        6
    wen4434  
       2017-09-01 16:38:33 +08:00
    有语言就更好了
    geekyoung
        7
    geekyoung  
       2017-09-01 16:53:11 +08:00
    在搜索框给个提示也许会更好,另外如搜索 自然语言处理 或 nlp 数据不一样,作者搜索这个地方是怎么处理的?
    CallMeHoney
        8
    CallMeHoney  
    OP
       2017-09-01 17:12:11 +08:00
    @a87150 不注意写错了 (°Д°) ~~已经改过来了
    CallMeHoney
        9
    CallMeHoney  
    OP
       2017-09-01 17:14:37 +08:00
    @silencefent 通常职位的数据差别不会很大,就算差个百分之十几从图像看起来也不会相差很大。我也发现了这个问题,在考虑更好更直观的方式呈现。
    CallMeHoney
        10
    CallMeHoney  
    OP
       2017-09-01 17:16:13 +08:00
    @geekyoung 其实搜索这里取巧了,在抓取的时候会存储职位的关键词信息,搜索时查询的是关键词。
    CallMeHoney
        11
    CallMeHoney  
    OP
       2017-09-01 17:18:54 +08:00
    @LeoNG 真的吗,可能加载 JS 时卡了。。 _:(´ཀ`」 ∠):_
    xiaosheng
        12
    xiaosheng  
       2017-09-01 17:18:57 +08:00
    @CallMeHoney 求书名...
    geekyoung
        13
    geekyoung  
       2017-09-01 17:24:06 +08:00
    @CallMeHoney 恩 了解了
    geekyoung
        14
    geekyoung  
       2017-09-01 17:24:52 +08:00
    @xiaosheng 不必具体某书,重点是你要去敲啊
    CallMeHoney
        15
    CallMeHoney  
    OP
       2017-09-01 17:32:38 +08:00
    @xiaosheng 书的确不重要 很多问题时在实际中才能遇到的
    书是《 Python 网络数据采集》 比较薄 容易看完(当初也是因为这个原因才选的这本书) _(:з」∠)_
    Clarencep
        16
    Clarencep  
       2017-09-01 17:45:45 +08:00
    话说 Python 的职位好少,远不及 Java PHP
    huangfs
        17
    huangfs  
       2017-09-01 19:04:48 +08:00
    http://www.jobinfo.cc:8000/?keyword=nlp 0727 貌似没数据了。
    qianguozheng
        18
    qianguozheng  
       2017-09-01 19:33:41 +08:00
    这年头那么多人些 python 爬虫练手阿
    justff
        19
    justff  
       2017-09-01 23:10:31 +08:00 via Android
    你们这个学校。。你哪年毕业
    xiaotianhu
        20
    xiaotianhu  
       2017-09-01 23:29:20 +08:00 via iPhone
    看起来 中老年人还是应该搞 java
    sunwei0325
        21
    sunwei0325  
       2017-09-02 00:06:53 +08:00
    学习楼主代码中, 不知道还有 buildout 这个东西
    hjdtl
        22
    hjdtl  
       2017-09-02 08:51:08 +08:00
    daoyan??
    CallMeHoney
        23
    CallMeHoney  
    OP
       2017-09-02 13:28:30 +08:00
    @justff @hjdtl 什么意思啊
    mafeifan
        24
    mafeifan  
       2017-09-02 13:41:49 +08:00
    最好放上统计日期范围
    hjdtl
        25
    hjdtl  
       2017-09-02 14:20:06 +08:00
    @CallMeHoney 我以为你是我的朋友,头像一样。。。
    winglight2016
        26
    winglight2016  
       2017-09-03 12:32:07 +08:00
    北京地区需求高出这么多?感觉可能是拉钩的运营重点不同导致的吧?
    CallMeHoney
        27
    CallMeHoney  
    OP
       2017-09-03 19:35:46 +08:00
    @winglight2016 北京的职位的确高出其他城市的很多 我看了一下其他招聘网站也基本是这个样子
    wlh233
        28
    wlh233  
       2017-09-03 23:49:35 +08:00
    楼主是为了这个项目专门买了这个 jobinfo 域名吗_(:з」∠)_
    CallMeHoney
        29
    CallMeHoney  
    OP
       2017-09-04 10:06:35 +08:00
    @wlh233 几十块而已。。
    CallMeHoney
        30
    CallMeHoney  
    OP
       2017-09-04 10:20:02 +08:00
    @mafeifan 什么统计日期?是统计数据截止到几号吗
    CallMeHoney
        31
    CallMeHoney  
    OP
       2017-09-04 10:20:25 +08:00
    @sunwei0325 感觉 buildout 还是挺好用的
    CallMeHoney
        32
    CallMeHoney  
    OP
       2017-09-04 10:21:53 +08:00
    @justff 今年刚刚毕业~~
    mafeifan
        33
    mafeifan  
       2017-09-04 20:21:55 +08:00
    @CallMeHoney 这些数据是哪个时间段内的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1198 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:23 · PVG 07:23 · LAX 15:23 · JFK 18:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.