V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
LawlietZ
V2EX  ›  分享创造

看了之前老哥做的那个「不明肺炎在线地图」,我也撸了一个地图,数据爬虫可以自动采集

  •  
  •   LawlietZ · 2020-01-21 22:38:57 +08:00 · 5653 次点击
    这是一个创建于 1762 天前的主题,其中的信息可能已经有所发展或是发生改变。

    仓库: https://github.com/ZhangMingZhao1/2019nCoV-Virus-MapMonitor

    目前就采集丁香园的数据,明天部署线上 =-=

    本来打算做个热力图的,发现热力图的坐标数据有点难造。。。

    demo: image

    LawlietZ
        1
    LawlietZ  
    OP
       2020-01-21 23:03:19 +08:00
    看了 v 站一些老哥做的,数据都是写死的。。早过时的数据。。我这里提供一个最新数据的 api,靠爬虫收集更新:
    http://119.23.185.187:8088/spider/dxy
    zchzch1014
        2
    zchzch1014  
       2020-01-22 01:14:20 +08:00
    有的省份只是疑似病例,还没有确诊,但是 API 内没有对此进行细化,可能会不太严谨
    LawlietZ
        3
    LawlietZ  
    OP
       2020-01-22 02:10:42 +08:00
    @zchzch1014 是,目前我觉得对我们来说“疑是”也是一种危险,所以就也当做了患者数目
    locoz
        4
    locoz  
       2020-01-22 02:15:53 +08:00 via Android
    重复造轮子有啥用…
    cye3s
        5
    cye3s  
       2020-01-22 03:40:37 +08:00 via iPhone
    卫生部不让医院说
    ares586
        6
    ares586  
       2020-01-22 09:46:51 +08:00   ❤️ 1
    我觉得做的不错呀,连接口都开放了,赞一个。
    我不同意重复造轮子的说法,每个人都需要练习。动手敲代码,总比无意义的吐槽有用吧~
    mara1
        7
    mara1  
       2020-01-22 10:10:46 +08:00   ❤️ 2
    @ares586 自己动手是鼓励的,比我强,我就懒的动手。
    吐槽也是有意义的,连着这么多帖子都是热力图,让我想起了前阵子,也是满屏的一个动态吐槽的页面,说实话,我只点开了第一个,后面的,没有新东西,我就没再挨个点开。

    网站最下面有句话: “创意工作者的社区”。
    LawlietZ
        9
    LawlietZ  
    OP
       2020-01-22 13:56:43 +08:00
    @locoz 并不算重复造轮子 我这个数据是爬虫自动维护的
    LawlietZ
        10
    LawlietZ  
    OP
       2020-01-22 13:56:59 +08:00
    @avrillavigne 嗯嗯
    locoz
        11
    locoz  
       2020-01-22 15:21:37 +08:00
    @ares586 #6
    @LawlietZ #9
    这就是重复造轮子。原因很简单:
    楼主在主贴中说了“目前就采集丁香园的数据”,然后看代码也确实就只是写了个爬虫接口解析了一下丁香医生发的那个 [全国新型肺炎疫情实时动态] 页而已,并没有对数据进行什么深加工之类的,只是单纯取了个人数的值而已。
    而这个数据可视化的部分吧...首先地图是丁香医生那边原本就有的,楼主这个除了能看出哪边感染人数比较多以外,其实就没啥别的了。

    整个项目可以说就是把丁香医生的数据抄过来,放到自己的页面上,然后就没啥别的了。如果这不叫重复造轮子的话,请问什么叫重复造轮子?

    我的观点与 @mara1 #7 的差不多,写点东西练练手没啥问题,但是做出来的这个东西本身没啥特色,也没有啥意义的话,那做来干嘛呢?
    LawlietZ
        12
    LawlietZ  
    OP
       2020-01-22 15:24:45 +08:00
    @locoz 嗯 是的,就是个人的小玩票,上升不到有没有用的层面的。
    LawlietZ
        13
    LawlietZ  
    OP
       2020-01-22 15:27:21 +08:00
    @locoz 目前只采集丁香医生的,是因为线上网上就丁香医生的最新最跟进了,我本地代码还爬取了 wiki 的相关信息,但最终合并信息时和目前丁香园的信息能给的一样,所以也没提交上去
    LawlietZ
        14
    LawlietZ  
    OP
       2020-01-22 15:32:44 +08:00
    @locoz 这些项目放在 v 的分享区没什么毛病的,对你没用可能对一些其他新手有用,试想你当初刚开始学前后端学网络协议的时候就没在网上搜索过“看起来重复且无意义的项目”吗,所以从另外一个角度上讲我们都是网络信息的贡献者,对您无用你直接不用点开即可,不用在自身层面上探讨过多的无用又用,这些又不是想盈利的企业项目,没有利益成本 kpi 之说。
    rioshikelong121
        15
    rioshikelong121  
       2020-01-22 15:34:37 +08:00   ❤️ 2
    重复造轮子挺好的,因为我们都需要练习,来造出更好的轮子。
    locoz
        16
    locoz  
       2020-01-22 15:38:17 +08:00   ❤️ 1
    @locoz #11 顺带一提,我个人认为这个项目也不会起到多大的练手作用,因为爬虫方面可以说是 0 难度的,Web 方面是调用的 Echart,说白了也就调包更熟练了而已...如果说是完全模仿丁香医生那个页面做了一个的话,当然可以掌握到很多相关的知识,对各方面都会有裨益。但是仅仅是现在这样而已的话,真的没啥用。

    丁香医生的那个页面如果不是完全人工处理的话,那么至少存在:
    1、对新闻源(新浪微博)进行高频率采集,实现实时的监控;
    2、对采集到的新闻进行自动归类,找出其中与疫情状况相关的内容;
    3、智能提取关键内容(这个目测是有部分人工处理的);
    4、结构化病例数据,并提供一个接口,按照指定的时间渲染出一个对应时间的疫情地图并返回;
    5、处理微信分享所需的一些东西

    这哪怕拿出其中一两个作为练手,也比爬一下别人现成的数据、调用个 Echart 要更有练手的效果吧?

    (以上言论对其他 V2 上最近出来的疫情地图也同样有效,都是大同小异)
    LawlietZ
        17
    LawlietZ  
    OP
       2020-01-22 15:51:29 +08:00
    @locoz 大佬您批评的是~
    locoz
        18
    locoz  
       2020-01-22 15:55:19 +08:00
    @LawlietZ #14 不好意思我真没搜索过那种项目,我初学的时候是直接做的我自己实际能用上并且市面上没有合适产品的东西,以需求驱动学习。虽然一开始都只是调包而已,但至少我会了解到很多其他的相关知识,而不是只会调包...

    发在分享创造当然没问题,这是你的权利。但你发出来不就是想要让别人看的吗?别人看了之后的评价和其他交互不正是发出来之后能给你带来的东西吗?

    既然你发出来了,那有负面评价不是很正常的事情吗?还是说你只想看到满屏的夸赞、疯涨的收藏和感谢以及 GitHub 上的 Star ?如果是那样的话我建议你发到百度贴吧、天涯、虎扑之类的技术人员相对少的地方,包装一下之后绝对火。
    LawlietZ
        19
    LawlietZ  
    OP
       2020-01-22 16:07:00 +08:00   ❤️ 2
    @locoz 你不要搞笑,这种小玩票谁会期望刷什么收藏和赞,我全篇有一个字提到收藏和 star 吗。看了您发的贴子,推销的你的公众号吃相那才真是难看。你写的很多不也是用用现成的抓包工具吗?你前面说的分析说实话还可以,有些可以吸取。但是你最后说的这个真是给你太减分。首先你自己开始的这个自诩,“需求驱动”..拜托别装 13 了。有些东西上升不了那么高度就不用扛,你是真的有精力。看了你帖子下面那么多评论说你我也就不提了,互 block 吧
    iamverylovely
        20
    iamverylovely  
       2020-01-22 16:14:14 +08:00 via Android
    我今天晚上也做一个。
    locoz
        21
    locoz  
       2020-01-22 16:33:00 +08:00
    @LawlietZ #19 以下内容你看不到没关系,主要给别人看。

    请问我发的帖子 /文章中,是否有对内容细讲?是否有把原理拿出来说?是否有能切实有效地解决新手会碰到的问题?
    请问你发的这个帖子中,是否有对内容细讲?是否有把原理拿出来说?是否有能切实有效地解决新手会碰到的问题?
    这就是你所谓的“对一些其他新手有用”?

    请问我公众号是有抄袭?还是有洗稿?还是有发垃圾广告?或者是有搞烦人的互推?又或者是有搞个收智商税的垃圾课程出来骗新手钱?
    这就是你所谓的“吃相难看”?

    我初学爬虫是找工作的时候,之前完全没有接触过。当时投简历投得烦了,写了个自动投简历的工具。基于此我学会了爬虫领域的抓包、简单的 JS 逆向、模拟 HTTP 请求以及数据库的 CRUD、生产环境的爬虫部署。
    这就是你所谓的“装 13”的需求驱动。

    当然你对我的这些莫名其妙的观点多半也是 [看到负面评价的不爽] 和 [看到那些营销号推广的后遗症] 造成的,我不怪你,见多了。
    locoz
        22
    locoz  
       2020-01-22 16:38:16 +08:00
    @LawlietZ #19 顺便贴个发帖前会在右边显示的社区指导原则:“V2EX 是创意工作者的社区,我们尊重原创”,里面这个“原创”的含义请自行理解。
    Karmavv
        23
    Karmavv  
       2020-01-22 17:21:54 +08:00
    这有啥好喷的 快过年了 有些人少点戾气吧 好好交流
    LeroyMooney
        24
    LeroyMooney  
       2020-01-22 17:32:56 +08:00   ❤️ 1
    @locoz 楼主 17 层态度友好,你这 18 楼回复明显就变味了
    locoz
        25
    locoz  
       2020-01-22 18:00:02 +08:00
    @LeroyMooney #24 他 17 层发出来的时候我还在打字呢...是同一时间发生的事情,回复的是他 14 层说的
    Jackyxiaoc
        26
    Jackyxiaoc  
       2020-01-22 18:38:29 +08:00
    做个大屏幕吧……类似 datav 那种 比较实际
    agee
        27
    agee  
       2020-01-22 22:24:52 +08:00 via iPhone
    看不懂 @locoz 这人通篇在扯什么,难道只是因为会打字!
    locoz
        28
    locoz  
       2020-01-22 23:49:43 +08:00
    @agee #15 我也没看懂你在扯什么,只看出来你这话说得阴阳怪气的 懒得跟你多逼逼,不标红了,直接 Block 再见👋
    HongJay
        29
    HongJay  
       2020-01-23 00:34:37 +08:00
    @locoz #28
    @agee #27 和你一样的想法。这个 locoz 是真的有点秀。
    Cielsky
        30
    Cielsky  
       2020-01-23 00:39:46 +08:00 via Android
    @locoz 你把这些东西当新手的练习手段就行了
    毕竟都是新手过来的,大部分人都做过很多类似的事
    aabbcc112233
        31
    aabbcc112233  
       2020-01-23 00:51:57 +08:00 via Android
    @locoz 可能增加了宇宙的熵,但是楼主并没做错什么事情,世界需要多样性才能往前走。
    locoz
        32
    locoz  
       2020-01-23 01:41:09 +08:00
    @HongJay #29 你也很秀。Block 了,下一个。

    @Cielsky #30 我并没有说过这不是新手的练习手段啊?不过楼主其实也并不是新手了,翻代码的时候我顺便翻了一下其他仓库和博客,内容都并不是新手写得出来的,所以我才说这是重复造轮子,而且还是个没有什么特色和意义的轮子。

    @aabbcc112233 #31 多样性没错啊,但指出这东西是重复造轮子就有错了?请往前好好看看最开始是谁在说“无意义的吐槽”,又是谁在说“并不算重复造轮子”。

    我在拆解了 [为什么这是重复造轮子] 和 [这种做法没啥用] 两个问题之后,后面都只是在有理有据(划重点,觉得哪里没理没据可以指出来)地对楼主的回复进行回复而已。反倒是#19 开始,楼主和后面的某两位就有点污蔑和人身攻击的意思了。
    话说现在的人是咋了?连字都不会好好看了?上来就先习惯性地站个队?
    LawlietZ
        33
    LawlietZ  
    OP
       2020-01-23 02:34:57 +08:00
    @locoz 行了大佬,我错了,别回复这个帖子了,要是 v 站不能删我早删这个帖子了。这个玩票本来就是我熟悉熟悉 echartsMap 和 baiduMap 相关 api 的,顺便分享分享,这个也不是毫无意义的,除了熟悉 api 其实 echarts 里面的配置项也蛮多蛮多坑的,提前熟悉没什么错,包括引入中国地图和后面的热力图数据,前端本地工程化对这些的配置,并没有你说的那么不堪那么无用。这里面其实我本地还写了很多组件,不过都不算完整就没提交。此贴终结吧,不要打扰别人的时间线了。真的,就此打住,你是一位大佬,我承认,不要回复这个帖子了。peace and love,多关注下当前疫情和家人吧。
    LawlietZ
        34
    LawlietZ  
    OP
       2020-01-24 16:16:55 +08:00
    根据最新的丁香园结构修复了接口
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   868 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 21:39 · PVG 05:39 · LAX 13:39 · JFK 16:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.