V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
roothub
V2EX  ›  分享创造

写了一个小爬虫,给大家分享一下

  •  
  •   roothub · 2019-02-21 11:05:44 +08:00 · 3515 次点击
    这是一个创建于 2132 天前的主题,其中的信息可能已经有所发展或是发生改变。

    作用

    可以爬取文章的标题、头图、正文、作者名称、作者头像、摘录。

    支持将爬取的数据保存到数据库,并将图片上传到对象存储,替换原来的图片链接。

    预览

    Github

    article-spider

    如果对您有帮助的话,请点个 star,谢谢啦。

    11 条回复    2019-02-22 16:16:08 +08:00
    zdb1115
        1
    zdb1115  
       2019-02-21 13:04:03 +08:00
    点了 star,谢谢分享。
    roothub
        2
    roothub  
    OP
       2019-02-21 14:07:46 +08:00
    @zdb1115 谢谢~
    DoraMouse
        3
    DoraMouse  
       2019-02-21 14:54:17 +08:00 via iPhone
    已 start
    jisibencom
        4
    jisibencom  
       2019-02-21 16:34:32 +08:00 via Android
    这个还有通用的?每个采集点结构不同吧。。。还没用
    omph
        5
    omph  
       2019-02-21 17:07:06 +08:00
    定位为小工具,为了保持通用,简单的单文件可能更好
    roothub
        6
    roothub  
    OP
       2019-02-21 18:05:49 +08:00
    @DoraMouse 谢谢~
    roothub
        7
    roothub  
    OP
       2019-02-21 18:08:57 +08:00
    @jisibencom 根据配置的 DOM 来采集的
    roothub
        8
    roothub  
    OP
       2019-02-21 18:09:10 +08:00
    @omph 好建议
    luckbbs
        9
    luckbbs  
       2019-02-22 07:19:01 +08:00
    已 start
    roothub
        10
    roothub  
    OP
       2019-02-22 09:23:16 +08:00
    @luckbbs 谢谢~
    QDavid
        11
    QDavid  
       2019-02-22 16:16:08 +08:00
    @luckbbs #9 老哥故意拼错 star 的?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5383 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:45 · PVG 15:45 · LAX 23:45 · JFK 02:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.