V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
pr2b
V2EX  ›  程序员

求一款 Mac 或 Win 上,抓取 html 爬虫 down 到本地的软件

  •  
  •   pr2b · 2016-04-27 11:27:32 +08:00 via iPad · 3789 次点击
    这是一个创建于 3163 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看了大多数爬虫,都是 java 的。

    现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧

    直接把 h   tml 全部 down 下来就行。自动按照正则去爬

    14 条回复    2016-04-27 19:19:33 +08:00
    13348859836
        1
    13348859836  
       2016-04-27 12:22:59 +08:00
    python 的爬虫框架多 随便找一个吧
    zhouxuchen
        2
    zhouxuchen  
       2016-04-27 12:50:50 +08:00
    life is short, you need pyquery
    xiamx
        3
    xiamx  
       2016-04-27 13:30:05 +08:00
    html is context free grammar btw
    jnduan
        4
    jnduan  
       2016-04-27 15:09:36 +08:00
    java 的就不能本地运行了?

    那你用 Offline Explorer 吧
    sadhen
        5
    sadhen  
       2016-04-27 15:35:59 +08:00
    不太理解楼主的需求

    貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么?

    还是普通的爬虫框架?
    pr2b
        6
    pr2b  
    OP
       2016-04-27 15:50:30 +08:00 via iPad
    @sadhen 是按照正则顺序爬,然后把 html 都 down 到本地。

    正在研究火车头🚄 ,就是保存 html 的一步 还没有成功

    @jnduan 的浏览器,没找到在哪里写网址规则。
    cxbig
        7
    cxbig  
       2016-04-27 15:57:08 +08:00
    php/ruby/python 随便哪个语言都可以,手写一个百来行。
    SCaffrey
        8
    SCaffrey  
       2016-04-27 16:06:04 +08:00
    nodejs/python
    Tink
        9
    Tink  
       2016-04-27 16:06:42 +08:00
    这个貌似叫离线浏览器?
    wmhx
        10
    wmhx  
       2016-04-27 16:39:43 +08:00
    wget 啊, 一丢丢的
    qq839994901
        11
    qq839994901  
       2016-04-27 18:44:59 +08:00
    scrapy
    Ouyangan
        12
    Ouyangan  
       2016-04-27 18:55:58 +08:00
    java 不能本地么......
    break
        13
    break  
       2016-04-27 19:12:28 +08:00 via iPhone
    都是 html 的话, wget 就可以了, wget 的镜像复制命令
    imn1
        14
    imn1  
       2016-04-27 19:19:33 +08:00
    爬虫很多,能用正则的不多
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5830 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:45 · PVG 10:45 · LAX 18:45 · JFK 21:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.