V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
professorz
V2EX  ›  Python

python 爬虫有 scrapy 框架, java 或者 scala 写的爬虫有什么框架?

  •  
  •   professorz · 2015-03-15 23:21:04 +08:00 · 9968 次点击
    这是一个创建于 3335 天前的主题,其中的信息可能已经有所发展或是发生改变。

    其实还有一方面,想知道java爬虫相对于Python爬虫有什么优势吗,Python的爬虫那么容易入门,开发那么方便。。。
    (我发到这个版是因为觉得java版关注爬虫的应该没有这个版多)

    第 1 条附言  ·  2015-03-16 10:28:11 +08:00
    http://www.open-open.com/68.htm
    我找到了这么个列表,有熟悉这里面的爬虫框架的讲一讲好不
    10 条回复    2015-04-19 00:29:32 +08:00
    xiaocsl
        1
    xiaocsl  
       2015-03-16 02:58:48 +08:00   ❤️ 1
    http://jsoup.org/
    HTML解析器
    从它开始的我第一个java爬虫
    xxer
        2
    xxer  
       2015-03-16 09:05:04 +08:00
    我感觉你弄颠倒了,爬虫最厉害的还是java
    FeiMa
        3
    FeiMa  
       2015-03-16 09:13:29 +08:00
    Nutch 这个是 Java 的。多了解一下。
    zhfish
        4
    zhfish  
       2015-03-16 10:58:47 +08:00
    jsoup超帅
    xuyankang
        5
    xuyankang  
       2015-03-16 12:18:06 +08:00
    WebMagic是我实习公司的一位同事做的,用起来还不错。
    shoumu
        6
    shoumu  
       2015-03-16 12:20:59 +08:00   ❤️ 1
    ZOwl
        7
    ZOwl  
       2015-03-16 15:05:35 +08:00
    看规模吧,大规模的话就要考虑语言的运行时效率等因素了,这个时候开发效率不一定有那么重要
    hadesqiao
        8
    hadesqiao  
       2015-03-16 15:15:48 +08:00
    mark
    doushini
        9
    doushini  
       2015-03-16 23:10:31 +08:00 via Android
    httpclient+htmlparser
    professorz
        10
    professorz  
    OP
       2015-04-19 00:29:32 +08:00
    @xuyankang 一个月前我看到你的回答没重视到,今天偶然Google进了这个webmagic的项目页面,看了一天没停下来,觉得将近浪费了一个月5555.
    如果可以的话,转告你同事他做的太棒了。
    顺道感谢Google,感谢github。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2266 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 09:04 · PVG 17:04 · LAX 02:04 · JFK 05:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.