V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Linxing
V2EX  ›  Java

关于JAVA爬虫页面内容的处理

  •  
  •   Linxing ·
    linxing · 2013-06-06 22:18:30 +08:00 · 5772 次点击
    这是一个创建于 4187 天前的主题,其中的信息可能已经有所发展或是发生改变。
    期末要做一个JAVA爬虫,已经可以抓取html文件了,但是我希望可以抓去页面的文章标题和内容就好了,请教下要怎么处理比较好,难道一定要自己写正则表达式?
    15 条回复    1970-01-01 08:00:00 +08:00
    saggit
        1
    saggit  
       2013-06-06 22:38:09 +08:00
    jsoup可以看下
    Linxing
        2
    Linxing  
    OP
       2013-06-06 23:49:54 +08:00
    @saggit 恩,爬链接已经用jsoup了,但是对于某些网站的html标签还是处理的不是很好,
    zoran
        3
    zoran  
       2013-06-07 11:06:26 +08:00   ❤️ 1
    tititake
        4
    tititake  
       2013-06-07 11:38:07 +08:00
    用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。
    TheMan
        5
    TheMan  
       2013-06-07 11:55:15 +08:00 via Android
    嗯,正则写的话有些麻烦,可以看这个例子,不错
    TheMan
        6
    TheMan  
       2013-06-07 11:57:06 +08:00 via Android   ❤️ 1
    可以看下这个例子:http://usejava.iteye.com/blog/724177
    ps:正则表达式熟练掌握了的话,好处多多
    jjlovegrape
        7
    jjlovegrape  
       2013-06-07 12:38:14 +08:00
    LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。
    Linxing
        8
    Linxing  
    OP
       2013-06-08 19:05:25 +08:00
    @jjlovegrape jquery不懂啊,jsoup可以做简单的处理,昨晚写完已经把 http://udpwork.com 上面的文章都爬完了,但是感觉处理的不太好,换一个网站就要改蛮多内容的吧,还要努力
    Linxing
        9
    Linxing  
    OP
       2013-06-08 19:06:36 +08:00
    @tititake 学校网络太渣了,sourceforge进不去..
    ttskym
        10
    ttskym  
       2013-06-09 12:45:34 +08:00
    seeker
        11
    seeker  
       2013-06-09 13:14:30 +08:00   ❤️ 1
    @jjlovegrape 如果dom有地方由javascript生成的,jsdom就不行了。用phantomjs可以完美解决。
    jjlovegrape
        12
    jjlovegrape  
       2013-06-09 17:41:14 +08:00
    @seeker good,感谢分享。taobao好像用Node写过一个页面自动化测试工具,猜测是不是基于类似的?
    seeker
        13
    seeker  
       2013-06-09 20:30:19 +08:00
    @jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。
    Linxing
        15
    Linxing  
    OP
       2013-06-10 16:17:31 +08:00
    @code4craft 谢了!写的不错
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2822 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 07:10 · PVG 15:10 · LAX 23:10 · JFK 02:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.