V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
goodboygru
V2EX  ›  问与答

有关 Jsoup 爬虫问题请假

  •  
  •   goodboygru · 2018-05-14 09:19:45 +08:00 via Android · 1060 次点击
    这是一个创建于 2389 天前的主题,其中的信息可能已经有所发展或是发生改变。
    安卓新手,最近在尝试爬虫做一个 V2EX 客户端
    现在爬主题正文部分遇到一些困难
    1.在 markdown_body 这个类下面有 p,ol,h 等多种标签,应该如何按顺序爬下呢?
    2.之前用的 Gilde 爬取头像,主题内部正文的图片应该怎么爬取并加载到适当为止呢?
    谢谢大佬们
    4 条回复    2018-05-14 15:33:06 +08:00
    elgae
        1
    elgae  
       2018-05-14 09:37:20 +08:00 via Android
    1. selector 或 xpath
    yanhejihe
        2
    yanhejihe  
       2018-05-14 09:50:07 +08:00
    这和爬虫有什么关系?
    1 我的处理方式是用一些正则来配合。jsoup 那块,需要利用好 class 来 filter,还有就是用好 text ()和 owntext ()。
    goodboygru
        3
    goodboygru  
    OP
       2018-05-14 15:32:27 +08:00 via Android
    @elgae 谢谢。
    goodboygru
        4
    goodboygru  
    OP
       2018-05-14 15:33:06 +08:00 via Android
    感谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1074 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:29 · PVG 03:29 · LAX 11:29 · JFK 14:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.