V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wangleineo
V2EX  ›  问与答

怎样爬取微信公众号中的文章?

  •  
  •   wangleineo · 2016-04-09 12:18:18 +08:00 · 7340 次点击
    这是一个创建于 3154 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果只是爬取内容的话,可以用搜狗的微信搜索页面作为入口。但是其他元数据比如阅读量/点赞量怎么爬取?似乎只有微信内置浏览器能显示这些信息?爬虫怎样抓到?另外超过 10w 就不显示具体数字,怎样能获得真实的阅读数。还有,刚刚发布的文章怎样立即就能被爬虫发现?

    这些都是可以做到的, http://www.newrank.cn/ 能看到榜单上图文的真实阅读量 http://chuansong.me/ 能精确显示几分钟前发布的文章,显然是实时抓取的

    实时抓取的功能我猜测是用程序模拟了一个微信客户端,接受推送?

    有没有人了解这些爬虫怎么实现的?

    8 条回复    2016-06-06 15:17:22 +08:00
    2232588429
        1
    2232588429  
       2016-04-09 12:47:27 +08:00
    传送门也爬不到阅读量和点赞数啊,要是能实时抓取这个就好了。
    matsuijurina
        2
    matsuijurina  
       2016-04-09 12:51:10 +08:00 via Android
    iOS 逆向微信, hook 相应的消息函数,注入自己的 dylib ,想拿到的都能拿到。
    wangleineo
        3
    wangleineo  
    OP
       2016-04-09 12:53:52 +08:00
    @2232588429 有的,看排行榜 http://werank.cn/
    wangleineo
        4
    wangleineo  
    OP
       2016-04-09 13:04:17 +08:00
    @matsuijurina 一个微信可关注的公众号数量是有限的吧,要关注所有公众号,不是要很多个微信号和很多设备?
    安卓有没有类似方案?
    matsuijurina
        5
    matsuijurina  
       2016-04-09 13:27:53 +08:00 via Android   ❤️ 1
    @wangleineo 安卓逆向微信玩的人更多吧,模拟器上多开,伪装真机验证。不过,关注所有公众号,这个有点猛,没有内部接口不知道怎么做到。
    marenight
        6
    marenight  
       2016-04-09 14:37:58 +08:00   ❤️ 3
    有个老师收购了几千部安卓手机,然后做了这个 http://www.gsdata.cn/
    soho176
        7
    soho176  
       2016-04-09 18:02:38 +08:00 via Android
    这个我也想知道咋做的
    dongya
        8
    dongya  
       2016-06-06 15:17:22 +08:00
    @marenight ....这不是真的吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2650 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:45 · PVG 23:45 · LAX 07:45 · JFK 10:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.