V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
benjiam
V2EX  ›  问与答

惠惠购物助手 这个插件原理有人懂?

  •  
  •   benjiam · 2014-11-18 18:00:44 +08:00 · 7550 次点击
    这是一个创建于 3462 天前的主题,其中的信息可能已经有所发展或是发生改变。
    从广义看 应该比较简单,就是比较价格。但是有几个细节 想知道

    1. 它如何获取产品的价格, 方法有几种,
    1 大量的爬虫去爬,自己再分析。 这个难度比较大
    2 插件自己分析,然后回传,这个方法比较实用,但是如何分析这么多网站的各种html,
    3 插件把html 发回去,让后端来解析。 这个最靠谱。可惜js 水平太差,看不太懂它的js 源码

    在页面内插入价格走势图 这个不知道 jd taobao z.cn 这么多网站它是如何实现的?我只知道在jd是有的。
    16 条回复    2014-11-19 05:03:09 +08:00
    explon
        1
    explon  
       2014-11-18 18:07:16 +08:00
    就是第一种方法,你觉得难度大网易不觉得
    benjiam
        2
    benjiam  
    OP
       2014-11-18 18:17:03 +08:00 via Android
    jd还能爬,淘宝没机会。不信你让百度去爬爬淘宝。如果百度把价格爬下来做推荐,阿里的市值立刻腰斩
    zts1993
        3
    zts1993  
       2014-11-18 18:25:22 +08:00
    爬虫和JS发送都有。
    内容插入明显是js代码实现的。
    benjiam
        4
    benjiam  
    OP
       2014-11-18 18:34:16 +08:00 via Android
    我的意思各类网站jd z 淘宝 打折不打折,优惠,各种情况,他如何区分并插入的
    wlh
        5
    wlh  
       2014-11-18 18:42:20 +08:00
    你机子上的插件帮忙分析,然后发回服务器的,我有时候看美亚有些冷门物品的历史价格,没更新,过一会刷新页面就更新了,应该就是我贡献的数据了
    benjiam
        6
    benjiam  
    OP
       2014-11-18 18:46:10 +08:00 via Android
    @wlh js分析网页内容再回吐不太现实。也就是我说的方案2 估计还是整个网页吐回去。服务器分析的 方案3。 如果插件安装量很大的话,每天回吐数据也会很高
    mkeith
        7
    mkeith  
       2014-11-18 18:48:10 +08:00
    百度是因为这个淘宝robots.txt限制了
    benjiam
        8
    benjiam  
    OP
       2014-11-18 18:58:03 +08:00 via Android
    @mkeith 百度这么有节操了?有了百度导流量,没人买广告,直通车,没人去开天猫。你这是要马云的命。

    我不太清楚慧慧对淘宝有无比价能力,如果有那多半考方案3 方案1 应该很快被屏蔽。方案2的问题是实现很麻烦,网站一变化,就得改。如果网站多个版本并存,那么靠js分析基本不可能
    qazzaqqazzaq
        9
    qazzaqqazzaq  
       2014-11-18 19:01:40 +08:00   ❤️ 1
    这篇博文详细讲解了: http://techblog.youdao.com/?p=459
    skybr
        10
    skybr  
       2014-11-18 19:09:09 +08:00
    etao对淘宝的数据都收录不全, 实时性也不好, 别说第三方了.
    benjiam
        11
    benjiam  
    OP
       2014-11-18 19:19:15 +08:00 via Android
    @qazzaqqazzaq 谢谢 我主要疑惑的就是淘宝的价格抓取。如果抓取过程不被限制,其他的事情就是慢工细活了。3年前我抓了京东 15分钟可以把主流商品抓完。但是现在再跑已经会被屏蔽了
    GhostFlying
        12
    GhostFlying  
       2014-11-18 20:10:56 +08:00 via Android
    个人抓取有难度不意味着网易抓取有难度,所以没必要让客户回传页面
    benjiam
        13
    benjiam  
    OP
       2014-11-18 20:18:52 +08:00 via Android
    @GhostFlying 抓取的难度在于被屏蔽,足够多的IP加上变化策略是能抓取的。
    GhostFlying
        14
    GhostFlying  
       2014-11-18 20:19:59 +08:00 via Android   ❤️ 1
    @benjiam 是的,所以对网易而言回发url就足够了
    lincanbin
        15
    lincanbin  
       2014-11-19 00:10:33 +08:00
    http://www.jd.com/robots.txt
    这玩意跟一淘一个原理,就是个爬虫,而且不检查robots.txt
    CupTools
        16
    CupTools  
       2014-11-19 05:03:09 +08:00
    HoverHound
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2494 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:32 · PVG 09:32 · LAX 18:32 · JFK 21:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.