V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
questionlin
V2EX  ›  编程

我来讲解之前那个网站猫猫楼的算法原理了,献丑了,别打脸。。。

  •  
  •   questionlin · 2015-04-27 14:00:42 +08:00 · 3339 次点击
    这是一个创建于 3522 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先附上网址: http://www.maomaolou.com
    安卓app: http://pan.baidu.com/s/1jGAEtDk
    ios app: https://itunes.apple.com/cn/app/mao-mao-lou-kan-zi-xun-yu/id985938882?l=zh&ls=1&mt=8

    原理是这样的:
    1.我先从几十个精选的网站抓取文章列表,这里用到scrapy
    2.经过分词后和节点的关键词匹配,这里用到结巴分词
    3.如果符合精选特征的话,就和精选文章节点匹配
    4.如果有匹配的话,就再抓取文章内容,并把链接和节点关系上传到网站上

    所以用户可以把自己关心的关键词作为节点推荐到网站上,也可以推荐你希望抓取的网站。当然直接推荐文章最好。
    不过这样一来,随着节点越来越多,最终必然会变成rss 阅读器,所以就需要用户订阅自己关心的节点,并且顶/踩文章了。
    如果用户参与度够高的话,你看到的猫猫楼应该是所有你关注的、网站推荐的,并且经过大家打分过的内容。

    好啦,大致就是这样。我滚了。。。

    4 条回复    2015-04-28 10:36:59 +08:00
    ilotuo
        1
    ilotuo  
       2015-04-27 14:05:57 +08:00 via Android
    谁来讲解lz是如何巧妙地打广告
    xiaome
        2
    xiaome  
       2015-04-27 16:27:29 +08:00
    这个广告有点厉害
    JackNo1
        3
    JackNo1  
       2015-04-28 04:02:22 +08:00
    能说一下这网站和Reddit有什么区别么?
    questionlin
        4
    questionlin  
    OP
       2015-04-28 10:36:59 +08:00
    @JackNo1 区别在于玩法吧, reddit 是论坛,而猫猫楼更像一个有过滤和社交功能的 rss 阅读器。后台程序保证了每次上来都能有新鲜事看。
    而且,国内不是还没有 reddit 么,我来填补这个空缺。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5849 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:06 · PVG 10:06 · LAX 18:06 · JFK 21:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.