V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
richiefans
V2EX  ›  问与答

对于站内搜索大家都是如何实现的?

  •  
  •   richiefans · 2011-12-27 21:07:33 +08:00 · 5719 次点击
    这是一个创建于 4721 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据量不大 貌似用数据库就可以了,比如博客啥的~
    但数据量大 且需要有分词概念的时候 大家如何实现的?
    如果在考虑一下商业化 比如权重,排名之类的又如何呢?

    目前我在看solr 大家有什么好的方案么?
    15 条回复    2016-01-27 09:12:23 +08:00
    daqing
        1
    daqing  
       2011-12-27 21:18:33 +08:00
    最近也在考虑这方面的东西,目前可以选择的: Solr, Coreseek, 用Lucene自己定制开发,Redis-search。

    基本上大型网站,用Lucene定制开发的居多。专业搜索引擎如百度,有道等,应该是自己的技术了。
    Julyyq
        2
    Julyyq  
       2011-12-27 21:19:50 +08:00
    直接用DW实现的菜鸟飘过~
    delectate
        3
    delectate  
       2011-12-27 21:55:22 +08:00
    用google custom
    richiefans
        4
    richiefans  
    OP
       2011-12-27 21:58:33 +08:00
    @daqing 看了一下Coreseek是基于Sphinx 貌似也还行 Solr配置起来比较简单 先把它整整看 不知道用哪个中文分词比较好 imdict貌似不支持自定义词库
    daqing
        5
    daqing  
       2011-12-27 22:42:09 +08:00
    meecle
        6
    meecle  
       2011-12-27 22:47:59 +08:00
    刚才到GNU.org去搜索软件,发现Hyper Estraier : a full-text search system for communities, 这个可以,更多的去http://fallabs.com/ 看看!
    meecle
        7
    meecle  
       2011-12-27 22:49:15 +08:00
    www.gnu.org 也再用这个,参考这里: http://www.gnu.org/cgi-bin/estseek.cgi
    Blask
        8
    Blask  
       2011-12-28 00:20:13 +08:00
    google custom 不错啊.
    Tianpu
        9
    Tianpu  
       2011-12-28 01:04:17 +08:00   ❤️ 1
    @richiefans 记得给我小红花 www.xunsearch.com
    xiangjian
        10
    xiangjian  
       2012-01-09 18:38:44 +08:00
    有没有对 pdf,word,PPT ,支持比较好的 全文搜索。中文分词最好可以自定义
    dreampuf
        11
    dreampuf  
       2012-01-09 20:38:01 +08:00
    document database 自己随意控制.
    小的业务需求也很容易实现.
    tuzi
        12
    tuzi  
       2012-06-27 22:53:00 +08:00
    @Tianpu 似乎不错,谢谢
    INT21H
        13
    INT21H  
       2012-06-27 23:24:22 +08:00
    啊 分词用mmseg就蛮好
    yandy
        14
    yandy  
       2014-08-25 21:54:37 +08:00
    可以用一些 第三方的搜索服务,有 RESTful 的 API。例如国内有一家做的不错的 http://tinysou.com。既可以用API,又可以基于爬虫。看到 teahour.fm 就在用他们的服务。看到对中文的支持挺好的,还可以拼音搜索,拼音补全。
    kwklover
        15
    kwklover  
       2016-01-27 09:12:23 +08:00
    一般大型的,会选用 JAVA 平台的 ES 或 SOLR ,其实底层都是基于 LUCENE ,特定是定制型强大,开发量和维护量也不小;
    用 MYSQL 数据库可能会喜欢搭配 Sphinx 或基于它的衍生品,整合的比较密集,配置好了,查询用的类 SQL 语句,还是比较方便的,就是中文分词不太好,或者可定制性差些,性能还是挺高的;
    WINDOWS 平台下中小草根站长可能比较喜欢选用搜易站内搜索引擎,基本不用开发了。点点鼠标就可以创建一个站内搜索。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2532 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:51 · PVG 12:51 · LAX 20:51 · JFK 23:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.