V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
polo3584
V2EX  ›  问与答

有没有搜索引擎能解决重复度过高的问题

  •  
  •   polo3584 · 2021-04-20 09:38:27 +08:00 · 1357 次点击
    这是一个创建于 1311 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在的互联网,特别是中文互联网,复制粘贴情况太严重了,搜索一个什么东西,前几页的内容高度重复出自同一个博客,被发到各个平台,能不能把相似度很高的内容重叠起来,提高搜索效率。

    或者是有什么插件能实现这个功能吗?

    6 条回复    2021-04-20 23:15:47 +08:00
    uselessVisitor
        1
    uselessVisitor  
       2021-04-20 10:05:48 +08:00   ❤️ 1
    Yourshell
        2
    Yourshell  
       2021-04-20 10:30:06 +08:00 via Android
    这是搜索引擎的本职工作吧
    acr0ss
        3
    acr0ss  
       2021-04-20 10:42:39 +08:00
    @Yourshell
    明显不是。

    1. 首先搜索引擎匹配的是搜索关键字相似度。
    2. 如果如你所言,搜索引擎相需过滤相似结果,如何保证公平?如何保证留下来的就是原创?
    ebingtel
        4
    ebingtel  
       2021-04-20 13:59:29 +08:00
    谷歌的搜索内容 基本上没啥重复的了吧 百度的倒是很多重复……simhash 算法?
    wjgmytwq
        5
    wjgmytwq  
       2021-04-20 14:19:43 +08:00
    网页去重不是那么好做的,一个网页,不是只包含核心内容那块文字的,google 做的是整体去重,就是整体很相似的。
    而且我并不建议去重,为什么呢,因为就算核心内容一样,周边信息也有不一样的地方。
    举个例子来说,我之前搜一个问题,搜到了微软的官方网站,就挂了一个标准答案,但是问题没解决。后来我找到一个答案很类似的技术网站,从下面的评论里找到了解决问题的办法。
    czfy
        6
    czfy  
       2021-04-20 23:15:47 +08:00 via Android
    内容去重的前提是内容识别

    你说标题一模一样,那是最容易的

    难就难在同一篇文章被洗稿成 n 篇,意思都是那些,但标题不同,正文可能还改了点,这种机器学习识别率 /分类效率还是不高
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1197 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:05 · PVG 02:05 · LAX 10:05 · JFK 13:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.