首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
ArchiTech
V2EX  ›  奇思妙想

提取网页关键词的思路

  •  
  •   ArchiTech · 91 天前 · 1809 次点击
    这是一个创建于 91 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如何从一个网页上面提取几个关键词来概括网页内容呢?我想分析一些网页,并找出相关的网页匹配到一起。
    网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。

    如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?

    另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。
    7 回复  |  直到 2019-10-26 04:06:33 +08:00
    zdnyp
        1
    zdnyp   91 天前
    NPL、卷积神经网络
    chinauniverse
        2
    chinauniverse   91 天前
    做一个贝叶斯模型,在线学习,越用越智能。预测个大概应该不成问题
    naomhan
        3
    naomhan   91 天前
    大部分有 description
    abclearner
        4
    abclearner   91 天前
    信息提取了解一下 如 if-idf
    zhaiblog
        5
    zhaiblog   89 天前
    https://github.com/kingname/GeneralNewsExtractor
    这个项目以及项目中提及的论文《基于文本及符号密度的网页正文提取方法》应该能帮到你
    ArchiTech
        6
    ArchiTech   89 天前
    @zhaiblog 这个是把网页的内容提取了出来,但是并没有分析内容,最终提取出核心的几个关键词吧?
    感谢回复!
    ArchiTech
        7
    ArchiTech   89 天前
    也感谢楼上其他人的回复,神经网络的办法我看了下,train model 的部分感觉很大工程啊。。。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2047 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 20ms · UTC 14:36 · PVG 22:36 · LAX 06:36 · JFK 09:36
    ♥ Do have faith in what you're doing.