V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xoxo419
V2EX  ›  程序员

有这样的爬虫么, 可以爬英文的文档中的单词并统计每个单词在文档出现的次数?

  •  
  •   xoxo419 · 2018-06-20 08:51:23 +08:00 · 4155 次点击
    这是一个创建于 2341 天前的主题,其中的信息可能已经有所发展或是发生改变。
    18 条回复    2018-06-20 17:10:37 +08:00
    ChangQin
        1
    ChangQin  
       2018-06-20 08:57:10 +08:00
    有,go 程序设计语言前几节就有这个 demo
    jiezhi
        2
    jiezhi  
       2018-06-20 09:01:02 +08:00
    python 入门里也有这个 demo 吧
    xy2401
        3
    xy2401  
       2018-06-20 09:01:56 +08:00
    mark。我之前想统计 比如 spring 文档里面 的高频词汇,感觉需求类似
    yuanfnadi
        4
    yuanfnadi  
       2018-06-20 09:02:11 +08:00 via iPhone
    Java 入门时候写过类似 demo
    lhx2008
        5
    lhx2008  
       2018-06-20 09:03:36 +08:00 via Android
    读进来切一下,python 可以用 counter,java 可以用 stream
    NaVient
        6
    NaVient  
       2018-06-20 09:03:40 +08:00
    python --> from collections import Counter
    qilishasha
        7
    qilishasha  
       2018-06-20 09:09:43 +08:00
    数组长度数组长度
    kingname
        8
    kingname  
       2018-06-20 10:18:18 +08:00
    laoyuan
        9
    laoyuan  
       2018-06-20 10:26:14 +08:00
    手写原生
    simapple
        10
    simapple  
       2018-06-20 10:31:28 +08:00
    nltk
    soho176
        11
    soho176  
       2018-06-20 10:45:39 +08:00
    是准备统计最近十年高考英语卷,出现频率高的单词吗?
    fengche361
        12
    fengche361  
       2018-06-20 10:59:52 +08:00
    爬取+分词+wordcount ?
    yuriko
        13
    yuriko  
       2018-06-20 11:04:34 +08:00
    第一反应是 MapReduce 的范例……
    hyi
        14
    hyi  
       2018-06-20 11:19:29 +08:00
    学 python 时写过一个统计英文 txt 单词词频的 python 小脚本,用的是 nltk 库,你可以参考下思路,https://github.com/Hangyi/parse_words_frequency
    jyf
        15
    jyf  
       2018-06-20 11:32:09 +08:00
    主流的爬虫一般都会统计词频 因为有个流行的算法 TF-IDF 就是拿词频作为计算基础的
    woscaizi
        16
    woscaizi  
       2018-06-20 11:46:23 +08:00
    写过一个类似的东西,是统计小说中 2 到 5 字的词语出现的次数,没有考虑是否是有意义的词的情况
    https://github.com/pandaTED/zhihuSpider/blob/master/src/main/java/cn/panda/hello/Hello.java
    Tink
        17
    Tink  
       2018-06-20 12:14:02 +08:00 via iPhone
    这点功能不如手写
    geying
        18
    geying  
       2018-06-20 17:10:37 +08:00
    @yuriko +1
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   967 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:50 · PVG 04:50 · LAX 12:50 · JFK 15:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.