V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
easyhappy
V2EX  ›  Python

COCA20000 爬单词

  •  
  •   easyhappy · 2015-11-02 22:27:33 +08:00 · 8715 次点击
    这是一个创建于 3103 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这是英语国家使用频率最高的词汇集合。 从众多语料库( corpus )中提取。用大数据的方法从各种文体中自动生成一个词频表。这是当今最准确的词频表:美国当代语料库 coca 中的前 20000 个单词。 简单的说, coca 就是把 1990-2012 年美国最有代表性的报纸,杂志,小说,学术,口语(口语可能是用的电视剧或者脱口秀之类的节目转录的)汇集起来,每部分各占 1/5 ,生成 4.5 亿单词量语料库。 背完这个,应当就可以愉快的阅读纽约时报了。

    文件下载: http://pan.baidu.com/s/1huGQM

    我写了一个如下的代码,但是执行完之后, www.shanbay.com 这个网站就再也登不上去了!怎么办!!


    import sys
    reload(sys)
    sys.setdefaultencoding('utf-8')

    import os
    from pyquery import PyQuery as pq

    website=r'http://www.shanbay.com'
    WordBook=open('booktxt.txt','r')
    runkey=raw_input('which page do you want to scan:')

    while True:
    line=WordBook.readline()
    if runkey in line:
    break
    while True:
    dicttxt=open('dicttxt.txt','a')
    for i in range(1,6):
    URL=website+line.replace('\n','')+'?page='+str(i)
    print URL
    WordPage=pq(url=URL)
    WordContainer=WordPage('tr')
    for data in WordContainer:
    wordrow=pq(data).find('td').eq(0).text()+'\t'+pq(data).find('td').eq(1).text().replace('\n','\t')+'\n'
    if u'大于号' in wordrow:
    break
    dicttxt.write(wordrow)
    dicttxt.close()
    countertxt=open('record.txt','a')
    countertxt.write(line[-8:-2]+'\n')
    countertxt.close()
    print line,'Done'
    line=WordBook.readline()
    6 条回复    2015-11-03 13:33:17 +08:00
    guyskk
        1
    guyskk  
       2015-11-02 22:53:07 +08:00
    easyhappy
        2
    easyhappy  
    OP
       2015-11-02 23:03:36 +08:00
    @guyskk 本来就是扇贝单词书 http://www.shanbay.com/wordbook/103867/
    jings
        3
    jings  
       2015-11-02 23:08:30 +08:00
    然而纽约时报的东西管我鸟事
    Xs0ul
        4
    Xs0ul  
       2015-11-02 23:47:08 +08:00
    楼主表情好魔性
    iShao
        5
    iShao  
       2015-11-03 01:32:33 +08:00
    @Xs0ul
    😀
    est
        6
    est  
       2015-11-03 13:33:17 +08:00
    好像别人是免费提供的 。。。 http://corpus.byu.edu/full-text/database.asp
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1054 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 18:18 · PVG 02:18 · LAX 11:18 · JFK 14:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.