V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
klxq15
V2EX  ›  Python

使用 Python 写了爬虫,总是因为未知原因意外停止

  •  
  •   klxq15 · 2017-03-16 13:35:30 +08:00 via Android · 2560 次点击
    这是一个创建于 2598 天前的主题,其中的信息可能已经有所发展或是发生改变。
    用 python 写了一个爬虫,就是简单的网页抓取,在运行一天左右后就自己停了,没有出错信息。在 google 一番后看到某个人说因为调试输出过多(也就是 print 函数)导致缓冲区溢出,所以意外停止。问一下大家有可能是这个问题吗?看大家写了那么多爬虫一直 print 也没有这种情况啊。
    8 条回复    2017-03-17 06:16:40 +08:00
    nyanyh
        1
    nyanyh  
       2017-03-16 13:41:44 +08:00
    流程里多打几次 log 就能看出问题了
    CosimoZi
        2
    CosimoZi  
       2017-03-16 13:42:19 +08:00
    不要 print,用 logging 模块
    LeeSeoung
        3
    LeeSeoung  
       2017-03-16 14:06:06 +08:00
    把所有 print 注释掉再跑一遍不就知道是不是了。。
    ic2y
        4
    ic2y  
       2017-03-16 14:08:58 +08:00
    我给你说一个可能的原因。。我当初是碰到 这种情况了。。当时我的爬虫,爬到了有人分享的 Android 开发工具包。。好几个 G 的文件。。爬虫没做判断,自己在那里下载,崩掉了。 。你做做 log ,然后多考虑特殊情况。捕捉 Exception
    SunnyFeng
        5
    SunnyFeng  
       2017-03-16 19:03:28 +08:00
    放弃 print , 学习一下怎么用 log 吧,设计良好的 log 比用完就删的 print 有用得多。
    klxq15
        6
    klxq15  
    OP
       2017-03-16 19:21:52 +08:00 via Android
    谢谢大家都回答,目前已经删除 print 输出调试,正在测试是不是这方面的问题,也准备从 print 转向 log
    julyclyde
        7
    julyclyde  
       2017-03-16 20:38:31 +08:00
    如果是这个原因的话,你把内容 print 到哪儿去了?
    dangyuluo
        8
    dangyuluo  
       2017-03-17 06:16:40 +08:00
    logstash 非常好用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5447 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 08:49 · PVG 16:49 · LAX 01:49 · JFK 04:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.