V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
sugusor
V2EX  ›  Python

scrapy 数据输出成 json 文件是空的,这是什么问题

  •  
  •   sugusor · 2015-05-11 23:00:14 +08:00 · 8010 次点击
    这是一个创建于 3489 天前的主题,其中的信息可能已经有所发展或是发生改变。

    小弟刚在学scrapy。参考了官方文档照着它写了一段抓取代码。可以抓取到内容,但在使用scrapy crawl dmoz -o items.json 命令将爬的东西保存成json时生成的文件却只有一些空的[],这是什么原因,求大牛help!

    import scrapy
    from scrapy.selector import Selector
    
    from tutorial.items import DmozItem
    
    class DmozSpider(scrapy.spider.Spider):
        name = "dmoz"
        allowed_domains = ["dmoz.org"]
        start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
        ]
    
        def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        items = []
        for sel in sites:
            item = DmozItem()
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').re('-\s[^\n]*\\r')
            items.append(item)
        return items
    
    26 条回复    2015-05-13 18:21:04 +08:00
    mahone3297
        1
    mahone3297  
       2015-05-11 23:12:46 +08:00
    我看到例子是,parse最后是 yield item,不是return。。。
    sugusor
        2
    sugusor  
    OP
       2015-05-11 23:14:39 +08:00
    @mahone3297 我一开始用的是yield,好像也不行。
    mahone3297
        3
    mahone3297  
       2015-05-11 23:26:49 +08:00
    那。。。你log下看看。。。比如,在parse函数里
    `self.log("debug info url = " % response.url)`
    然后,你可以用scrapy shell 看看你的 xpath是否正确,是否找的到html tag
    Gonster
        4
    Gonster  
       2015-05-12 01:01:10 +08:00
    话说 def parse下面的缩进是帖子忘写了吗
    sugusor
        5
    sugusor  
    OP
       2015-05-12 07:42:47 +08:00
    @Gonster 好像是复制过来的时候缩进被吃掉了= =
    sugusor
        6
    sugusor  
    OP
       2015-05-12 08:02:55 +08:00
    @mahone3297 额,xpath好像都是对的,因为我把抓的内容直接显示在命令行时内容都在,但把它们导出到json却只有一些[],具体内容都没有导出来。
    sugusor
        7
    sugusor  
    OP
       2015-05-12 08:26:17 +08:00
    @mahone3297 我试了把它们导出成'xml', 'jl', 'json', 'jsonlines', 'csv',结果只有csv文件中有数据,其他的都没有。而且csv中的文件也好像也有错误,用文本格式打开时能显示desc属性的信息,但我用libreoffice打开时却只有title和link属性有内容。
    mahone3297
        8
    mahone3297  
       2015-05-12 09:46:44 +08:00
    不一般的怪异。。。我最近也在学,都ok。。。我也不知道你什么情况了。。。
    sugusor
        9
    sugusor  
    OP
       2015-05-12 10:33:37 +08:00
    @mahone3297 我在想是不是我安装的不对,我是按照那个官方指南安装的,但是安装的时候它好像忽略了好多东西。。
    sugusor
        10
    sugusor  
    OP
       2015-05-12 10:34:31 +08:00
    @mahone3297 还有我是ubuntu下安装的。。。是不是有什么要注意的地方
    mahone3297
        11
    mahone3297  
       2015-05-12 11:27:29 +08:00
    我也是ubuntu下安装的

    先安装一些依赖
    apt-get install python-pip
    apt-get install python2.7-dev
    apt-get install libxml2-dev
    apt-get install libxslt1-dev

    然后安装scrapy
    pip install scrapy
    sunchen
        12
    sunchen  
       2015-05-12 11:57:29 +08:00
    spider yield item,然后检查下你的pipeline
    sugusor
        13
    sugusor  
    OP
       2015-05-12 13:18:27 +08:00
    @sunchen 我的pipeline就是官方自己生成的,我并没有改过它。还有那个spider yield item命令具体该怎么用啊,我在项目下输入它说没有spider这个命令。。
    sugusor
        14
    sugusor  
    OP
       2015-05-12 13:19:14 +08:00
    @mahone3297 我按照官方文档http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/ubuntu.html#topics-ubuntu 这个安装的,有没有问题?
    mahone3297
        15
    mahone3297  
       2015-05-12 13:19:43 +08:00
    @sugusor 他的意思是说,在spider的parse函数了,yield item,而不是return。。。也就是我前面说过的。。。
    sugusor
        16
    sugusor  
    OP
       2015-05-12 13:41:44 +08:00
    @mahone3297 我发现libxlst1-dev我的安装中没有包括,但我现在装好后好像还是没什么变化
    mahone3297
        17
    mahone3297  
       2015-05-12 14:07:43 +08:00
    @sugusor 应该没问题吧。。。
    zenxds
        18
    zenxds  
       2015-05-12 14:17:55 +08:00
    yield 单个item试试
    sugusor
        19
    sugusor  
    OP
       2015-05-12 14:26:02 +08:00
    @zenxds 好像还是不行QAQ,只有csv格式可以,xml,json这些都不可以= =
    beibeijia
        20
    beibeijia  
       2015-05-12 21:01:49 +08:00
    https://github.com/scrapy/dirbot
    这是官网的那个例子 你先去下载运行一遍试试 我这边可以正常输出 如果测试没问题就对着这个检查一遍自己的代码 如果有问题的话 重装一遍scrapy 再有问题的话 我只能说呵呵了 你得自己看着办。。。
    sunchen
        21
    sunchen  
       2015-05-12 22:03:51 +08:00
    @sugusor 把parse方法改成yield单条DmozItem,如果你想一个parse方法中输出多条item,直接多次yield 就行了, 然后把你的pipeline代码发上来
    sugusor
        22
    sugusor  
    OP
       2015-05-12 23:12:14 +08:00
    @sunchen 我的pipeline代码是这样的
    # -*- coding: utf-8 -*-

    # Define your item pipelines here
    #
    # Don't forget to add your pipeline to the ITEM_PIPELINES setting
    # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


    class TutorialPipeline(object):
    def process_item(self, item, spider):
    return item
    sugusor
        23
    sugusor  
    OP
       2015-05-12 23:13:13 +08:00
    @beibeijia 唔,这个例子我已经试过了,好像还是不行= =,我还是重装好了。。不过能说一下怎么能彻底卸载吗?
    sunchen
        24
    sunchen  
       2015-05-12 23:51:23 +08:00
    @sugusor pipeline里 return改成yield试试
    sunchen
        25
    sunchen  
       2015-05-12 23:54:32 +08:00
    @sugusor 不对,pipeline里就应该是return,请忽略我的上条回复
    beibeijia
        26
    beibeijia  
       2015-05-13 18:21:04 +08:00
    @sugusor pip uninstall scrapy 然后再安装一遍 我刚装的时候也遇到测试问题 这样重新安装了一遍就ok了 如果不行那就得把依赖包全给卸了重来 唉 遇到这种奇葩问题反正就是折腾 你自己试试吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4349 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 10:10 · PVG 18:10 · LAX 02:10 · JFK 05:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.