V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
skyqqcc
V2EX  ›  Python

[开源]scrapy 爬取国内各大视频网站视频信息 [欢迎新手一起交流]

  •  
  •   skyqqcc · 2019-01-16 23:21:28 +08:00 · 2873 次点击
    这是一个创建于 2136 天前的主题,其中的信息可能已经有所发展或是发生改变。

    因为想做一个 VIP 视频网站 /APP 然后不太想用第三方的资源站或者是程序。

    想做一个能够爬取国内各大视频网站的视频信息的爬虫程序。

    爬的信息主要是: 标题,导演,主演,简介,类型,年份,VIP/用卷 /收费 /免费,片头时间,片尾时间,图片(横 /竖),地区,评分,集数,是否完结等....

    目前我已经做好了一丢丢了。。。腾讯视频可以算是好了(还有一丢丢问题,极少部分视频不能爬取)

    如果觉得这个东西可能有用的话 可以点个 star 可能很久以后,会完善

    如果你需要一个项目练练手。。。那么,欢迎你来和我一起完善这个项目。。。

    项目地址:https://github.com/perfect-network/scrapy_for_video.git

    7 条回复    2019-01-17 18:05:41 +08:00
    luckbbs
        1
    luckbbs  
       2019-01-17 07:04:08 +08:00
    有点意思,star 一个。
    Belmode
        2
    Belmode  
       2019-01-17 09:52:52 +08:00 via Android
    关注一波不迷路
    cherrybob
        3
    cherrybob  
       2019-01-17 11:12:30 +08:00
    没有验证码,IP 反爬虫限制的处理吗?
    skyqqcc
        4
    skyqqcc  
    OP
       2019-01-17 14:55:49 +08:00
    @cherrybob 没有,我只是爬信息而已
    skyqqcc
        5
    skyqqcc  
    OP
       2019-01-17 14:57:51 +08:00
    @cherrybob 而且可以直接去他们这个视频 APP/小程序等客户端里抓包,直接去抓接口。。。腾讯视频里就有两个接口是从腾讯视频小程序里抓到的
    woshicixide
        6
    woshicixide  
       2019-01-17 17:55:30 +08:00 via Android
    楼主 ip 用的哪家的代理
    skyqqcc
        7
    skyqqcc  
    OP
       2019-01-17 18:05:41 +08:00
    @woshicixide 目前还没有用到代理。。。。。可能以后会用到吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3907 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:19 · PVG 13:19 · LAX 21:19 · JFK 00:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.