V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xiaoyu9527
V2EX  ›  问与答

只会用火车头采集的想改学 python 到底多久才能学会呀!!!

  •  
  •   xiaoyu9527 · 2015-10-19 10:09:51 +08:00 · 3227 次点击
    这是一个创建于 3348 天前的主题,其中的信息可能已经有所发展或是发生改变。

    专门实战类的教程书籍可以推荐呀。 看理论书籍很快就忘记了。

    3 条回复    2015-10-19 11:46:12 +08:00
    kenshinhu
        1
    kenshinhu  
       2015-10-19 10:12:10 +08:00
    火车头采集是什么来的?
    hippoboy
        2
    hippoboy  
       2015-10-19 11:04:20 +08:00
    个人感觉 python 的书籍不是很多

    有编程经验的看看 github 的实例,再不行 oschina 上也有很多

    换句话说,seo 运营为王....比较反感那种用火车头抄抄抄的网站....转成 python,依然反感->_->

    当然做信息集合的精选就另说了
    lecher
        3
    lecher  
       2015-10-19 11:46:12 +08:00
    只会用火车头,说明可能有几点没有掌握好。
    1.数据库读写操作
    2.编写基础的逻辑代码,循环,判断等等

    但是至少这些是了解的。
    1.html 的结构和显示原理
    2.基础的服务器搭建
    3.正则表达式

    以上的五点都了解,就可以做到用 python 写采集器了。
    所以除了看 python 的理论书籍之外,再增加数据库操作的学习就可以做到写一个阻塞的单线程采集器来替换火车头了。
    学习阶段无非就是这几个。
    1.学会用 python 抓取网页信息, requests 之类的库很方便就可以抓取到网页内容。
    2.学会用 python 解析网页信息,可以用正则表达式扫描,也可以用 lxml 之类的将 html 解析成序列化的结构数据。
    3.学会用 python 读写数据库, pymysql 之类的。达到第三阶段就可以实现用 python 写一个可以替换火车头的采集器了。
    4.学习任意一个 python 的爬虫框架如 scrapy ,把 1 、 2 、 3 阶段的操作都放到框架里面,可以方便做采集任务的管理。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2852 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 14:56 · PVG 22:56 · LAX 06:56 · JFK 09:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.