V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  brucedone  ›  全部回复第 9 页 / 共 10 页
回复总数  199
1  2  3  4  5  6  7  8  9  10  
很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。
如果可以,打包成 docker 吧, win 上不是也可以用 docker 了?
2017-04-20 11:20:57 +08:00
回复了 Miksztowi 创建的主题 Python 大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?
@Miksztowi 当然可以啦,不过呢,中间一般在经历 label 的过程。
2017-04-19 11:57:57 +08:00
回复了 Miksztowi 创建的主题 Python 大家如何看待爬虫和爬虫教程近日被推到风口浪尖这种现象?
===足够的吸引力===
拿别人的代码跑一下,就可以拿到种子,妹子图,或者生成标准的 excel ,你说对于一个从来没有接触过编程语言的人,够不够吸引力呢?我想大多数刚接触语言的人应该都不会拒绝吧,特别是非科班出身的人

===数据时代的兴起===
目前的噱头,都天天喊着大数据,有些公司或者企业,本身不生产数据,那怎么办呢?买数据,或者爬数据,这点对于“爬虫”这个行业的兴起是密不可分的

===入门容易深入难===
懂一般的 http 请求,了解 xpath ,正则,玩一两个框架,就可以定制一些数据了,那真这么简单吗?当然不是,你玩爬虫你得知道别人反爬虫的常用技巧吧, js 渲染, api 加密,封 IP ,出验证码,还有你的数据层面的存储,清洗,爬虫的整体执行效率,每一个细节都可以延伸的技术细节,所以你入门是容易的,但是想要精进,是需要花时间的

===乱象===
现在网上对于爬虫的需求是饱和或者上升的,但是舆论风气很不好,贴一两段代码,然后取个什么标题,他们从来不会跟你讲 html dom 元素, javascript ,http 请求这些基本的理论知识,更别谈数据库,语言的基础知识了,只要你会用,这点我看来不怎么好
2016-12-07 20:01:26 +08:00
回复了 seizetheday 创建的主题 Python 求推荐 python 的任务管理的方法
2016-11-21 17:18:47 +08:00
回复了 GrahamCloud 创建的主题 推广 这里是造数,正在写一个智能云爬虫给大家,快来玩耍
我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。
@loveuqian 君不见南山,车水马龙,人满为患,上下拥堵,劳心劳力。
@Doubear 资历给能力让步,对自己有信息就扔个简历过来~
2016-10-12 13:17:08 +08:00
回复了 crazykuma 创建的主题 Python 公司都在用 py2.7,同事非要用 py3.6,怎么破
既然你有这么多理由这不是应该你的 leader 决定的吗?直接把你的问题给你的 leader 做处理。
2016-10-11 19:03:29 +08:00
回复了 crazykuma 创建的主题 Python 公司都在用 py2.7,同事非要用 py3.6,怎么破
能干活就成呀,他自己负责一块,打包成 docker 应用,自己维护,不限制语言,各玩各的也行
@kakana 欢迎投简历 ~
2016-10-11 13:08:51 +08:00
回复了 bboysoul 创建的主题 程序员 wordpress 有什么关闭了注册功能还可以留言的插件不
用多说的社会化评论系统就可以了。增加这个插件。
2016-10-11 09:59:02 +08:00
回复了 brucedone 创建的主题 Python [awesome-crawler]爬虫资源大汇总
@hanzichi 哇,这个可以收录到 demo 系列,我先标记一下,感谢你的分享~
2016-10-11 09:58:32 +08:00
回复了 brucedone 创建的主题 Python [awesome-crawler]爬虫资源大汇总
@scnace 感谢你的 golang 资源分享,今天 update 一个新的版本上去
2016-10-11 09:57:53 +08:00
回复了 brucedone 创建的主题 Python [awesome-crawler]爬虫资源大汇总
@slysly759 - - 大神不要捧我的臭脚了,我就是一个资源收集与分享~
2016-10-10 20:06:24 +08:00
回复了 brucedone 创建的主题 Python [awesome-crawler]爬虫资源大汇总
@sinoandywong 感谢分享,基于 python 的有很多,我想更汇总不同语言的框架和资源
2016-10-09 17:26:22 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
2016-10-09 16:41:57 +08:00
回复了 practicer 创建的主题 Python Python 爬虫项目如何管理?
执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
2016-09-30 18:29:46 +08:00
回复了 Gouweicao 创建的主题 酷工作 [深圳] 香蕉团队急急急如律令招.net 后端,各位大大看看喽
兄台,这里大部分都是 pythoner , .net 的相对少,或者你可以去博客园招一把。虽然我也是.net + python
@imydou - - 又不是水下编程,不过回南天难受是妥妥的。
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   786 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 20:32 · PVG 04:32 · LAX 13:32 · JFK 16:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.