V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  namco1992  ›  全部回复第 4 页 / 共 6 页
回复总数  101
1  2  3  4  5  6  
2016-08-29 23:33:02 +08:00
回复了 namco1992 创建的主题 Python 你的树莓派还在吃灰吗?来试试把它改造成语音助手吧!
@manhere 麦克风拿来做唤醒的话很困难,而传感器就比较方便,阈值可调。还有就是,传感器唤醒的话并不限于语音传感器,距离感应、光感应都可以,比如说挥挥手唤醒之类的,可玩性好一点。
2016-08-29 23:16:32 +08:00
回复了 namco1992 创建的主题 Python 你的树莓派还在吃灰吗?来试试把它改造成语音助手吧!
@andyhuzhill 能用起来就不算吃灰吧~我现在改成语音助手之后,早上起来问下天气,然后记点今天该做的事情。虽然手机都能做,但是语音最大的优点就是 hands-off ,拍拍手就能发指令,不用找手机了。
2016-08-29 22:47:55 +08:00
回复了 namco1992 创建的主题 Python 你的树莓派还在吃灰吗?来试试把它改造成语音助手吧!
@roadna 哈哈,我的已经吃灰一年多了...
2016-08-09 22:27:33 +08:00
回复了 allencode 创建的主题 Python Python 爬取拉勾策略的疑问
我的办法很简单...遍历全站数据,然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id},并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面,然后硬生生爬下来就好了,技术岗位貌似是从五万开始。
2016-08-05 09:16:31 +08:00
回复了 zhanghk668 创建的主题 Python python 如何实现协同任务
个人建议以任务队列的形式实现。从你的描述上来看,一个 task 有可能对应了多个处理函数的入口,我建议统一入口,由入口函数再来进行路由分发到相应函数,保持一个输入一个输出的队列形式,比较容易实现。

至于实现方式, python 可参考 rq 任务队列, http://python-rq.org/

其实也可以自己实现,我司的轻量级监控系统就是这么实现的,也没有利用第三方库,参考了 scrapy 的 pipeline ,如下所示,将处理函数按顺序写入配置文件,触发时依次执行即可,每项任务都会 fork 一个子线程。

'pipelines': [
'monitor_platform.src.pipelines.loan_repay_pipelines.get_monitor_data',
'monitor_platform.src.pipelines.loan_repay_pipelines.deal_monitor_data',
'monitor_platform.src.pipelines.loan_repay_pipelines.send_content',
'monitor_platform.src.pipelines.common_pipeline.send_mail',
],
2016-08-03 23:32:54 +08:00
回复了 Merlini 创建的主题 Python python 爬取的数据要如何展现(可视化)?
@Merlini 关系型数据库偏重结构化的数据, mysql 对 json 的支持也是 5.7 加入的,估计很多人还没用上吧。而爬取的数据很难结构化,并且多变,又用不到关系型数据库的那些强项,使用文档型的 nosql 存储比较合适。而且 mongodb 应该算是 nosql 里面最像 mysql 的了,有索引,查询方便。

综上原因,所以选择了 mongodb 。
2016-08-03 23:24:23 +08:00
回复了 Merlini 创建的主题 Python python 爬取的数据要如何展现(可视化)?
@slysly759 就是 c3.js 啊,说 d3 学习曲线陡峭的可以尝试一下,我这种前端一窍不通的都能写,这种比较基础的图表很简单啊,数据组织好了就只剩下调调参数而已了。
2016-08-03 09:09:39 +08:00
回复了 Merlini 创建的主题 Python python 爬取的数据要如何展现(可视化)?
我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了。
展示在这里: http://107.170.207.236/job_analysis
代码在这里: https://github.com/namco1992/job_analysis
2016-07-21 09:55:38 +08:00
回复了 silov 创建的主题 奇思妙想 山海经地图
[发现中国]( http://www.webdog.cn/)
自己画咯~
2016-07-10 18:19:48 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@heamon7 谢谢鼓励~
2016-07-10 09:40:42 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@GeekGao 多谢建议~
2016-07-09 08:58:10 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@wslsq 可以啊,有时间就多做几种职位,你也可以 fork 回去自己做~
2016-07-08 20:50:12 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@jzp113 哈哈,别想了兄弟,没有中国的
2016-07-08 14:31:51 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@zoudeze 旧金山的线路,偶尔还是会抽风访问不了
2016-07-08 14:31:03 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@jzp113 哈哈哈,被发现了。之前做的 side project ,不过反正是做给国外用户的,不算犯法吧[doge]
2016-07-08 13:42:55 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
还 ok ,我就是在自己普通 PC 上跑的,大概每分钟 300 个页面。 python 相关职位接近 4000 个,爬起来还是比较快的。
2016-07-08 11:46:28 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
据我所知没有封 IP ,也不知道拉勾的人上不上 V 站,不过还是低调点好
2016-07-08 09:44:56 +08:00
回复了 namco1992 创建的主题 Python 拉勾网 python 相关职位爬取以及分析展示,希望各位批评指正
@Allianzcortex 我都是遍历的...第一次统计都需要爬两百万个页面...
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5380 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 09:19 · PVG 17:19 · LAX 01:19 · JFK 04:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.