V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  yakczh  ›  全部回复第 56 页 / 共 70 页
回复总数  1391
1 ... 52  53  54  55  56  57  58  59  60  61 ... 70  
2014-02-26 21:45:51 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
你说的这种是链接专门在一个页面,数据在另一个页面, 假如一个页面同时有数据和链接呢?

另外数据页面可能有多个区域
2014-02-26 17:34:33 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
这玩意儿就不要折腾php了,php是采用应用服务器和业务脚本分离的方案,相当于异构系统结合起来,应用服务器c常驻内存,处理连接, php脚本一次性筷子,用完就扔,而象java,python,ruby,node其他这么单一语言同时扮演应用服务器容器和业务处理方案来说,一步到位,只要在解析http协议的时候检测下upgrade头就可以了(ws),或者也可以用自己定义的数据包格式,正常的http请求头就处理完业务就断开连接,如果是自己定义的数据包格式,就保持连接,或者push数据
2014-02-26 17:25:45 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
@mantianyu 晕 不如是性能, socket都支持,都能做,就象同样的活,两个人干,有的干得快,有的干得慢, servlet只是sun对java来实现http请求服务方面定的一堆规范,你也可以定义一个serverlit的规范,说不定比它这个更快更简单
2014-02-26 16:54:26 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
@itfanr 直接go吧,socket王者 参看 http://www.techempower.com/benchmarks/
2014-02-26 16:42:13 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
@itfanr 当然可以
2014-02-26 16:41:30 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
php-fpm不能跑,只能用cli跑,除非修改fastcgi协议 不过你可以用nginx代理ws请求到cli,前端只暴露nginx

其实php做这个不如java,当然你可以用多进程来搞,然后再拉个memcache来共享信息
2014-02-26 15:41:36 +08:00
回复了 mantianyu 创建的主题 程序员 有没有办法通过 PHP-FPM 跑 PHP 实现一个 socket server?
swoole
2014-02-26 10:03:36 +08:00
回复了 pc10201 创建的主题 Python python 3.4 有人用吗?
pip install urllib2

Downloading/unpacking urllib2
Real name of requirement urllib2 is urllib3
Could not find any downloads that satisfy the requirement urllib2
Cleaning up...
No distributions at all found for urllib2

python2 -> urllib2
python3 -> urllib3
python4 ->urllib4
东莞是你的方向
2014-02-25 16:25:38 +08:00
回复了 niaoren 创建的主题 Python 我有个爬虫项目需要外包,有人可以接私活吗?
多少钱
2014-02-24 11:47:56 +08:00
回复了 yakczh 创建的主题 Python pyquery 如何传 UserAgent
http://pythonhosted.org/pyquery/scrap.html

By default it use python’s urllib.

If requests is installed then it will use it. This allow you to use most of requests parameters

但是按照缺省的urllib传headers没传进去
2014-02-24 11:43:21 +08:00
回复了 yakczh 创建的主题 Python pyquery 如何传 UserAgent
@yangg 那说明你安装了requests 我安装了requeust以后,再请求就显示正确的ua, pip uninstall requests 以后,再请求又显示 User-Agent: Python-urllib/3.2 ,好象pyq是自动选择的,真是奇怪
2014-02-24 10:12:12 +08:00
回复了 yakczh 创建的主题 Python pyquery 如何传 UserAgent
@yangg
GET / HTTP/1.1
Accept-Encoding: identity
Host: localhost:8080
Connection: close
User-Agent: Python-urllib/3.2
2014-02-24 09:57:33 +08:00
回复了 StackGao 创建的主题 Python 大家好,我想请教一个关于 python 爬虫的小问题^_^
from pyquery import PyQuery as pyq


url=r'http://www.iqiyi.com/v_19rrh6k4pk.html'

doc=pyq(url)

legend=doc("#widget-playcount")

print(legend.text())
2014-02-24 09:51:07 +08:00
回复了 meteor2013 创建的主题 Node.js 是不是目前的 node.js 的框架都还不够成熟?
@ChiangDi 成名不是因为scala 就跟熟棋一脱成名跟后来转型不可同日而语,火要靠气势的
2014-02-24 09:09:51 +08:00
回复了 meteor2013 创建的主题 Node.js 是不是目前的 node.js 的框架都还不够成熟?
一般所谓的成熟就是没有一个用xx写的语言的网站一炮成名,当年php没在facebook出来之前,象新浪,掏宝老牌的互联网公司都在用php,还有wordpress,discuz很多普及的应用,但一样很多人认为php不成熟,上不了台面,直到facebook成名以后,大大小小的电商一窝蜂热捧php,这就是所谓的成熟,nodejs需要有个有个象twitter那样用ruby写的一举成名的网站,然后再没人敢说nodejs不成熟了
2014-02-20 21:34:14 +08:00
回复了 pc10201 创建的主题 Python 做网络爬虫,python 的多线程,异步和 node.js 的异步哪个好?
@wuyadong \tigerspider-master\core\util.py", line 79, in <module>
@gen.coroutine
AttributeError: 'module' object has no attribute 'coroutine'
2014-02-20 11:29:19 +08:00
回复了 lazybios 创建的主题 Python 定向爬虫规则管理问题
下载,抽取链接放到队列里这都是一样的,不一样的是抽取数据部分,这部分可以把解析代码当成配置数据, 根据不同站点不同url规则动态载入, python怎么样传入一段字符串的代码eval动态执行 ,不过这比较丑陋,有没有优雅一点的方法?
1 ... 52  53  54  55  56  57  58  59  60  61 ... 70  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1415 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 23:40 · PVG 07:40 · LAX 16:40 · JFK 19:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.