V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  seoguess  ›  全部回复第 1 页 / 共 3 页
回复总数  43
1  2  3  
2019-05-14 23:00:15 +08:00
回复了 zhuwd 创建的主题 程序员 三线小城的程序员如何实现财务自由?
@JohnLou 很多人只是冲着一个希望去的,只要有人忽悠,就会有人相信。嗯,论韭菜的个人修养。
2019-05-14 22:58:47 +08:00
回复了 zhuwd 创建的主题 程序员 三线小城的程序员如何实现财务自由?
@GrayLand119 人才
2019-05-14 22:57:49 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@nicolas0caser 收到,谢谢你!
2019-05-13 23:51:54 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@WordTian 原来如此,我理解错用法了。非常感谢!
2019-05-13 12:15:35 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
net:
port: 27233
bindIp: 127.0.0.1,localhost,154.*.*.*

mongod.conf 启动时候没报错,但是就是不生效。
2019-05-13 12:14:34 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@nicolas0caser 你好,bindip 设置请教一下。
2019-05-13 11:50:22 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@WordTian 你好,请问设置过 bindip 同时绑定 locahost 跟外网本地 ip 吗?

net:
port: 27233
bindIp: 127.0.0.1,localhost,154.***.***.***

我设置成这个的时候,所有的 ip 都可以连接上去。如果删除了 154 开头的外网 ip,就只能本地连接数据库了。

服务器上 netstat -a |grep :27233 显示如下:

tcp 0 0 localhost:50822 localhost:27233 ESTABLISHED
tcp 0 0 localhost:27233 localhost:50818 ESTABLISHED
tcp 0 0 154.XXX.X.XXX:27233 116.XXX.X.XXX:60584 ESTABLISHED


请问我的设置哪里出现了问题?搞了一整天了没找到资料。或者我干脆放弃 bindip,从 iptables 下手可行?谢谢!
2019-04-26 23:13:06 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
原来 max_worker 为空的情况下,默认线程为 cpu 核数量*5,难怪花了 300+秒。
2019-04-26 22:56:20 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@zy342500 谢谢,我以为放空的话就是没有限制。

max_workers=100,跑完用时 79 秒
max_workers=1000,跑完用时 49 秒
2019-04-26 10:16:22 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@scriptB0y 我用 concurrent 模块重新修改了下代码,发现效率比我之前的代码差了好多....
for 循环: #获取 cookie:
threads = [ (i.get('hotelId'),headersCookie) for i in id_lines.find() ]
pool = ThreadPoolExecutor()
future_tasks = [ pool.submit(start_claw, t) for t in threads ]
wait(future_tasks, return_when=ALL_COMPLETED)

time.sleep(3)


3K 左右的链接,用时 382 秒

for 循环: #获取 cookie:
threads = []

for i in id_lines.find():
hotelId = i.get('hotelId')
threads.append(hotelId)


for hotelid in threads:
t = ClawData(hotelid,headersCookie)
t.setDaemon(True) #防止程序异常退出时,有僵尸进程存在
t.start()

for hotelid in threads:
t.join()

time.sleep(3)

用时:52 秒

请问为啥效率可以差别这么大?
2019-04-25 21:24:25 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@Leigg 谢谢!如果我的 main 函数大致结构是:

for cookie in cookies: # 1、获取 N 个不同的生成的 cookie
for id in id_list: #2、获取不同的 id 来生成 url
t = threading.Thread(claw(cookie,id), args) # 3、多线程获取内容、入库、记录错误
t.start()


是不是逻辑上,我把第三步中的采集入库、记录错误上锁了,1、2 中对应的 cookie 跟 id 不会出现多线程引起的数据错乱?
2019-04-25 19:43:34 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@scriptB0y 谢谢!我研究一下。
2019-04-25 16:18:42 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
如果 for 循环加上加锁不安全的话,那么 Queue 队列应该如何应用?

非生产者消费者模式感觉太复杂了,抓取的类只需要传入 cookie 跟对应的 id 来生成 url。

或者我把 url 跟 cookie 变成一个 tuple,然后判断 not Queue.empty(),然后通过 for 循环 + Queue.get()多线程去抓取内容可行?

求解惑,谢谢!
2019-04-25 16:14:31 +08:00
回复了 leewlab 创建的主题 Python PySpider 如何合并长文章的内分页
加一个 if 判断,翻页 css、url 路径或者其他,然后循环获取所有的翻页内容,article += content
2016-11-15 19:16:07 +08:00
回复了 ldehai 创建的主题 程序员 想写一本全栈开发的书,问问大家的意见
这个真心不错, mark 。。。
2016-10-27 21:04:42 +08:00
回复了 geek123 创建的主题 程序员 hexo 搞了个博客,大家提提意见。
原来汇智网是你的?

在网站上看了 flask 跟 mysql 的课程,很给力。
2016-10-11 08:29:35 +08:00
回复了 PhilosophyKing 创建的主题 TensorFlow Python + TensorFlow 深度学习中文教程
已 star ,挑个时间好好看下你的视频。
2016-10-11 08:28:07 +08:00
回复了 dataman 创建的主题 推广 数人云|赠书,从容器的全世界路过
万一中了呢... 容器还没学习到呢...
2016-08-29 18:13:51 +08:00
回复了 twogoods 创建的主题 程序员 老师来电话了,心塞~
@zxb 你竟然没有在兰州拉面吃过盖浇饭?不是很普遍的吗?
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2660 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 16:06 · PVG 00:06 · LAX 09:06 · JFK 12:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.