V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  paulw54jrn  ›  全部回复第 9 页 / 共 11 页
回复总数  215
1  2  3  4  5  6  7  8  9  10 ... 11  
2014-07-16 07:18:47 +08:00
回复了 O21 创建的主题 分享创造 豆瓣 妹子 采集器,Python 处女座。。请各位指教
@O21
一个主进程负责分析img url,把他们都放到Multiprocessing Queue里面,然后在多个worker thread之间共享,让worker负责具体的抓取. 不同的worker可以用不同的代理,防止屏蔽.
2014-07-14 22:39:46 +08:00
回复了 O21 创建的主题 Python Python 处女座 源码,抓取豆瓣妹子图片,卡壳了。。求助大神
唔..偷懒没用gist..
缩进乱了..不过你懂的..
2014-07-14 22:39:10 +08:00
回复了 O21 创建的主题 Python Python 处女座 源码,抓取豆瓣妹子图片,卡壳了。。求助大神
这样试试?

file = "/home/o21/img/%s.jpg" % img_num
try:
download_img = urllib.urlretrieve(imgurl,file)
except IOError:
os.mkdir(file.[:file.rfind("/")])
2014-07-14 22:30:24 +08:00
回复了 O21 创建的主题 Python Python 处女座 源码,抓取豆瓣妹子图片,卡壳了。。求助大神
把下载路径改成 '/tmp/%s.jpg' % img_num 用做测试的话,程序可以跑起来

paul@PaulMBP:~/Desktop$ ipython test.py
##################################################
本程序主要采集豆瓣<请不要害羞>小组的图片
##################################################
采集前需要输入代理服务器地址,这样可以防止被豆瓣屏蔽.
推荐一个代理地址: http://cn-proxy.com/
只需要输入服务器地址以及端口号,不需要输入http
例子:127.0.0.1:8080
##################################################
请输入采集代理服务器:121.10.120.135:8001
请输入采集页码数:1
http://img3.douban.com/view/group_topic/large/public/p16112371.jpg
http://img3.douban.com/view/group_topic/large/public/p16112380.jpg
程序采集完成
2014-07-14 22:27:16 +08:00
回复了 O21 创建的主题 Python Python 处女座 源码,抓取豆瓣妹子图片,卡壳了。。求助大神
@O21
错误:
IOError: [Errno 2] No such file or directory: u'/home/o21/\u6587\u6863/PythonEX/Doubanimg/p1616253.jpg'
检查下Unicode的问题
2014-07-14 18:57:18 +08:00
回复了 zap 创建的主题 Python python sha1 加密算法问题
检查下Python下面的Unicode bytearray?
毕竟hash的就是对byte进行操作,只要byte一样,结果就一样.
2014-07-14 18:53:00 +08:00
回复了 jarnanchen 创建的主题 问与答 微信如何导出与一个人的所有聊天记录呢?
@youling
不是腾讯的,还在读书..
之前也是想把聊天记录导出来,所以就在网上找了下微信是怎么加密数据库的.
http://blog.emaze.net/2013/09/a-look-at-wechat-security.html

把最近版本的微信apk反编译读过代码,依旧符合文中说到的的密码产生方式( mangle(md5(imei+uid))[7:])

用的是Android,所以iPhone不了解...
2014-07-14 18:31:52 +08:00
回复了 jarnanchen 创建的主题 问与答 微信如何导出与一个人的所有聊天记录呢?
android的话可以用adb backup把所有微信数据备份到电脑上,然后把sqlite数据库打开.
数据库用sqlcipher加密过,密码是手机的imei和uid的md5混淆过的值的后7位.
2014-07-10 07:18:09 +08:00
回复了 dndx 创建的主题 Amazon Amazon.com 的客服又立功了
在Amazon买过一个waterpik的冲牙器,DOA后申请退货,客服邮件说不用退了,同时马上发了一个新的给我.用的还是国际加急件,快递费跟冲牙器本身的价格差不多了.
最后发现是原来冲牙器的变压器坏了,后来就有两个冲牙器了.
2014-06-26 23:54:00 +08:00
回复了 est 创建的主题 分享发现 只有男性才认识的 12 个单词和只有女性才认识的 12 个单词
只认识..
codec (88, 48)
mach (93, 63)
humvee (88, 58)
claymore (87, 58)
kevlar (93, 65)
2014-06-25 15:25:34 +08:00
回复了 gangsta 创建的主题 macOS Safari 新建 Tab 的快捷键是什么?
好吧,还没看完题,请忽略我
2014-06-25 15:25:00 +08:00
回复了 gangsta 创建的主题 macOS Safari 新建 Tab 的快捷键是什么?
command + t
你好,请问招实习生吗?
2014-06-21 20:55:18 +08:00
回复了 blacktulip 创建的主题 问与答 请问有什么网站压力测试工具么?
Apache jmeter
2014-06-19 14:13:29 +08:00
回复了 poke707 创建的主题 Python 函数体里面能获取当前函数名称,被谁 call 等等的信息吗?
http://stackoverflow.com/questions/10330119/how-to-backtrace-a-function-in-python-2-7
搬运工

import traceback

def foo():
bar()

def bar():
baz()

def baz():
traceback.print_stack()
# or trace = traceback.extract_stack()

foo()
2014-06-19 12:01:07 +08:00
回复了 Akagi201 创建的主题 问与答 求删掉一个 bash 脚本中所有注释行的方法?
删掉行末的注释..
sed 's/#.*//'
2014-06-19 11:58:00 +08:00
回复了 hayeah 创建的主题 程序员 [NodeJS 训练 2 个名额免费送] (原价 690 元!)
paul.jinliliang#gmail.com
谢谢
2014-05-22 21:16:52 +08:00
回复了 andybest 创建的主题 问与答 将一个黑白二值的图像存入数据库,有什么好建议?
楼主可以试下 bwt + 上面说的run-length-encoding.
bwt可以把所有的相同字符归类在一起,然后再做run length encode就会有高效很多.

http://en.wikipedia.org/wiki/Run-length_encoding
http://en.wikipedia.org/wiki/Burrows%E2%80%93Wheeler_transform
2014-05-19 10:33:05 +08:00
回复了 tang3w 创建的主题 C C 语言中的 char 类型如何发音?
我一直读的是cha-r,后来发现老外听不懂,最后才知道他们是按照k-ar来念的
1  2  3  4  5  6  7  8  9  10 ... 11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2875 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 03:31 · PVG 11:31 · LAX 20:31 · JFK 23:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.