V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  anexplore  ›  全部回复第 7 页 / 共 7 页
回复总数  140
1  2  3  4  5  6  7  
2015-07-13 16:55:18 +08:00
回复了 q5we66fg 创建的主题 程序员 你们身边有木有使用终端时老是输入 ls 的人。。。
习惯性的ll
2015-05-29 11:43:10 +08:00
回复了 tao1991123 创建的主题 Python 求爬虫爬一个大型天涯帖子的加速办法
到这上面挑几个速度较快的高匿名代理,多开几个进程,http://www.proxy.com.ru/
2015-05-27 18:18:55 +08:00
回复了 cjyang1128 创建的主题 程序员 保研了又后悔了,求各位前辈提一些建议
如果以后工作跟算法相关,比如机器学习啥的,读研还是必须的;再就是一些公司的研究生跟本科生的起薪是不同的,起薪很重要哦
2015-05-10 14:01:34 +08:00
回复了 noli 创建的主题 程序员 我为什么后来远离了 Java
@hepin1989 赞同!!语言只是工具,真正的牛人用什么都牛。。。吐槽语言垃圾的,我绝的大部分情况是没在合适的场景用合适的语言。。
2015-05-08 09:49:34 +08:00
回复了 bigzhu 创建的主题 Java 坑的不是 java, 难道是 java 程序员比较坑么?
@yakczh 我们这边做爬虫python java c都用,各有个的好处。论性能还是c > java > python的。用的java的好处就是更迅速便捷的大数据处理工具hadoop,hbase等等
2015-05-08 09:40:51 +08:00
回复了 bigzhu 创建的主题 Java 坑的不是 java, 难道是 java 程序员比较坑么?
2015-05-08 09:32:48 +08:00
回复了 bigzhu 创建的主题 Java 坑的不是 java, 难道是 java 程序员比较坑么?
感觉很多都是讨论web方向的,用java做爬虫的默默飘过。。。
2015-04-28 17:58:18 +08:00
回复了 turing 创建的主题 程序员 程序员 Mihai Șucan 的故事
致敬!
我能说我用的百度DNS180.76.76.76 + 114.114.114.114嘛
2015-04-28 09:42:21 +08:00
回复了 HelloWorld11 创建的主题 Java Java 多线程问题
说java是动态语言的我也是醉了。。。
2015-04-23 17:20:18 +08:00
回复了 holinhot 创建的主题 Python 请教如何删除 6 万 txt 中重复的行
sort -u src.txt > des.txt 就可以搞定了...
2015-04-10 19:19:30 +08:00
回复了 Lullaby 创建的主题 Java 关于 http 代理请求返回 Unexpected end of file from server?
@Lullaby 这是stackoverflow上一个问题,希望可以有帮助
"Unexpected end of file" implies that the remote server accepted and closed the connection without sending a response. It's possible that the remote system is too busy to handle the request, or that there's a network bug that randomly drops connections.

With the information available it's impossible to say what's going wrong. If you have access to the servers in question you can use packet sniffing tools to find what exactly is sent and received, and look at logs to of the server process to see if there are any error messages.

http://stackoverflow.com/questions/19824339/java-simple-code-java-net-socketexception-unexpected-end-of-file-from-server
2015-04-10 18:04:03 +08:00
回复了 Lullaby 创建的主题 Java 关于 http 代理请求返回 Unexpected end of file from server?
2015-04-10 17:48:08 +08:00
回复了 alangz 创建的主题 Kafka 初学 kafka 遇到一些疑问
下面是zookeeper的启动脚本片段;
start)
echo -n "Starting zookeeper ... "
if [ -f "$ZOOPIDFILE" ]; then
if kill -0 `cat "$ZOOPIDFILE"` > /dev/null 2>&1; then
echo $command already running as process `cat "$ZOOPIDFILE"`.
exit 0
fi
fi
nohup "$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root. logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS $ZOOMAIN "$ZOOCFG" > "$_ZOO_DAEMON_OUT" 2>&1 < /dev/ null &
2015-04-10 01:05:24 +08:00
回复了 guozhi 创建的主题 硬件 请问是先入 iPhone 还是 MacBook?
没啥必然先后顺序, 我先买的mbp,后入6,买mbp是为了搞开发,只因为用够了ubuntu桌面版
2015-04-09 10:39:57 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
@aa233322aaa
1.解DNS自然就知道网站的IP是什么,而且在不同地狱解析同一个网站的DNS可能还是不一样的;
2.要遵循robots协议;控制频率;也可以控制时间段,比如晚上访问量少的时候爬;被封掉就让频率更小;反爬虫很严格的站点毕竟还是少数;
3.一般一个服务都只有一个外网ip,所以要用多ip自然得多个服务器了。
这些东西多试一试就知道了。。。
2015-04-08 21:14:09 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
@aa233322aaa 搞一个代理失效验证机制,验证通过推送给下载端;下载端动态更新代理;一个站点的dns可能会对应若干个ip,所以要轮转访问站点的若干ip,减小被封的概率;1s或者几秒访问一个站点一次,一般不会被封掉的;
2015-04-07 18:42:46 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
对一个网站,假设100个ip,一个ip 1s一个网页,一天8w,100个ip一天就是800w了。假设N个网站,一个ip一秒100左右(N个网站轮转),那么一天就是800w了,10个ip一天就是8000w了。假设一个网页平均50kB那么每秒流量就是100*50kB= 5MB;多整点代理ip吧
2015-04-07 18:27:38 +08:00
回复了 tanteng 创建的主题 MacBook Pro MacBook pro 可不可以不关机直接装包里带走?
工作日合盖子拿着就走,周末一半关机半天
当我认真看书的时候一会儿就感觉饿了
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2711 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 14:16 · PVG 22:16 · LAX 06:16 · JFK 09:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.