看到 https://www.v2ex.com/t/404899 这个帖子作者在家无事,想想自己平时晚上和周末也很闲,自己擅长数据方面的工作,有需要的朋友我可以帮忙开发,当然是免费的!
顺便推荐一下做的网站,http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友,现在有 200+注册用户,100+活跃用户。喜欢的朋友可以加我微信拉你进群,大家一起交流。
放邀请码数枚
7fa9def7-ff8f-4906-bafd-06fce099911f
8bbec81c-af1c-4d54-b1fb-0620820e10d9
5cf18335-653c-4bea-b52a-c4c7f85cb5cf
c7f8608c-811d-4467-83f5-2d7329d40ab6
ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04
b4da4773-de16-48e1-8f08-e4100a5b1713
ec20ed7d-735d-4336-a44d-6bc3adfe67df
b1241d69-68e9-4259-8a1f-61e6b51cb83f
a1e10035-b698-4e61-8b4b-11f26b6c5500
没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。
1
golmic OP 大家用了邀请码说一声方便后来的小伙伴~
|
2
haoji 2017-11-09 16:24:01 +08:00
准备用邀请码注册,发现原来自己有账号……
|
3
jiezhi 2017-11-09 16:24:04 +08:00
c7f8608c-811d-4467-83f5-2d7329d40ab6 用了 好像下面的都被用了吧。。
|
4
Light3 2017-11-09 16:25:29 +08:00
根据我的实验..没有一个没被用过的 /
|
5
aksoft 2017-11-09 16:26:05 +08:00
邀请码怎么用。。
|
6
golmic OP 06f924cb-c9f7-4608-b5b8-98a0ed5e80f2
dc20ea3b-2e38-4a83-b960-6d1450aca94a 57e567ec-affa-438d-9734-9a2d57abc4ec 9e675b41-8a02-43b9-a107-e145204f6817 eb86eb4a-4e32-41e4-970c-e6527b2a51c1 6e9458fe-7062-4495-9fa7-2be9a212a62a b6764b57-a4b1-489a-8229-c7cae95e8532 419607ed-0fda-4482-ab8b-c5e5b1283738 7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb 90a3ffd9-9265-4aca-b3d3-e902b75a6843 9057d4b5-63da-4a63-bf33-f6acd0033ac6 @aksoft #5 @Light3 #4 |
7
bianchensz 2017-11-09 16:31:11 +08:00
90a3ffd9-9265-4aca-b3d3-e902b75a6843 已用
|
8
server 2017-11-09 16:31:15 +08:00
7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb 已用,感谢楼主
|
10
ssrtree 2017-11-09 16:35:25 +08:00 via Android
感谢楼主
|
11
Nobitasean 2017-11-09 16:39:55 +08:00 via iPhone
有没有微信文章爬虫
|
12
hnbcinfo 2017-11-09 16:40:02 +08:00
5cf18335-653c-4bea-b52a-c4c7f85cb5cf 已用
|
13
xmbaozi 2017-11-09 16:41:41 +08:00
9e675b41-8a02-43b9-a107-e145204f6817 用了
|
14
synergies 2017-11-09 16:42:50 +08:00
1fbc3fdf-f277-446b-a645-17c285cf6a38 已用
|
15
tjxjj 2017-11-09 16:46:36 +08:00
06f924cb-c9f7-4608-b5b8-98a0ed5e80f2 用了
|
16
goodboy 2017-11-09 16:52:48 +08:00
邀请码不能用了吧,都显示邀请码错误
|
17
ba476 2017-11-09 16:56:25 +08:00
邀请码错误,没有了
|
18
kchum 2017-11-09 16:57:29 +08:00
都已经用完了
|
19
redbsd 2017-11-09 17:01:10 +08:00
什么开发的
|
20
golmic OP @Nobitasean #11 可以做。
@goodboy #16 @ba476 #17 @kchum #18 加我私聊给你吧 @redbsd #19 我是用 Python 写爬虫,网站的话是用 Node 写的,详细的架构加我聊吧 |
21
schoolers 2017-11-09 17:51:43 +08:00
我需要爬取去哪儿的数据,可以么?
|
23
forgot 2017-11-09 19:55:52 +08:00
可以每天自动运行一次爬虫下载数据吗
|
25
hugee 2017-11-09 22:40:20 +08:00 via Android
半年都打不开。。。
|
27
luzihang 2017-11-09 23:58:02 +08:00
网站首页就是登陆注册,没啥内容,我为什么要注册?😁
|
29
anson2416 2017-11-10 08:25:13 +08:00 via iPhone
我有一些数据,日期,文件名,文件创建人,创建时间,文件发现。
每个星期都有新的报告生成。请问怎样用大数据分析这些数据。例如,谁创建的东西最多,最大等 |
30
zjlin1984 2017-11-10 08:45:57 +08:00
就看到免费就进来了。谢谢楼主。
|
31
golmic OP @anson2416 最多这个需求很简单,最大的话,有文件大小的属性提供吗?如果没有的话还需要读取文件大小,应该都是可以处理的。你可以加我微信聊聊
|
33
jjianwen68 2017-11-10 09:41:09 +08:00
爬一下历任 tg 中高层的个人信息及相互关系,做成图数据库吧
|
34
shendaowu 2017-11-10 09:41:52 +08:00
知乎和 Quora 话题。最好能包含话题的介绍,还有话题链接。
|
35
yinxingren 2017-11-10 10:48:15 +08:00
没有邀请码可以用了
|
36
golmic OP @yinxingren #35 加我好友给你发
|
39
ziokai 2017-11-10 11:49:03 +08:00
爬取某条微博下某位用户的评论,这个难不难
|
42
sacuba 2017-11-10 15:54:10 +08:00
求教那种动态跳转的页面如何爬取? 某个页面请求后先返回 202,然后再页内跳转一次才能显示正确内容,url 不变。 第一次返回的页面大部分为混淆加密后的数据。 之前一直用 scrapy 爬取,后来就不行了
|
43
golmic OP scrapy 默认会自动跟进 302 的,你说的先混淆数据的这种一般不是 302,可能是 js 跳转,你可以发给我网址,不一样的地方不一样分析,我周末可以讲讲。
|
45
sacuba 2017-11-10 16:04:44 +08:00
@golmic #44 确切说是 202 网址发你吧,能提供个思路就很感激了,很久之前的项目了,aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==
|
46
windflyme5 2017-11-10 16:18:00 +08:00
|
47
alen 2017-11-10 16:20:25 +08:00
这页面写的一点也不走心......
|
49
YICHUJIFA 2017-11-10 18:24:11 +08:00
想问下,可以爬 各个信用卡的活动吗 ?
|
50
golmic OP @YICHUJIFA 爬虫这东西呢,你首先人能获取到,人也看不到的数据那爬虫也没办法,要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的
|
51
IamRobot 2017-11-10 18:55:39 +08:00 via Android
比较好奇爬虫技术
求问有没有技术 QQ 群或者微信群呢? |
53
hallomou 2017-11-10 21:02:35 +08:00
想请问一下楼主看看能否爬取 Phyllis2 ( https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#)的数据呢?
这个数据库包含了各种燃料的属性数据,我想用这个数据来分析燃料的热值,谢谢。 |
55
tuzhis 2017-11-11 07:39:55 +08:00 via iPhone
// TODO 爬取京东评论和图片再带点分析?
一直没时间实现😂 |
57
inmyfree 2017-11-11 12:58:56 +08:00
问下楼主 1024 的数据怎么爬。。。。[:dogge]
|
58
shendaowu 2017-11-11 20:09:04 +08:00
爬取知乎的收藏夹是否很难?我好像没见过知乎有收藏夹列表之类的东西,都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗?加 QQ 行不行?还有能不能将结果可视化一下?或者尽量保持话题之间的结构,重复的表示一下。还有 wiki 的分类能不能可视化一下?我刚才好像找到能直接下载分类信息的地方了。这个: https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz
|
60
smileghost 2017-11-12 01:32:02 +08:00
楼主加油,今晚的分享超极棒!
|
61
djyzzc 2017-11-12 01:34:28 +08:00
深夜听完讲座,来顶一发。
|
62
cherrypi 2017-11-12 01:44:53 +08:00 via iPhone
非常感谢分享,加油!
|
63
moon9420 2017-12-07 16:20:08 +08:00
请问下爬取 Quora 和知乎区别大么?之前爬知乎的数据,按话题的精华回答爬取,在 Quora 里没看到类似的结构,请问该怎么做呢?或者有可以参考的爬虫么?
|
64
golmic OP @moon9420 你是想抓取全站数据么?可以尝试启发式抓取。我没实践做过 Quora 的爬虫,不过启发式的思路可以试试。
|
66
golmic OP @xiaoran666 看了一下你的回复看来是推广。说实话我真的不会用这种平台
|
67
xiaoran666 2017-12-12 18:17:48 +08:00
仁者见仁智者见智!个人开发者自己写爬虫肯定有自己的乐趣,而用平台开发可以省去很多不必要的麻烦,让用户把精力聚焦于更重要的事情上。
|