免费帮大家开发爬虫或者做数据分析，简单的数据挖掘

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2904 天前的主题，其中的信息可能已经有所发展或是发生改变。

看到 https://www.v2ex.com/t/404899 这个帖子作者在家无事，想想自己平时晚上和周末也很闲，自己擅长数据方面的工作，有需要的朋友我可以帮忙开发，当然是免费的！

顺便推荐一下做的网站，http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友，现在有 200+注册用户，100+活跃用户。喜欢的朋友可以加我微信拉你进群，大家一起交流。

放邀请码数枚

7fa9def7-ff8f-4906-bafd-06fce099911f

8bbec81c-af1c-4d54-b1fb-0620820e10d9

5cf18335-653c-4bea-b52a-c4c7f85cb5cf

c7f8608c-811d-4467-83f5-2d7329d40ab6

ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04

b4da4773-de16-48e1-8f08-e4100a5b1713

ec20ed7d-735d-4336-a44d-6bc3adfe67df

b1241d69-68e9-4259-8a1f-61e6b51cb83f

a1e10035-b698-4e61-8b4b-11f26b6c5500

没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。

第 1 条附言 · 2017-11-09 16:34:21 +08:00

大家当然可以去网站看教程，也可以提需求我来实现啊。~~实现后代码开源，大家一起学习。

第 2 条附言 · 2017-11-10 15:30:17 +08:00

第 3 条附言 · 2017-11-10 15:31:28 +08:00

上图是 11 月 10 号下午 3 点半新放出的邀请码，可以加我微信获取或者让我拉你到群里一起交流，网站上的教程只是一小部分，本周末会有直播讲解网络请求分析。

码数枚

微信

邀请

数据挖掘

67 条回复 • 2017-12-12 18:17:48 +08:00

golmic

2017-11-09 16:16:29 +08:00

大家用了邀请码说一声方便后来的小伙伴~

haoji

2017-11-09 16:24:01 +08:00

准备用邀请码注册，发现原来自己有账号……

jiezhi

2017-11-09 16:24:04 +08:00

c7f8608c-811d-4467-83f5-2d7329d40ab6 用了好像下面的都被用了吧。。

Light3

2017-11-09 16:25:29 +08:00

根据我的实验..没有一个没被用过的 /

aksoft

2017-11-09 16:26:05 +08:00

邀请码怎么用。。

golmic

2017-11-09 16:29:17 +08:00

06f924cb-c9f7-4608-b5b8-98a0ed5e80f2

dc20ea3b-2e38-4a83-b960-6d1450aca94a

57e567ec-affa-438d-9734-9a2d57abc4ec

9e675b41-8a02-43b9-a107-e145204f6817

eb86eb4a-4e32-41e4-970c-e6527b2a51c1

6e9458fe-7062-4495-9fa7-2be9a212a62a

b6764b57-a4b1-489a-8229-c7cae95e8532

419607ed-0fda-4482-ab8b-c5e5b1283738

7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb

90a3ffd9-9265-4aca-b3d3-e902b75a6843

9057d4b5-63da-4a63-bf33-f6acd0033ac6

@aksoft #5
@Light3 #4

bianchensz

2017-11-09 16:31:11 +08:00

90a3ffd9-9265-4aca-b3d3-e902b75a6843 已用

server

2017-11-09 16:31:15 +08:00

7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb 已用，感谢楼主

zchlwj

2017-11-09 16:33:16 +08:00

@golmic 419607ed-0fda-4482-ab8b-c5e5b1283738 已用

ssrtree

2017-11-09 16:35:25 +08:00 via Android

感谢楼主

Nobitasean

2017-11-09 16:39:55 +08:00 via iPhone

有没有微信文章爬虫

hnbcinfo

2017-11-09 16:40:02 +08:00

5cf18335-653c-4bea-b52a-c4c7f85cb5cf 已用

xmbaozi

2017-11-09 16:41:41 +08:00

9e675b41-8a02-43b9-a107-e145204f6817 用了

synergies

2017-11-09 16:42:50 +08:00

1fbc3fdf-f277-446b-a645-17c285cf6a38 已用

tjxjj

2017-11-09 16:46:36 +08:00

06f924cb-c9f7-4608-b5b8-98a0ed5e80f2 用了

goodboy

2017-11-09 16:52:48 +08:00

邀请码不能用了吧，都显示邀请码错误

ba476

2017-11-09 16:56:25 +08:00

邀请码错误，没有了

kchum

2017-11-09 16:57:29 +08:00

都已经用完了

redbsd

2017-11-09 17:01:10 +08:00

什么开发的

golmic

2017-11-09 17:43:57 +08:00

@Nobitasean #11 可以做。

@goodboy #16
@ba476 #17
@kchum #18 加我私聊给你吧

@redbsd #19 我是用 Python 写爬虫，网站的话是用 Node 写的，详细的架构加我聊吧

schoolers

2017-11-09 17:51:43 +08:00

我需要爬取去哪儿的数据，可以么？

golmic

2017-11-09 17:55:48 +08:00

@schoolers #21 加微信把详细需求给我吧，我爬过携程蚂蜂窝穷游

forgot

2017-11-09 19:55:52 +08:00

可以每天自动运行一次爬虫下载数据吗

golmic

2017-11-09 21:55:42 +08:00 via Android

@forgot 可以

hugee

2017-11-09 22:40:20 +08:00 via Android

半年都打不开。。。

golmic

2017-11-09 22:52:42 +08:00 via Android

@hugee 今天的访问量有点大，服务器撑不住了。。

luzihang

2017-11-09 23:58:02 +08:00

网站首页就是登陆注册，没啥内容，我为什么要注册？😁

golmic

2017-11-10 07:04:39 +08:00 via Android

@luzihang 有几篇教程，后续后完善

anson2416

2017-11-10 08:25:13 +08:00 via iPhone

我有一些数据，日期，文件名，文件创建人，创建时间，文件发现。

每个星期都有新的报告生成。请问怎样用大数据分析这些数据。例如，谁创建的东西最多，最大等

zjlin1984

2017-11-10 08:45:57 +08:00

就看到免费就进来了。谢谢楼主。

golmic

2017-11-10 08:47:18 +08:00 via Android

@anson2416 最多这个需求很简单，最大的话，有文件大小的属性提供吗？如果没有的话还需要读取文件大小，应该都是可以处理的。你可以加我微信聊聊

anson2416

2017-11-10 09:02:35 +08:00 via iPhone

@golmic 请问微信号是多少？
数据都汇总出来了现在需要筛选处理分析

jjianwen68

2017-11-10 09:41:09 +08:00

爬一下历任 tg 中高层的个人信息及相互关系，做成图数据库吧

shendaowu

2017-11-10 09:41:52 +08:00

知乎和 Quora 话题。最好能包含话题的介绍，还有话题链接。

yinxingren

2017-11-10 10:48:15 +08:00

没有邀请码可以用了

golmic

2017-11-10 11:01:19 +08:00

@yinxingren #35 加我好友给你发

golmic

2017-11-10 11:01:36 +08:00

@anson2416 #32 微信号网站上有

golmic

2017-11-10 11:02:04 +08:00

@shendaowu #34 加我微信吧，可以做

ziokai

2017-11-10 11:49:03 +08:00

爬取某条微博下某位用户的评论，这个难不难

fishcat

2017-11-10 12:19:21 +08:00

@ziokai 为啥我也突然有类似的需求

golmic

2017-11-10 13:10:51 +08:00

@ziokai #39 这个不难，我做过爬某个用户的最新微博的爬虫，其实差不多。

sacuba

2017-11-10 15:54:10 +08:00

求教那种动态跳转的页面如何爬取？某个页面请求后先返回 202，然后再页内跳转一次才能显示正确内容，url 不变。第一次返回的页面大部分为混淆加密后的数据。之前一直用 scrapy 爬取，后来就不行了

golmic

2017-11-10 15:56:15 +08:00

scrapy 默认会自动跟进 302 的，你说的先混淆数据的这种一般不是 302，可能是 js 跳转，你可以发给我网址，不一样的地方不一样分析，我周末可以讲讲。

golmic

2017-11-10 15:56:30 +08:00

@sacuba #42 看上一层楼，忘记点回复了。

sacuba

2017-11-10 16:04:44 +08:00

@golmic #44 确切说是 202 网址发你吧，能提供个思路就很感激了，很久之前的项目了，aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==

windflyme5

2017-11-10 16:18:00 +08:00

https://github.com/hawkli-1994/Beijing-Meteorological-Information

alen

2017-11-10 16:20:25 +08:00

这页面写的一点也不走心......

golmic

2017-11-10 17:15:23 +08:00

@sacuba #45 我这边打开一直 403...

YICHUJIFA

2017-11-10 18:24:11 +08:00

想问下，可以爬各个信用卡的活动吗？

golmic

2017-11-10 18:44:06 +08:00 via Android

@YICHUJIFA 爬虫这东西呢，你首先人能获取到，人也看不到的数据那爬虫也没办法，要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的

IamRobot

2017-11-10 18:55:39 +08:00 via Android

比较好奇爬虫技术

求问有没有技术 QQ 群或者微信群呢？

golmic

2017-11-10 19:26:13 +08:00 via Android

@IamRobot 有微信群，要加我微信才能拉你进去，扫码人满了

hallomou

2017-11-10 21:02:35 +08:00

想请问一下楼主看看能否爬取 Phyllis2 （ https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#）的数据呢？
这个数据库包含了各种燃料的属性数据，我想用这个数据来分析燃料的热值，谢谢。

golmic

2017-11-10 21:03:38 +08:00 via Android

@hallomou 你加我微信详细说一下需求好吧？我看了下应该不难

tuzhis

2017-11-11 07:39:55 +08:00 via iPhone

// TODO 爬取京东评论和图片再带点分析?
一直没时间实现😂

golmic

2017-11-11 12:29:10 +08:00 via Android

@tuzhis 可以做，我最近就想做电商的抓取

inmyfree

2017-11-11 12:58:56 +08:00

问下楼主 1024 的数据怎么爬。。。。[:dogge]

shendaowu

2017-11-11 20:09:04 +08:00

爬取知乎的收藏夹是否很难？我好像没见过知乎有收藏夹列表之类的东西，都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗？加 QQ 行不行？还有能不能将结果可视化一下？或者尽量保持话题之间的结构，重复的表示一下。还有 wiki 的分类能不能可视化一下？我刚才好像找到能直接下载分类信息的地方了。这个： https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz