9000w 条真实数据开放了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3589 天前的主题，其中的信息可能已经有所发展或是发生改变。

奖金 3w+ 奖金 3w+ 奖金 3w+
大数据比赛开始啦,真实 9000w 条用户数据开放下载，极具实验研究价值，戳⬇️
http://www.nowcoder.com/activity/calendar

奖金

⬇️

真实

开放

27 条回复 • 2015-12-24 22:35:34 +08:00

markmx

2015-12-24 11:03:48 +08:00

要先报名吗?

Sequencer

2015-12-24 11:08:58 +08:00 via iPhone

這就是我不用小公司服務的主要原因
拿用戶數據來做比賽
呵呵呵呵

ywind

2015-12-24 11:15:41 +08:00 via iPhone

@Sequencer 肯定是非关键数据啊，阿里的比赛也是使用的真实的购买数据

Sequencer

2015-12-24 11:17:09 +08:00 via iPhone

@ywind 可能是我潔癖吧表示不能承受這種被使用數據

nowcoder

2015-12-24 11:21:49 +08:00

@Sequencer 这些数据本来就是公开的，我们只是打包开放了。涉及到用户 id 等信息都已经加密了：-）

donghao

2015-12-24 11:31:29 +08:00

@Sequencer 如果我没记错这应该是国际惯例，机器学习不用真实数据就没得玩了！

nowcoder

2015-12-24 11:34:18 +08:00

@markmx 报名以后进去就可以下载数据了~~

songco

2015-12-24 11:40:20 +08:00

奖金有点少...

nowcoder

2015-12-24 11:45:33 +08:00

@songco 和国外比有点少。在国内不少了啦。国内这种比赛都没人办。

xuxanwan

2015-12-24 11:47:17 +08:00

早上看到的一篇报道里面周鸿祎说:
>[用户把自己的数据交给互联网公司，换取它提供的各种各样服务，这是一个契约的关系]( http://xhpfm.mobile.zhongguowangshi.com:8091/v200/newshare/468290)

so, 认了吧, 这些数据是他们的..人为刀俎我为鱼肉..

yanyuechuixue

2015-12-24 11:56:01 +08:00 via Android

这个公司，我记住了。
以后不用相关服务。

jzp113

2015-12-24 12:00:11 +08:00

那几个编程的题目蛮简单的。就是不喜欢用 java

caixiexin

2015-12-24 12:07:56 +08:00 via Android

所谓的脱敏数据吗

Sequencer

2015-12-24 12:42:53 +08:00

append:
如果要收集這種數據的話我覺得不僅僅寫在用戶協議裡面，而是要另外明確的用一個頁面讓用戶選擇是否發送一份匿名數據給廠商，現在除了少數人還看用戶協議之外誰還看。
Google 、 Apple 是否發送匿名信息是可選的。
包括很多遊戲，開源軟件都有發送匿名信息的選項。
如果是開源軟件，或者其他比較良心的軟件我都會勾選用來改善服務和支持開發者，同時這些信息的用途也會明確表示出來。當然如果用於營銷的話，連用戶協議都不會勾選。
我用 Google 和 iCloud 的日曆，他們會把我的數據用於比賽？
沒有使用過這些軟件，敢問這種軟件，有明確的頁面讓用戶選擇是否參與這種活動？
想到之前的某大學直接拿學校校園卡數據進行大數據分析，頓時對這種沒有約束的分析感到極度反感。\\
@nowcoder 能夠理解開發者除了隱私之外無法在用戶上收穫其他利益的苦衷，但是還是希望在做這些之前，用戶能夠知道自己的信息被拿去做大數據。

nowcoder

2015-12-24 12:47:26 +08:00

@jzp113 编程题支持 c++， python 和 c#。那个练习卷是给你熟悉环境用的。比较简单。正式比赛会难一些。

dqh3000

2015-12-24 12:50:22 +08:00

@Sequencer

谷歌拿邮件数据去机器学习做邮件垃圾分类

谷歌拿 utube 视频去做机器学习分类

你确定每个作者都知道了吗？

dream7758521

2015-12-24 12:52:24 +08:00 via Android

居然是中华万年历，传说中广告超多，频繁唤醒

m8syYID5eaas8hF7

2015-12-24 12:52:28 +08:00

@Sequencer 也不算吧，用户点赞别的用户也可以看到，这个本来就是公开的数据啊

hellokittyer

2015-12-24 12:57:19 +08:00

直接上个下载地址吧

2015-12-24 13:08:13 +08:00

要报名才能看到数据？有测试数据么

young

2015-12-24 13:25:52 +08:00

http://ncbigdata.oss-cn-hangzhou.aliyuncs.com/data%2F%E6%97%B6%E9%97%B4%E9%BB%91%E5%AE%A2_%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E8%B5%9B%E6%95%B0%E6%8D%AE_contest_data.tar.gz

省的麻烦了...

jiezhi

2015-12-24 13:38:50 +08:00

虽然没搞过这个，先把数据拿下来备用:-D

a40049

2015-12-24 15:57:12 +08:00

虽然想报名，但是看到必须填写手机号，还是算了

SourceMan

2015-12-24 16:09:12 +08:00

V2ex 可以通过遍历用户 ID 拿到用户的信息， L 大真是不为我们的“隐私”着想！！！
23333~

s7lx

2015-12-24 16:19:20 +08:00

只要数据不想参加比赛的可以看这里 http://pan.baidu.com/s/1bobAO9L 密码 ste5

billwang

2015-12-24 22:09:55 +08:00

中华万年历——记住了，以后再也不用。

meantobe

2015-12-24 22:35:34 +08:00

2006 年 8 月， AOL 出于好意而公开了一大批查询日志样本，供人研究。这些日志涉及三个多月以来 65 万用户的 2000 万查询，已经做了匿名处理，因此从理论上讲，不存在任何可以用于辨识个人身份的信息。尽管是善意之举，但人们也很快就发现这些日志在实践中不会像 AOL 想象的那样做到完全匿名。每个用户在查询时都会被赋予一个随机但唯一的标识符，有了这个标识符，就很容易知道同一个人都查询过什么内
容。进而，确定一些人的身份也就成为可能。因为不少人都搜索过自己名字、地址、社会保险号以及其他个人信息，通过搜索相关性分析暴露出来的信息比 AOL 认为的多，也肯定比原始用户自己想到的多得多。 AOL 很快从自己网站上删除了这些日志，当然为时已晚。这些数据早已被传播得满世界都是了，而且至今仍可以找到，甚至还附有帮你分析它们的一些工具。
—— Brian W. Kernighan 《世界是数字的》