V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nowcoder
V2EX  ›  程序员

9000w 条真实数据开放了

  •  
  •   nowcoder · 2015-12-24 10:04:28 +08:00 · 7593 次点击
    这是一个创建于 3243 天前的主题,其中的信息可能已经有所发展或是发生改变。

    奖金 3w+ 奖金 3w+ 奖金 3w+
    大数据比赛开始啦,真实 9000w 条用户数据开放下载,极具实验研究价值,戳⬇️
    http://www.nowcoder.com/activity/calendar

    27 条回复    2015-12-24 22:35:34 +08:00
    markmx
        1
    markmx  
       2015-12-24 11:03:48 +08:00
    要先报名吗?
    Sequencer
        2
    Sequencer  
       2015-12-24 11:08:58 +08:00 via iPhone   ❤️ 5
    這就是我不用小公司服務的主要原因
    拿用戶數據來做比賽
    呵呵呵呵
    ywind
        3
    ywind  
       2015-12-24 11:15:41 +08:00 via iPhone
    @Sequencer 肯定是非关键数据啊,阿里的比赛也是使用的真实的购买数据
    Sequencer
        4
    Sequencer  
       2015-12-24 11:17:09 +08:00 via iPhone
    @ywind 可能是我潔癖吧 表示不能承受這種被使用數據
    nowcoder
        5
    nowcoder  
    OP
       2015-12-24 11:21:49 +08:00
    @Sequencer 这些数据本来就是公开的,我们只是打包开放了。涉及到用户 id 等信息都已经加密了 :-)
    donghao
        6
    donghao  
       2015-12-24 11:31:29 +08:00   ❤️ 1
    @Sequencer 如果我没记错这应该是国际惯例,机器学习不用真实数据就没得玩了!
    nowcoder
        7
    nowcoder  
    OP
       2015-12-24 11:34:18 +08:00
    @markmx 报名以后进去就可以下载数据了~~
    songco
        8
    songco  
       2015-12-24 11:40:20 +08:00
    奖金有点少...
    nowcoder
        9
    nowcoder  
    OP
       2015-12-24 11:45:33 +08:00
    @songco 和国外比有点少。在国内不少了啦。 国内这种比赛都没人办。
    xuxanwan
        10
    xuxanwan  
       2015-12-24 11:47:17 +08:00
    早上看到的一篇报道里面周鸿祎说:
    >[用户把自己的数据交给互联网公司,换取它提供的各种各样服务,这是一个契约的关系]( http://xhpfm.mobile.zhongguowangshi.com:8091/v200/newshare/468290)

    so, 认了吧, 这些数据是他们的..人为刀俎我为鱼肉..
    yanyuechuixue
        11
    yanyuechuixue  
       2015-12-24 11:56:01 +08:00 via Android
    这个公司,我记住了。
    以后不用相关服务。
    jzp113
        12
    jzp113  
       2015-12-24 12:00:11 +08:00
    那几个编程的题目蛮简单的。就是不喜欢用 java
    caixiexin
        13
    caixiexin  
       2015-12-24 12:07:56 +08:00 via Android
    所谓的脱敏数据吗
    Sequencer
        14
    Sequencer  
       2015-12-24 12:42:53 +08:00
    append:
    如果要收集這種數據的話我覺得不僅僅寫在用戶協議裡面,而是要另外明確的用一個頁面讓用戶選擇是否發送一份匿名數據給廠商,現在除了少數人還看用戶協議之外誰還看。
    Google 、 Apple 是否發送匿名信息是可選的。
    包括很多遊戲,開源軟件都有發送匿名信息的選項。
    如果是開源軟件,或者其他比較良心的軟件我都會勾選用來改善服務和支持開發者,同時這些信息的用途也會明確表示出來。當然如果用於營銷的話,連用戶協議都不會勾選。
    我用 Google 和 iCloud 的日曆,他們會把我的數據用於比賽?
    沒有使用過這些軟件,敢問這種軟件,有明確的頁面讓用戶選擇是否參與這種活動?
    想到之前的某大學直接拿學校校園卡數據進行大數據分析,頓時對這種沒有約束的分析感到極度反感。\\
    @nowcoder 能夠理解開發者除了隱私之外無法在用戶上收穫其他利益的苦衷,但是還是希望在做這些之前,用戶能夠知道自己的信息被拿去做大數據。
    nowcoder
        15
    nowcoder  
    OP
       2015-12-24 12:47:26 +08:00
    @jzp113 编程题支持 c++, python 和 c#。 那个练习卷是给你熟悉环境用的。比较简单。正式比赛会难一些。
    dqh3000
        16
    dqh3000  
       2015-12-24 12:50:22 +08:00
    @Sequencer

    谷歌拿邮件数据去机器学习做邮件垃圾分类

    谷歌拿 utube 视频去做机器学习分类

    你确定每个作者都知道了吗?
    dream7758521
        17
    dream7758521  
       2015-12-24 12:52:24 +08:00 via Android
    居然是中华万年历,传说中广告超多,频繁唤醒
    m8syYID5eaas8hF7
        18
    m8syYID5eaas8hF7  
       2015-12-24 12:52:28 +08:00
    @Sequencer 也不算吧,用户点赞别的用户也可以看到,这个本来就是公开的数据啊
    hellokittyer
        19
    hellokittyer  
       2015-12-24 12:57:19 +08:00
    直接上个下载地址吧
    JQ
        20
    JQ  
       2015-12-24 13:08:13 +08:00
    要报名才能看到数据 ?有测试数据么
    jiezhi
        22
    jiezhi  
       2015-12-24 13:38:50 +08:00
    虽然没搞过这个,先把数据拿下来备用:-D
    a40049
        23
    a40049  
       2015-12-24 15:57:12 +08:00
    虽然想报名,但是看到必须填写手机号,还是算了
    SourceMan
        24
    SourceMan  
       2015-12-24 16:09:12 +08:00
    V2ex 可以通过遍历用户 ID 拿到用户的信息, L 大真是不为我们的“隐私”着想!!!
    23333~
    s7lx
        25
    s7lx  
       2015-12-24 16:19:20 +08:00   ❤️ 3
    只要数据不想参加比赛的可以看这里 http://pan.baidu.com/s/1bobAO9L 密码 ste5
    billwang
        26
    billwang  
       2015-12-24 22:09:55 +08:00
    中华万年历——记住了,以后再也不用。
    meantobe
        27
    meantobe  
       2015-12-24 22:35:34 +08:00   ❤️ 2
    2006 年 8 月, AOL 出于好意而公开了一大批查询日志样本,供人研究。这些日志涉及三个多月以来 65 万用户的 2000 万查询,已经做了匿名处理,因此从理论上讲,不存在任何可以用于辨识个人身份的信息。尽管是善意之举,但人们也很快就发现这些日志在实践中不会像 AOL 想象的那样做到完全匿名。每个用户在查询时都会被赋予一个随机但唯一的标识符,有了这个标识符,就很容易知道同一个人都查询过什么内
    容。进而,确定一些人的身份也就成为可能。因为不少人都搜索过自己名字、地址、社会保险号以及其他个人信息,通过搜索相关性分析暴露出来的信息比 AOL 认为的多,也肯定比原始用户自己想到的多得多。 AOL 很快从自己网站上删除了这些日志,当然为时已晚。这些数据早已被传播得满世界都是了,而且至今仍可以找到,甚至还附有帮你分析它们的一些工具。
    —— Brian W. Kernighan 《世界是数字的》
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2856 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:28 · PVG 10:28 · LAX 18:28 · JFK 21:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.