V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
warmheartli
V2EX  ›  程序员

满腔热血:在家里搭建一台 GPU 云服务共享给人工智能和大数据爱好者

  •  
  •   warmheartli ·
    lcdevelop · 2017-01-17 07:24:46 +08:00 · 12633 次点击
    这是一个创建于 2872 天前的主题,其中的信息可能已经有所发展或是发生改变。

    怀着一番热情想要研发一款开源的聊天机器人,但手中只有一台公司配的 mac ,每做一次训练要三四天的时间,想要购置一台高配 GPU 的台式机却囊中羞涩,租阿里云的 GPU 一小时收我 20 块钱,每用一个小时心里都在滴血,于是有了一个想法 http://www.shareditor.com/blogshow/?blogId=122

    79 条回复    2017-01-19 14:49:04 +08:00
    v1024
        1
    v1024  
       2017-01-17 07:28:30 +08:00 via iPhone
    然后被拿来挖矿了
    lydasia
        2
    lydasia  
       2017-01-17 07:30:54 +08:00
    然后楼主跑路了哈哈哈
    lydasia
        3
    lydasia  
       2017-01-17 07:37:14 +08:00   ❤️ 1
    楼主的意思, 800 个人,信任你,每个人给你 9.9 ,然后你拿着 8000 块钱凑台服务器?给每个人用仨小时?首先人家凭啥信任你,其次你的网络质量如何,服务器稳定性如何,管理系统是否可靠,客户的数据安全能否保障?而且你这也没有可扩展性,可延续性。别的方面,不说后续的, 800 个人,每人 3 小时, 2400 小时,后面的人这要排三个月都不止?
    loading
        4
    loading  
       2017-01-17 07:44:59 +08:00 via Android   ❤️ 1
    你们好不容易找到的车牌,楼主每天回家就能看你们的车开撸, 233
    bearqq
        5
    bearqq  
       2017-01-17 07:50:15 +08:00 via Android
    @lydasia 他面向的应该是玩神经网络的人,玩字很重要,因为可以回避很多问题

    但我还要提一个问题, 3 小时不够训练语料。。。基本训练不了稍微大点的东西。玩玩 neural-style 倒是够了。
    而且写控制台页面和接口会消耗巨大的精力,考虑到安全性和易用性,我也觉得你应该放弃。直接放个捐款页面就好。
    如果硬要做,还提一个,散热必须做好,室温 15 度拿风扇吹机箱拖个 1070 还 80 度的老机箱真是心疼。
    codesaler
        6
    codesaler  
       2017-01-17 07:56:04 +08:00
    相对写 gpu 计算的程序,有这个时间和精力考虑这个,买个 1080 也不贵啊
    tigerstudent
        7
    tigerstudent  
       2017-01-17 07:57:27 +08:00 via Android   ❤️ 15
    这居然是个成年人的想法
    ihuotui
        8
    ihuotui  
       2017-01-17 09:04:14 +08:00
    买个神舟笔记本。。。
    guoxu1231
        9
    guoxu1231  
       2017-01-17 09:10:21 +08:00 via iPhone
    有点意思啊 我之前也算过一笔账, 4 核 16g 内存 ECS 一年费用 8000 多,都够我买一台高配物理机了.

    于是我买了一台 Alienware 15R2 ,平常放在家中,网络唤醒, Windows 宿主机远程桌面进行 GUI 操作, CPU 型计算在 Virtualbox 虚拟环境中隔离进行,需要的服务通过路由器端口映射出来.

    我顶楼主,共享经济和虚拟化不是什么天方夜谭。
    ihuotui
        10
    ihuotui  
       2017-01-17 09:29:13 +08:00
    然后开发一个共享平台,然后数据 p2p 传送,然后通过共享平台操作。
    zonghua
        11
    zonghua  
       2017-01-17 09:55:53 +08:00
    你家的取暖器不错啊
    leafleave
        12
    leafleave  
       2017-01-17 10:11:36 +08:00
    http://www.equn.com/
    还不如在这里添加一个项目
    zhidian
        13
    zhidian  
       2017-01-17 10:16:45 +08:00
    突然想到那个 [每天多学习 1% 的时间,推导出可以每天学习 25 小时] 的埂……
    hadoop
        14
    hadoop  
       2017-01-17 10:50:37 +08:00
    @guoxu1231 为啥不买个 server ?
    BingoXuan
        15
    BingoXuan  
       2017-01-17 12:22:17 +08:00
    这个想法老早就想过了,之前还写在了市场营销课的期末作业里面去……这个想法是很不错,但是有很多问题的:

    1.当时我算了一下,如果商业化运营,光是初始投入都已经天文数字了。后期维护又是一笔费用。

    2.营销重点在 gpu ,而 gpu 技术迭代太快,也就意味着差不多每两年需要更新硬件,成本远比 CPU 要贵得多。深度学习是很吃 gpu 的。也就意味着对于用户来说,长期上其实并不划算。而且基本上都是用老黄的核弹,价格也是核弹级别。当然,如果能写个成熟的完美支持 a 卡的 ML 库的话,说不定农企会和你 py 交易一下。

    3.自己也弄 ML 业务,把自己深度学习的平台放在自己的云上面去,充分利用资源,摊分成本,对用户来说更为好。可是自己 ML 业务又是更多的成本,增加运营难度。

    不过当时写这想法时候, alphago 还没战胜人类。感觉当时 ML 还不如现在火。或许现在弄也许会成功。╮(╯▽╰)╭
    warmheartli
        16
    warmheartli  
    OP
       2017-01-17 13:13:01 +08:00
    @lydasia 9 块 9 你买不了吃亏, 9 块 9 你买不了上当
    warmheartli
        17
    warmheartli  
    OP
       2017-01-17 13:14:54 +08:00
    @bearqq “ 3 小时不够训练语料”,你提醒了我,这里有商机啊
    warmheartli
        18
    warmheartli  
    OP
       2017-01-17 13:16:45 +08:00
    @codesaler 街头放个钱箱弹唱卖艺的多数都是开着宝马过去的,重点在于成就自己成就大家
    warmheartli
        19
    warmheartli  
    OP
       2017-01-17 13:17:28 +08:00
    @tigerstudent 成年人的心思不懂了吧
    warmheartli
        20
    warmheartli  
    OP
       2017-01-17 13:18:21 +08:00
    @guoxu1231 “通过路由器端口映射”,这个有文档说明吗?分享下吧
    warmheartli
        21
    warmheartli  
    OP
       2017-01-17 13:19:24 +08:00
    @ihuotui hiahiahia, 你是资深人士,我懂了
    Nitromethane
        22
    Nitromethane  
       2017-01-17 13:27:08 +08:00
    有话直说:一个 GTX1070 解决不了的问题,买 4 路泰坦同样解决不了~
    ihuotui
        23
    ihuotui  
       2017-01-17 13:27:17 +08:00 via iPhone
    @warmheartli 你很有想法,我看好你
    Vizogood
        24
    Vizogood  
       2017-01-17 13:36:49 +08:00
    买 100 台神舟笔记本......不管想法有多糟糕,支持你 哈哈哈
    spice630
        25
    spice630  
       2017-01-17 13:38:53 +08:00
    如法炮制,我有 9.6G 妹子图(性感 自拍 日台), 9.9 包邮谁感兴趣 2333
    warlue
        26
    warlue  
       2017-01-17 14:00:00 +08:00
    @spice630 9.9 毛的话我可以买 96G..
    spice630
        27
    spice630  
       2017-01-17 14:08:27 +08:00
    @warlue
    你没看懂我的意思呀
    ProkillerJ
        28
    ProkillerJ  
       2017-01-17 14:11:14 +08:00 via iPhone
    我感觉至少先是买了设备再说分担租用 比先众筹再买会好很多 9.9 招 800 人 别人等的时间都把活干完了
    warlue
        29
    warlue  
       2017-01-17 14:11:41 +08:00
    @spice630 开个玩笑 =.=别认真~~其实我硬盘满了~#手动滑稽
    enenaaa
        30
    enenaaa  
       2017-01-17 14:30:23 +08:00
    楼主貌似忘了一点, 花 20 元可以随时上机, 在你这只要 9.9 但是得排队呀。
    另外,看了楼主这系列的文章受益匪浅, 不过好多内容过于简略, 不上不下, 有点难受。
    enenaaa
        31
    enenaaa  
       2017-01-17 14:40:55 +08:00
    @warmheartli 看起来你的聊天机器人是 seq2seq 。
    我也在关注自然语言处理的相关内容, 不过不是聊天机器人,而是文章分析提炼敏感内容。最近查阅了一些 RNN LSTM 的资料,感觉没有太好的实现模型啊。
    roist
        32
    roist  
       2017-01-17 14:43:23 +08:00
    不是连着网给别人用就叫“云**”的,你这顶多是个上世纪就有的时分系统
    ovear
        33
    ovear  
       2017-01-17 14:47:47 +08:00
    原谅我家网络差,几分钟了 lz 的网站还是打不开
    langmoe
        34
    langmoe  
       2017-01-17 14:53:14 +08:00   ❤️ 1
    guoxu1231
        35
    guoxu1231  
       2017-01-17 17:38:11 +08:00 via iPhone
    @hadoop server 的需求不大,主要是充分利用我的高配家用笔记本. 平常在家可以玩游戏办公,开发的时候有需要就通过公网访问 virtualvox 里的虚拟主机
    realpg
        36
    realpg  
       2017-01-17 18:40:21 +08:00
    且不说其他, 1 小时 20 块钱那个性能是你这组的多少倍?
    总共 8000 块钱,人家预付给你,有人要排三个月的队用三小时,最后机器归你,这小算盘打的真牛逼……

    三个月一个节点净赚 8000 ,这买卖阿里云估计都口水流一地……
    kulove
        37
    kulove  
       2017-01-17 18:58:07 +08:00
    @langmoe 这个不错
    airqj
        38
    airqj  
       2017-01-17 19:01:52 +08:00 via Android
    楼主的网站很不错
    menc
        39
    menc  
       2017-01-17 19:26:36 +08:00
    @BingoXuan 重点根本不是 GPU ,是网络带宽,我的训练数据 20G ,拿什么传给他?
    TimLang
        40
    TimLang  
       2017-01-17 19:45:07 +08:00 via Android
    楼主博客不错,收藏了。
    jyf
        41
    jyf  
       2017-01-17 20:39:48 +08:00
    其实我觉得一般人电脑还是有的 真有兴趣搞这个花个一两千买个卡来玩玩也是可以的
    sbbeta
        42
    sbbeta  
       2017-01-17 20:52:17 +08:00 via Android
    @menc 哈哈,顺丰到家,快递开门😃😃😃😃
    pc10201
        43
    pc10201  
       2017-01-17 21:29:57 +08:00
    @langmoe 这是什么网站啊?
    bxb100
        44
    bxb100  
       2017-01-17 21:37:07 +08:00
    @menc 蓝盘 顺丰 23333
    MangozZ
        45
    MangozZ  
       2017-01-17 21:41:25 +08:00
    @pc10201 搜一下 sixa 怎么难吗。
    HLT
        46
    HLT  
       2017-01-17 21:59:53 +08:00
    看了楼主哥们的博客,对于 8K 而会囊中羞涩 表示非常不可思议。。。
    mandymak
        47
    mandymak  
       2017-01-17 22:18:39 +08:00
    @langmoe 刚看了是用亚马逊。
    hyuwang
        48
    hyuwang  
       2017-01-17 22:20:52 +08:00
    这个行业都存在多少年了
    楼主听说过 GPU Farm 么
    都是按几角钱每核心每小时的起价算。。。
    还只按运行时间算钱

    至于阿里 20 一个小时的机器
    起一个等环境搭好一天都过去了
    它不是这么用的啊
    xderam
        49
    xderam  
       2017-01-17 23:30:47 +08:00
    ucloud 的 GPU 云主机看了下好像只要 4.76/小时 不过貌似要提工单开权限。利益相关:俺是 u 厂的。
    @hyuwang 说的对, GPU Farm 存在了那么多年了,以前看美院的同学用的比较多。不知道现在能不能用在 ML 上。
    20015jjw
        50
    20015jjw  
       2017-01-18 02:57:11 +08:00 via Android
    看 lz 的博客这么厉害 怎么买台电脑的钱都没有呢...
    ShiHou
        51
    ShiHou  
       2017-01-18 03:25:57 +08:00
    ShiHou
        52
    ShiHou  
       2017-01-18 03:29:09 +08:00
    供个参考吧. 我现在用的训练机子是上图,训练满载时风扇隔着一扇门都能听到,同时散热还是专门找人设计的风道,用的大型 tower case 。

    nlp 中 seq2seq 相关任务,在这样的机子中,需要 2 ~ 3 天才能收敛到一个较好的 performance 。 在众多模型中,选出一个能用,至少要做 30 ~ 50 次训练。不止这样能否让楼主的热血冷静些
    anuxs
        53
    anuxs  
       2017-01-18 08:03:19 +08:00 via iPhone
    共享的还满腔热血?有多少热血?
    vvniu
        54
    vvniu  
       2017-01-18 08:55:10 +08:00
    无 GPU 不机器学习,有 GPU 赶紧下个 stream
    tim1008
        55
    tim1008  
       2017-01-18 09:11:21 +08:00   ❤️ 1
    说的我心痒痒的,我想众筹买个房。
    deleted
        56
    deleted  
       2017-01-18 09:18:38 +08:00 via Android
    这是否说明,做机器学习是没钱途的
    akakcolin
        57
    akakcolin  
       2017-01-18 10:44:01 +08:00
    @deleted 最有钱途的是 nvidia
    tjxjj
        58
    tjxjj  
       2017-01-18 10:46:56 +08:00
    玩这个 8000 你都不想出?
    Limius
        59
    Limius  
       2017-01-18 11:19:48 +08:00
    LZ 只是不想自己出钱,顺便动了下脑筋,来到这里看到大家不买账,不过我觉得别处还是有人买账的啊哈哈~
    realpg
        60
    realpg  
       2017-01-18 13:05:48 +08:00
    @ShiHou
    我对这行一窍不通
    这个训练操作时候 CPU 和 GPU 都满载么? CPU 和 GPU 的性能要求都如何?对存储介质 IO 的速度要求高么?
    我这单位倒是有大量带宽,不要钱的电力,基本硬件也不贵哪去,还有大量淘汰的服务器 CPU 可用,也就是需要自己采购 GPU ,可以搞搞这个玩玩。
    BlueCloud
        61
    BlueCloud  
       2017-01-18 13:17:17 +08:00
    @realpg 基本上都是满载。对性能要求挺高的。 GPU 起码要 Tesla P100 的级别了吧。
    realpg
        62
    realpg  
       2017-01-18 13:23:16 +08:00
    @BlueCloud
    硬件满载可以预计

    CPU GPU 同时满载是同时跑不同算法还是拆分同样任务?
    想了解一下调度细节 还有对存储访问速度的要求
    kklt007
        63
    kklt007  
       2017-01-18 13:56:16 +08:00 via Android
    @realpg 我们没有 gpu ,只在集群的 cpu 上跑。

    数据并行或者任务并行都有相应的并行算法,不过数据并行相对简单一些。

    核心可以简单理解为一个迭代优化的式子,目的是使参数收敛。就好像求抛物线的那个最小值,一点一点求梯度,一点一点逼近。

    同步异步算法都有,太快了收敛性不好,收敛稳定的速度会很慢,所以有的时候需要具体问题具体分析,根据不同算法的特点进行平衡。

    存储访问指的是内存还是硬盘?我们是都读到内存里的…… 内存肯定是越快越好,另外如果跨节点需要相互通信的话这个地方也容易成为瓶颈,所以我们用的 infiniband 。
    ShiHou
        64
    ShiHou  
       2017-01-18 14:16:24 +08:00
    @realpg 自己淘个二手 750ti 来跑一次就知道了。

    训练时 gpu 满载, cpu 空闲,硬盘 IO 根据数据集而定。

    一个显卡不能同时跑多个训练,所以众筹肯定不靠谱的。
    realpg
        65
    realpg  
       2017-01-18 14:17:47 +08:00
    @kklt007
    现有常用 X86 架构下, RAM 最大也就 192G 了,不知道这些训练算法本身是否极吃内存。毕竟感觉这种学习数据源可能动不动就 80G 的
    很多纯计算领域内存都是爆炸的利用,反而不太敢把原始数据都拉到内存里面去
    只是粗略的想了解一下通用领域的这种性能的机器的实际开销模型

    感觉看前面的意思 可能并不吃 CPU 只是非常吃 GPU
    realpg
        66
    realpg  
       2017-01-18 14:20:20 +08:00
    @ShiHou
    单位硬件很多, Tesla 也不是不能借一块过来临时用用,还是基本一窍不通的问题,先了解了解模型,做做硬件结构设计的估算
    zwh8800
        67
    zwh8800  
       2017-01-18 14:27:17 +08:00
    @guoxu1231 关键放家里噪音问题是个大问题,我前两天把家里 660Ti 老电脑收拾出来组了个 raid 想做爬虫+舆情分析服务器用,结果因为噪音太大被女朋友否决了🙅
    ShiHou
        68
    ShiHou  
       2017-01-18 14:47:06 +08:00
    @realpg 从回复来看,你对 deep learning 这块了解不足。 学而不思则罔嘛,个人建议是不要想太多,找几个热门模型直接上手体验。
    kklt007
        69
    kklt007  
       2017-01-18 14:48:03 +08:00 via Android
    @realpg 单结点 64G 内存,多结点就很多了,一部分一部分加载到内存也不是不可以,就像外部排序那样,不过应该避免等待读数据,我嫌麻烦一般都是直接全读进去的。

    吃 CPU 跟吃 GPU 区别不大,吃的都是计算资源,只不过一般都不喜欢 CPU+GPU 混合编程,单独对比 CPU 和 GPU 可能 GPU 性价比好一些?不过我确实没用过 GPU ,说不准。

    单位硬件多的话可以拿现有资源组个小集群试试,有没有 GPU 都能跑。
    realpg
        70
    realpg  
       2017-01-18 14:57:38 +08:00
    @ShiHou
    @kklt007

    我并不是想介入这个领域去搞点啥
    只是想了解这块对硬件的需求和使用率等一般情况,有个初步认识
    因为可以预见到未来会有需求 需要让我搭建这种环境去跑点啥东西
    kklt007
        71
    kklt007  
       2017-01-18 15:25:12 +08:00 via Android
    @realpg 嗯,我对硬件的理解是性能好就跑的快一些,性能一般就跑的慢一些,同样需要迭代循环 10k 次,差别就在于哪个的单次循环快。另外核心多也相当于并行了。

    我以前在 2010 年的惠普本上装 caffe 一样跑,现在在集群上跑无非快一些,也有土豪在单机上装四路泰坦或者组 GPU 集群的。都能跑,看你们是想跑的有多快。

    另外机器学习的任务主要是训练模型的时间长,模型训练好了之后实际做分类预测之类的任务花的时间就不长了,资源利用率高不高主要看你们这方面的任务多不多。

    所以我觉得如果不是专门搞这个方向的话,不是很有必要新买一堆 GPU 卡。
    hadoop
        72
    hadoop  
       2017-01-18 15:44:37 +08:00
    @realpg 192G 是怎么得来的结论?
    guoxu1231
        73
    guoxu1231  
       2017-01-18 15:51:42 +08:00 via iPhone
    @zwh8800 该除除灰了~
    realpg
        74
    realpg  
       2017-01-18 16:02:24 +08:00
    @hadoop
    不是结论 是通行的不特意砸钱的服务器(一般是双路)基本最大都堆到 192G 不产生非线性成本
    cpygui
        75
    cpygui  
       2017-01-19 04:27:14 +08:00
    aws g2.2 large 每小时 0.7usd
    我在用这个
    cpygui
        76
    cpygui  
       2017-01-19 04:29:02 +08:00
    如果是 gan 网络,我觉得硬件成本还要加
    droiz
        77
    droiz  
       2017-01-19 10:41:43 +08:00
    楼主的链接访问不了啊,是不已经被 v 友玩坏了
    AsisA
        78
    AsisA  
       2017-01-19 14:41:29 +08:00
    Azure 现在也有 GPU 主机了, NC 系列是 K80 , NV 系列是 M60 ,其中最便宜的是 NC6 ,每月$493.83 ,平均下来每小时$0.686 , 6 核心 E5-2690v3 , 56G 内存, 380G SSD , 1 x K80
    AsisA
        79
    AsisA  
       2017-01-19 14:49:04 +08:00
    [接上面]
    最贵的是 NV24 , 24 核心 E5-2690v3 , 224G 内存, 1.44TB SSD , 4 x M60 ,每月$2172.85 ,平均每小时$3
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1268 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:04 · PVG 02:04 · LAX 10:04 · JFK 13:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.