怀着一番热情想要研发一款开源的聊天机器人,但手中只有一台公司配的 mac ,每做一次训练要三四天的时间,想要购置一台高配 GPU 的台式机却囊中羞涩,租阿里云的 GPU 一小时收我 20 块钱,每用一个小时心里都在滴血,于是有了一个想法 http://www.shareditor.com/blogshow/?blogId=122
1
v1024 2017-01-17 07:28:30 +08:00 via iPhone
然后被拿来挖矿了
|
2
lydasia 2017-01-17 07:30:54 +08:00
然后楼主跑路了哈哈哈
|
3
lydasia 2017-01-17 07:37:14 +08:00 1
楼主的意思, 800 个人,信任你,每个人给你 9.9 ,然后你拿着 8000 块钱凑台服务器?给每个人用仨小时?首先人家凭啥信任你,其次你的网络质量如何,服务器稳定性如何,管理系统是否可靠,客户的数据安全能否保障?而且你这也没有可扩展性,可延续性。别的方面,不说后续的, 800 个人,每人 3 小时, 2400 小时,后面的人这要排三个月都不止?
|
4
loading 2017-01-17 07:44:59 +08:00 via Android 1
你们好不容易找到的车牌,楼主每天回家就能看你们的车开撸, 233
|
5
bearqq 2017-01-17 07:50:15 +08:00 via Android
@lydasia 他面向的应该是玩神经网络的人,玩字很重要,因为可以回避很多问题
但我还要提一个问题, 3 小时不够训练语料。。。基本训练不了稍微大点的东西。玩玩 neural-style 倒是够了。 而且写控制台页面和接口会消耗巨大的精力,考虑到安全性和易用性,我也觉得你应该放弃。直接放个捐款页面就好。 如果硬要做,还提一个,散热必须做好,室温 15 度拿风扇吹机箱拖个 1070 还 80 度的老机箱真是心疼。 |
6
codesaler 2017-01-17 07:56:04 +08:00
相对写 gpu 计算的程序,有这个时间和精力考虑这个,买个 1080 也不贵啊
|
7
tigerstudent 2017-01-17 07:57:27 +08:00 via Android 15
这居然是个成年人的想法
|
8
ihuotui 2017-01-17 09:04:14 +08:00
买个神舟笔记本。。。
|
9
guoxu1231 2017-01-17 09:10:21 +08:00 via iPhone
有点意思啊 我之前也算过一笔账, 4 核 16g 内存 ECS 一年费用 8000 多,都够我买一台高配物理机了.
于是我买了一台 Alienware 15R2 ,平常放在家中,网络唤醒, Windows 宿主机远程桌面进行 GUI 操作, CPU 型计算在 Virtualbox 虚拟环境中隔离进行,需要的服务通过路由器端口映射出来. 我顶楼主,共享经济和虚拟化不是什么天方夜谭。 |
10
ihuotui 2017-01-17 09:29:13 +08:00
然后开发一个共享平台,然后数据 p2p 传送,然后通过共享平台操作。
|
11
zonghua 2017-01-17 09:55:53 +08:00
你家的取暖器不错啊
|
12
leafleave 2017-01-17 10:11:36 +08:00
http://www.equn.com/
还不如在这里添加一个项目 |
13
zhidian 2017-01-17 10:16:45 +08:00
突然想到那个 [每天多学习 1% 的时间,推导出可以每天学习 25 小时] 的埂……
|
15
BingoXuan 2017-01-17 12:22:17 +08:00
这个想法老早就想过了,之前还写在了市场营销课的期末作业里面去……这个想法是很不错,但是有很多问题的:
1.当时我算了一下,如果商业化运营,光是初始投入都已经天文数字了。后期维护又是一笔费用。 2.营销重点在 gpu ,而 gpu 技术迭代太快,也就意味着差不多每两年需要更新硬件,成本远比 CPU 要贵得多。深度学习是很吃 gpu 的。也就意味着对于用户来说,长期上其实并不划算。而且基本上都是用老黄的核弹,价格也是核弹级别。当然,如果能写个成熟的完美支持 a 卡的 ML 库的话,说不定农企会和你 py 交易一下。 3.自己也弄 ML 业务,把自己深度学习的平台放在自己的云上面去,充分利用资源,摊分成本,对用户来说更为好。可是自己 ML 业务又是更多的成本,增加运营难度。 不过当时写这想法时候, alphago 还没战胜人类。感觉当时 ML 还不如现在火。或许现在弄也许会成功。╮(╯▽╰)╭ |
16
warmheartli OP @lydasia 9 块 9 你买不了吃亏, 9 块 9 你买不了上当
|
17
warmheartli OP @bearqq “ 3 小时不够训练语料”,你提醒了我,这里有商机啊
|
18
warmheartli OP @codesaler 街头放个钱箱弹唱卖艺的多数都是开着宝马过去的,重点在于成就自己成就大家
|
19
warmheartli OP @tigerstudent 成年人的心思不懂了吧
|
20
warmheartli OP @guoxu1231 “通过路由器端口映射”,这个有文档说明吗?分享下吧
|
21
warmheartli OP @ihuotui hiahiahia, 你是资深人士,我懂了
|
22
Nitromethane 2017-01-17 13:27:08 +08:00
有话直说:一个 GTX1070 解决不了的问题,买 4 路泰坦同样解决不了~
|
23
ihuotui 2017-01-17 13:27:17 +08:00 via iPhone
@warmheartli 你很有想法,我看好你
|
24
Vizogood 2017-01-17 13:36:49 +08:00
买 100 台神舟笔记本......不管想法有多糟糕,支持你 哈哈哈
|
25
spice630 2017-01-17 13:38:53 +08:00
如法炮制,我有 9.6G 妹子图(性感 自拍 日台), 9.9 包邮谁感兴趣 2333
|
28
ProkillerJ 2017-01-17 14:11:14 +08:00 via iPhone
我感觉至少先是买了设备再说分担租用 比先众筹再买会好很多 9.9 招 800 人 别人等的时间都把活干完了
|
30
enenaaa 2017-01-17 14:30:23 +08:00
楼主貌似忘了一点, 花 20 元可以随时上机, 在你这只要 9.9 但是得排队呀。
另外,看了楼主这系列的文章受益匪浅, 不过好多内容过于简略, 不上不下, 有点难受。 |
31
enenaaa 2017-01-17 14:40:55 +08:00
@warmheartli 看起来你的聊天机器人是 seq2seq 。
我也在关注自然语言处理的相关内容, 不过不是聊天机器人,而是文章分析提炼敏感内容。最近查阅了一些 RNN LSTM 的资料,感觉没有太好的实现模型啊。 |
32
roist 2017-01-17 14:43:23 +08:00
不是连着网给别人用就叫“云**”的,你这顶多是个上世纪就有的时分系统
|
33
ovear 2017-01-17 14:47:47 +08:00
原谅我家网络差,几分钟了 lz 的网站还是打不开
|
34
langmoe 2017-01-17 14:53:14 +08:00 1
|
35
guoxu1231 2017-01-17 17:38:11 +08:00 via iPhone
@hadoop server 的需求不大,主要是充分利用我的高配家用笔记本. 平常在家可以玩游戏办公,开发的时候有需要就通过公网访问 virtualvox 里的虚拟主机
|
36
realpg 2017-01-17 18:40:21 +08:00
且不说其他, 1 小时 20 块钱那个性能是你这组的多少倍?
总共 8000 块钱,人家预付给你,有人要排三个月的队用三小时,最后机器归你,这小算盘打的真牛逼…… 三个月一个节点净赚 8000 ,这买卖阿里云估计都口水流一地…… |
38
airqj 2017-01-17 19:01:52 +08:00 via Android
楼主的网站很不错
|
40
TimLang 2017-01-17 19:45:07 +08:00 via Android
楼主博客不错,收藏了。
|
41
jyf 2017-01-17 20:39:48 +08:00
其实我觉得一般人电脑还是有的 真有兴趣搞这个花个一两千买个卡来玩玩也是可以的
|
46
HLT 2017-01-17 21:59:53 +08:00
看了楼主哥们的博客,对于 8K 而会囊中羞涩 表示非常不可思议。。。
|
48
hyuwang 2017-01-17 22:20:52 +08:00
这个行业都存在多少年了
楼主听说过 GPU Farm 么 都是按几角钱每核心每小时的起价算。。。 还只按运行时间算钱 至于阿里 20 一个小时的机器 起一个等环境搭好一天都过去了 它不是这么用的啊 |
49
xderam 2017-01-17 23:30:47 +08:00
ucloud 的 GPU 云主机看了下好像只要 4.76/小时 不过貌似要提工单开权限。利益相关:俺是 u 厂的。
@hyuwang 说的对, GPU Farm 存在了那么多年了,以前看美院的同学用的比较多。不知道现在能不能用在 ML 上。 |
50
20015jjw 2017-01-18 02:57:11 +08:00 via Android
看 lz 的博客这么厉害 怎么买台电脑的钱都没有呢...
|
51
ShiHou 2017-01-18 03:25:57 +08:00
|
52
ShiHou 2017-01-18 03:29:09 +08:00
供个参考吧. 我现在用的训练机子是上图,训练满载时风扇隔着一扇门都能听到,同时散热还是专门找人设计的风道,用的大型 tower case 。
nlp 中 seq2seq 相关任务,在这样的机子中,需要 2 ~ 3 天才能收敛到一个较好的 performance 。 在众多模型中,选出一个能用,至少要做 30 ~ 50 次训练。不止这样能否让楼主的热血冷静些 |
53
anuxs 2017-01-18 08:03:19 +08:00 via iPhone
共享的还满腔热血?有多少热血?
|
54
vvniu 2017-01-18 08:55:10 +08:00
无 GPU 不机器学习,有 GPU 赶紧下个 stream
|
55
tim1008 2017-01-18 09:11:21 +08:00 1
说的我心痒痒的,我想众筹买个房。
|
56
deleted 2017-01-18 09:18:38 +08:00 via Android
这是否说明,做机器学习是没钱途的
|
58
tjxjj 2017-01-18 10:46:56 +08:00
玩这个 8000 你都不想出?
|
59
Limius 2017-01-18 11:19:48 +08:00
LZ 只是不想自己出钱,顺便动了下脑筋,来到这里看到大家不买账,不过我觉得别处还是有人买账的啊哈哈~
|
60
realpg 2017-01-18 13:05:48 +08:00
@ShiHou
我对这行一窍不通 这个训练操作时候 CPU 和 GPU 都满载么? CPU 和 GPU 的性能要求都如何?对存储介质 IO 的速度要求高么? 我这单位倒是有大量带宽,不要钱的电力,基本硬件也不贵哪去,还有大量淘汰的服务器 CPU 可用,也就是需要自己采购 GPU ,可以搞搞这个玩玩。 |
62
realpg 2017-01-18 13:23:16 +08:00
|
63
kklt007 2017-01-18 13:56:16 +08:00 via Android
@realpg 我们没有 gpu ,只在集群的 cpu 上跑。
数据并行或者任务并行都有相应的并行算法,不过数据并行相对简单一些。 核心可以简单理解为一个迭代优化的式子,目的是使参数收敛。就好像求抛物线的那个最小值,一点一点求梯度,一点一点逼近。 同步异步算法都有,太快了收敛性不好,收敛稳定的速度会很慢,所以有的时候需要具体问题具体分析,根据不同算法的特点进行平衡。 存储访问指的是内存还是硬盘?我们是都读到内存里的…… 内存肯定是越快越好,另外如果跨节点需要相互通信的话这个地方也容易成为瓶颈,所以我们用的 infiniband 。 |
64
ShiHou 2017-01-18 14:16:24 +08:00
|
65
realpg 2017-01-18 14:17:47 +08:00
@kklt007
现有常用 X86 架构下, RAM 最大也就 192G 了,不知道这些训练算法本身是否极吃内存。毕竟感觉这种学习数据源可能动不动就 80G 的 很多纯计算领域内存都是爆炸的利用,反而不太敢把原始数据都拉到内存里面去 只是粗略的想了解一下通用领域的这种性能的机器的实际开销模型 感觉看前面的意思 可能并不吃 CPU 只是非常吃 GPU |
66
realpg 2017-01-18 14:20:20 +08:00
@ShiHou
单位硬件很多, Tesla 也不是不能借一块过来临时用用,还是基本一窍不通的问题,先了解了解模型,做做硬件结构设计的估算 |
67
zwh8800 2017-01-18 14:27:17 +08:00
@guoxu1231 关键放家里噪音问题是个大问题,我前两天把家里 660Ti 老电脑收拾出来组了个 raid 想做爬虫+舆情分析服务器用,结果因为噪音太大被女朋友否决了🙅
|
68
ShiHou 2017-01-18 14:47:06 +08:00
@realpg 从回复来看,你对 deep learning 这块了解不足。 学而不思则罔嘛,个人建议是不要想太多,找几个热门模型直接上手体验。
|
69
kklt007 2017-01-18 14:48:03 +08:00 via Android
@realpg 单结点 64G 内存,多结点就很多了,一部分一部分加载到内存也不是不可以,就像外部排序那样,不过应该避免等待读数据,我嫌麻烦一般都是直接全读进去的。
吃 CPU 跟吃 GPU 区别不大,吃的都是计算资源,只不过一般都不喜欢 CPU+GPU 混合编程,单独对比 CPU 和 GPU 可能 GPU 性价比好一些?不过我确实没用过 GPU ,说不准。 单位硬件多的话可以拿现有资源组个小集群试试,有没有 GPU 都能跑。 |
70
realpg 2017-01-18 14:57:38 +08:00
|
71
kklt007 2017-01-18 15:25:12 +08:00 via Android
@realpg 嗯,我对硬件的理解是性能好就跑的快一些,性能一般就跑的慢一些,同样需要迭代循环 10k 次,差别就在于哪个的单次循环快。另外核心多也相当于并行了。
我以前在 2010 年的惠普本上装 caffe 一样跑,现在在集群上跑无非快一些,也有土豪在单机上装四路泰坦或者组 GPU 集群的。都能跑,看你们是想跑的有多快。 另外机器学习的任务主要是训练模型的时间长,模型训练好了之后实际做分类预测之类的任务花的时间就不长了,资源利用率高不高主要看你们这方面的任务多不多。 所以我觉得如果不是专门搞这个方向的话,不是很有必要新买一堆 GPU 卡。 |
75
cpygui 2017-01-19 04:27:14 +08:00
aws g2.2 large 每小时 0.7usd
我在用这个 |
76
cpygui 2017-01-19 04:29:02 +08:00
如果是 gan 网络,我觉得硬件成本还要加
|
77
droiz 2017-01-19 10:41:43 +08:00
楼主的链接访问不了啊,是不已经被 v 友玩坏了
|
78
AsisA 2017-01-19 14:41:29 +08:00
Azure 现在也有 GPU 主机了, NC 系列是 K80 , NV 系列是 M60 ,其中最便宜的是 NC6 ,每月$493.83 ,平均下来每小时$0.686 , 6 核心 E5-2690v3 , 56G 内存, 380G SSD , 1 x K80
|
79
AsisA 2017-01-19 14:49:04 +08:00
[接上面]
最贵的是 NV24 , 24 核心 E5-2690v3 , 224G 内存, 1.44TB SSD , 4 x M60 ,每月$2172.85 ,平均每小时$3 |