V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
songjf
V2EX  ›  问与答

以 docker 的方式配置多台主机的 gpu 集群,想来咨询大家一些细节

  •  
  •   songjf · 2019-11-07 16:05:12 +08:00 · 1451 次点击
    这是一个创建于 1874 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近有深度学习的大量需求,需要搭建一个 gpu 集群方便大家一起使用。

    我的初步想法就是:

    1.自己购买显卡,cpu,主板等组装多台主机(这个就后续慢慢看用些什么显卡了)

    2.通过 docker swarm 的方式将这些电脑连接在一起,使用 docker 的目的就是为了隔离开每个用户,同时也保证了每个人的 root 权限, 大家可以通过 ssh 服务登录到自己创建的容器内。除此之外,通过 swarm 这样子每个人可以使用不同主机的显卡进行训练,不用在每台机器上反复配置。

    3. docker swarm 会有一个管理节点和计算节点,我网上调研的结果就是通过 Infiniband 网络连接存储节点来完成运算数据的读取和存储。其实在这里我有个问题,这样子的话能否保证一个读写的速度,还想来请教一下过来人。另外,是否可以各台主机有自己的系统存储外,一起共用一个数据盘,不知道如何实现这个。

    资金有限,也是在慢慢摸索不断进步,网上搜索到的教程都是些零零碎碎的。谢谢大家听我啰啰嗦嗦到这,如果有过来人搭建过愿意分享的那真的是万分感谢的。如果大家看到些什么好的教程也可以丢给我,有什么好的想法也可以告诉我,谢谢大家了。

    1 条回复    2019-11-07 19:07:49 +08:00
    songjf
        1
    songjf  
    OP
       2019-11-07 19:07:49 +08:00
    有幸看到的话, 请移步到 https://www.v2ex.com/t/617275
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5279 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:23 · PVG 09:23 · LAX 17:23 · JFK 20:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.