V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
lzzyywz
V2EX  ›  酷工作

昆仑万维 2050 研究院招算力机房运维

  •  
  •   lzzyywz · 13 天前 · 1775 次点击

    帮朋友发的,有需求请直接联系底部邮箱

    2050 招聘 | 机房运维工程师( GPU 算力卡方向)

    📍 工作地点:香港鸭脷洲数据中心

    💼 岗位亮点:

    负责 NVIDIA A800/A100 GPU 算力卡 运行维护监控设备状态,优化性能,快速响应故障

    参与机房扩容,打造高可用 GPU 集群

    👨‍💻 我们希望你: 熟悉 NVIDIA GPU 架构,了解 A800/A100 及其常见问题

    有 3 年以上机房运维经验,至少 1 年 GPU 服务器 / HPC 经验

    掌握 Linux 、CUDA 、RDMA 网络运维,能快速定位和解决问题

    岗位职责:

    1. 机房设备运维保障
    • 负责机房内 GPU 算力卡(包括 NVIDIA A800 、A100 等)的日常监控、维护及性能优化,确保设备稳定运行。
    • 实时监控算力卡健康状态(如温度、功耗、负载等),及时发现并处理异常告警。
    1. 故障诊断与修复
    • 快速响应算力卡“掉卡”问题,排查硬件连接( PCIe 接口、电源供电)、驱动兼容性、固件版本等潜在故障点。
    • 分析算力卡损坏原因(如硬件老化、散热不良、供电不稳等),制定修复或替换方案,降低设备宕机时间。
    • 配合厂商进行硬件级故障处理,推动 RMA 流程并跟踪解决进度。
    1. 预防性维护与优化
    • 制定算力卡定期巡检计划,执行硬件清洁、散热系统检查、固件升级等预防性维护操作。
    • 优化算力卡集群的资源配置策略,提升 GPU 利用率并延长硬件生命周期。
    • 编写运维手册及故障处理 SOP ,沉淀技术经验。
    1. 跨团队协作
    • 与算法团队、开发团队协同定位 GPU 使用问题(如 CUDA 报错、显存溢出等),提供运维侧支持。
    • 参与机房扩容规划,设计高可用 GPU 集群架构,规避单点故障风险。 任职要求:
    1. 专业技能
    • 熟悉 NVIDIA GPU 架构(如 Ampere 系列),了解 A800/A100 特性及常见故障模式。
    • 具备 RDMA 网络运维能力,熟悉 IB 网卡 / IB 交换机 / RoCE 组网 等硬件细节,能快速分析网络通信问题
    • 掌握 Linux 系统操作及 GPU 驱动管理(如 NVIDIA Driver 、CUDA Toolkit ),熟练使用 nvidia-smi 、dcgmi 等工具。
    • 具备硬件排障能力,能独立更换算力卡、电源模块、散热组件等硬件。
    • 熟悉监控工具(如 Prometheus+Grafana 、Zabbix )及日志分析系统。
    1. 经验背景
    • 3 年以上机房运维经验,至少 1 年 GPU 服务器或高性能计算( HPC )集群运维经验。
    • 有处理大规模 GPU 集群故障(如批量掉卡、硬件兼容性问题)的实战案例。
    1. 软性能力
    • 逻辑清晰,能通过数据分析定位复杂问题根本原因。
    • 具备较强抗压能力,能适应 7×24 小时应急响应。 📩 有兴趣请联系: michelle@kunlun-inc.com
    3 条回复    2025-03-14 08:44:28 +08:00
    toexplore
        1
    toexplore  
       13 天前
    how much
    csys
        2
    csys  
       13 天前
    你们有多少 A100 啊?
    defunct9
        3
    defunct9  
       13 天前
    这不就是以前得矿工么
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3568 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:03 · PVG 13:03 · LAX 22:03 · JFK 01:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.