帮朋友发的,有需求请直接联系底部邮箱
2050 招聘 | 机房运维工程师( GPU 算力卡方向)
📍 工作地点:香港鸭脷洲数据中心
💼 岗位亮点:
负责 NVIDIA A800/A100 GPU 算力卡 运行维护监控设备状态,优化性能,快速响应故障
参与机房扩容,打造高可用 GPU 集群
👨💻 我们希望你:
熟悉 NVIDIA GPU 架构,了解 A800/A100 及其常见问题
有 3 年以上机房运维经验,至少 1 年 GPU 服务器 / HPC 经验
掌握 Linux 、CUDA 、RDMA 网络运维,能快速定位和解决问题
岗位职责:
- 机房设备运维保障
- 负责机房内 GPU 算力卡(包括 NVIDIA A800 、A100 等)的日常监控、维护及性能优化,确保设备稳定运行。
- 实时监控算力卡健康状态(如温度、功耗、负载等),及时发现并处理异常告警。
- 故障诊断与修复
- 快速响应算力卡“掉卡”问题,排查硬件连接( PCIe 接口、电源供电)、驱动兼容性、固件版本等潜在故障点。
- 分析算力卡损坏原因(如硬件老化、散热不良、供电不稳等),制定修复或替换方案,降低设备宕机时间。
- 配合厂商进行硬件级故障处理,推动 RMA 流程并跟踪解决进度。
- 预防性维护与优化
- 制定算力卡定期巡检计划,执行硬件清洁、散热系统检查、固件升级等预防性维护操作。
- 优化算力卡集群的资源配置策略,提升 GPU 利用率并延长硬件生命周期。
- 编写运维手册及故障处理 SOP ,沉淀技术经验。
- 跨团队协作
- 与算法团队、开发团队协同定位 GPU 使用问题(如 CUDA 报错、显存溢出等),提供运维侧支持。
- 参与机房扩容规划,设计高可用 GPU 集群架构,规避单点故障风险。
任职要求:
- 专业技能
- 熟悉 NVIDIA GPU 架构(如 Ampere 系列),了解 A800/A100 特性及常见故障模式。
- 具备 RDMA 网络运维能力,熟悉 IB 网卡 / IB 交换机 / RoCE 组网 等硬件细节,能快速分析网络通信问题
- 掌握 Linux 系统操作及 GPU 驱动管理(如 NVIDIA Driver 、CUDA Toolkit ),熟练使用 nvidia-smi 、dcgmi 等工具。
- 具备硬件排障能力,能独立更换算力卡、电源模块、散热组件等硬件。
- 熟悉监控工具(如 Prometheus+Grafana 、Zabbix )及日志分析系统。
- 经验背景
- 3 年以上机房运维经验,至少 1 年 GPU 服务器或高性能计算( HPC )集群运维经验。
- 有处理大规模 GPU 集群故障(如批量掉卡、硬件兼容性问题)的实战案例。
- 软性能力