昆仑万维 2050 研究院招算力机房运维 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

这是一个创建于 199 天前的主题，其中的信息可能已经有所发展或是发生改变。

帮朋友发的，有需求请直接联系底部邮箱

2050 招聘 | 机房运维工程师（ GPU 算力卡方向）

📍 工作地点：香港鸭脷洲数据中心

💼 岗位亮点：

负责 NVIDIA A800/A100 GPU 算力卡运行维护监控设备状态，优化性能，快速响应故障

参与机房扩容，打造高可用 GPU 集群

👨‍💻 我们希望你：熟悉 NVIDIA GPU 架构，了解 A800/A100 及其常见问题

有 3 年以上机房运维经验，至少 1 年 GPU 服务器 / HPC 经验

掌握 Linux 、CUDA 、RDMA 网络运维，能快速定位和解决问题

岗位职责：

机房设备运维保障

负责机房内 GPU 算力卡（包括 NVIDIA A800 、A100 等）的日常监控、维护及性能优化，确保设备稳定运行。
实时监控算力卡健康状态（如温度、功耗、负载等），及时发现并处理异常告警。

故障诊断与修复

快速响应算力卡“掉卡”问题，排查硬件连接（ PCIe 接口、电源供电）、驱动兼容性、固件版本等潜在故障点。
分析算力卡损坏原因（如硬件老化、散热不良、供电不稳等），制定修复或替换方案，降低设备宕机时间。
配合厂商进行硬件级故障处理，推动 RMA 流程并跟踪解决进度。

预防性维护与优化

制定算力卡定期巡检计划，执行硬件清洁、散热系统检查、固件升级等预防性维护操作。
优化算力卡集群的资源配置策略，提升 GPU 利用率并延长硬件生命周期。
编写运维手册及故障处理 SOP ，沉淀技术经验。

跨团队协作

与算法团队、开发团队协同定位 GPU 使用问题（如 CUDA 报错、显存溢出等），提供运维侧支持。
参与机房扩容规划，设计高可用 GPU 集群架构，规避单点故障风险。任职要求：

专业技能

熟悉 NVIDIA GPU 架构（如 Ampere 系列），了解 A800/A100 特性及常见故障模式。
具备 RDMA 网络运维能力，熟悉 IB 网卡 / IB 交换机 / RoCE 组网等硬件细节，能快速分析网络通信问题
掌握 Linux 系统操作及 GPU 驱动管理（如 NVIDIA Driver 、CUDA Toolkit ），熟练使用 nvidia-smi 、dcgmi 等工具。
具备硬件排障能力，能独立更换算力卡、电源模块、散热组件等硬件。
熟悉监控工具（如 Prometheus+Grafana 、Zabbix ）及日志分析系统。

经验背景

3 年以上机房运维经验，至少 1 年 GPU 服务器或高性能计算（ HPC ）集群运维经验。
有处理大规模 GPU 集群故障（如批量掉卡、硬件兼容性问题）的实战案例。

软性能力

逻辑清晰，能通过数据分析定位复杂问题根本原因。
具备较强抗压能力，能适应 7×24 小时应急响应。 📩 有兴趣请联系： [email protected]

算力机房运维

3 条回复 • 2025-03-14 08:44:28 +08:00

1

toexplore

199 天前

how much

2

csys

199 天前

你们有多少 A100 啊？

3

defunct9

199 天前

这不就是以前得矿工么

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 5281 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 30ms · UTC 06:07 · PVG 14:07 · LAX 23:07 · JFK 02:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.