職缺描述
負責企業 AI 平台(多雲 + 地端)的建置與維運,提供 GPU 運算、模型訓練與推論,以及 AI 服務能力。此角色涵蓋平台架構設計、資源管理與系統整合,並與內部使用單位、IT 團隊及外部廠商協作,推動 AI 平台穩定落地與持續優化。工作內容如下: 1. 建置與維運企業 AI 平台 2. 管理 GPU 資源與訓練/推論環境 3. 部署與整合 Kubernetes、Run:ai、NVIDIA AI 平台相關元件 4. 建置 AI 服務對外存取架構(Ingress / API Gateway) 5. 建置監控系統,確保平台穩定性 6. 與內部單位、IT與原廠協作,推動需求落地 7. 撰寫架構文件、SOP 與維運文件 8. 進行平台測試(HA、Autoscaling、Failover、資源隔離與權限控管) 9. 支援基礎 IT Infra(Server / Network / Storage / Linux)
收合內容