職缺描述
1.規劃並協同團隊設計與開發自建的 AI 算力平台(類似 AWS SageMaker/GCP Vertex AI) 2.建立可自動調度 VM/GPU/Kubernetes 容器的資源管理系統(後面串接Paas API) 3.理解 Terraform / GitOps 自動化的 API 或服務(部署與設定PaaS 服務) 4.建立模型訓練與推論任務的一鍵部署介面(含 API / UI / Portal) 5.整合帳號權限、使用量追蹤與計費模組 6.導入並整合 CI/CD、資源監控與異常通報流程(與 DevOps 合作) 7.導入並整合 Kubeflow、MLflow、Airflow 等開源 AI 工作流管理平台 8.跨團隊協作以支援內部 AI 研發與推論算力需求 9.優化平台後端模組效能與擴展性(multi-tenant、多叢集支援等) 10.自動化 GPU 資源共享、預約、冷熱儲存調度邏輯
收合內容