Kubeflow on AWS
問題⌗
傳統使用 EC2 給各個 ML 工程師使用,會導致
- 難以重現環境(如果工程師不是用 container)
- 資源難以被完整分配
- 例如:某人開了一個 GPU + CPU 的 EC2,但是它正在訓練的模型只吃 CPU
- 難以進行大規模的訓練
- 除非該 ML 工程師自己寫一堆 script 並且有辦法 scale EC2 ,否則相對困難
Kubeflow⌗
這邊演講者列出以下架構去服務 ML 工程師
- Route53 + Load Balancer + AWS Certificate Manager 去提供 HTTPS 服務
- 用 AWS Cognito 做身份驗證
- 在 ELK 中部署 Kubeflow 去做訓練的服務
- 用 Istio 去做服務的導流
- 可以直接使用 AWS 靜態檔案服務或是資料庫服務,例如: AWS Deep Learning Containers, Amazon Elastic File System,Amazon FSx,AWS S3,RDS