GPU 인스턴스를 사용할 때 스팟 인스턴스를 많이들 활용한다고 한다. 비용 때문이다!
근데, GPU 인스턴스의 경우 GPU 리소스의 부족 현상이 있을 수 있음...😅
Spot Fleet
- 사용자가 지정한 기준에 따라 시작되는 스팟 인스턴스의 집합(선택적으로 온디맨드 설정 가능)
- 요청 유형
- request: 원하는 용량을 얻기 위한 비동기식 일회성 요청(목표 용량 유지 비활성화)
- maintain: 원하는 용량을 얻기 위한 비동기식 요청, 중단된 모든 스팟 인스턴스를 자동으로 보충해 용량 유지(목표용량 유지 활성화)
- 인터럽트 방식: 스팟 서비스가 중단된 스팟 인스턴스 처리 방식(종료 / 중지 / 최대 절전 모드(수면))
- 용량 재조정:
- 시작 전용: 기존 스팟 인스턴스에 대해 재조정 알림이 전송될 때 대체 스팟 인스턴스 시작
- 이전 인스턴스를 종료하거나 실행 중인 상태로 두는 건 사용자의 선택
- 종료 전 시작: 새로운 대체 스팟 인스턴스가 시작된 후 재조정 알림을 받는 스팟 인스턴스 종료(termination-delay)
- 인스턴스 종료 절차가 완료되는데 걸리는 시간 예측 가능할 때 사용
- 시작 전용: 기존 스팟 인스턴스에 대해 재조정 알림이 전송될 때 대체 스팟 인스턴스 시작
- 할당 방식
- 가격 용량 최적화(priceCapacityOptimized): 가용성이 가장 높은 풀 안에서 가장 저렴한 가격
- 여기서 말하는 가용성은 중단 가능성이 가장 낮음을 말한다
- 용량 최적화(capacityOptimized): 가용성이 가장 높은 풀 식별, 유형에 대한 우선 순위 설정 가능
- 최저 가격(lowestPrice): 사용 가능한 용량이 있는 최저 가격 풀에서
- 모든 풀에서 다각화(diversified): 모든 풀에 분산
- 가격 용량 최적화(priceCapacityOptimized): 가용성이 가장 높은 풀 안에서 가장 저렴한 가격
- 단점
- 아무래도 스팟 인스턴스다 보니... 언제 중단될 지 모른다. 종료 2분 전 경고 알림
- maintain이라는 유형이 있긴 하지만.. GPU 인스턴스의 경우 말이 다르다! GPU 리소스에 대한 수요가 높아 부족할 수도 있기 때문이다.
위의 단점을 피하기 위해 스팟 플릿에 대한 모니터링은 필수다!
EventBridge 서비스를 활용해 알림을 받을 수 있게 규칙을 설정해두는 걸 추천!
해당 이벤트 패턴에 Spot Fleet 알림 받는 소스를 제공해준다!
알림 대상을 SNS 주제로 설정해도 괜찮고 다른 여러 서비스들이 있으니 잘 활용하면 좋을 듯:)
CloudWatch로 트리거 잡아 Lambda로 설정해도 괜찮은데.. 귀찮잖아~
'Cloud > AWS' 카테고리의 다른 글
[AWS] Amazon Athena 사용법 -1 (1) | 2022.11.19 |
---|---|
[AWS] Step Functions (0) | 2022.11.18 |
[AWS] Lambda와 RDS Proxy (0) | 2022.11.14 |
[AWS] EC2 인스턴스 자동 중지 및 시작 (0) | 2022.11.13 |
[AWS] GPU 인스턴스 Spot Fleet (0) | 2022.11.12 |