GPU 인스턴스를 사용할 때 스팟 인스턴스를 많이들 활용한다고 한다. 비용 때문이다!

근데, GPU 인스턴스의 경우 GPU 리소스의 부족 현상이 있을 수 있음...😅


Spot Fleet

  • 사용자가 지정한 기준에 따라 시작되는 스팟 인스턴스의 집합(선택적으로 온디맨드 설정 가능)
  • 요청 유형
    • request: 원하는 용량을 얻기 위한 비동기식 일회성 요청(목표 용량 유지 비활성화)
    • maintain: 원하는 용량을 얻기 위한 비동기식 요청, 중단된 모든 스팟 인스턴스를 자동으로 보충해 용량 유지(목표용량 유지 활성화)

  • 인터럽트 방식: 스팟 서비스가 중단된 스팟 인스턴스 처리 방식(종료 / 중지 / 최대 절전 모드(수면))
  • 용량 재조정:
    • 시작 전용: 기존 스팟 인스턴스에 대해 재조정 알림이 전송될 때 대체 스팟 인스턴스 시작
      • 이전 인스턴스를 종료하거나 실행 중인 상태로 두는 건 사용자의 선택
    • 종료 전 시작: 새로운 대체 스팟 인스턴스가 시작된 후 재조정 알림을 받는 스팟 인스턴스 종료(termination-delay)
      • 인스턴스 종료 절차가 완료되는데 걸리는 시간 예측 가능할 때 사용

  • 할당 방식
    • 가격 용량 최적화(priceCapacityOptimized): 가용성이 가장 높은 풀 안에서 가장 저렴한 가격
      • 여기서 말하는 가용성은 중단 가능성이 가장 낮음을 말한다
    • 용량 최적화(capacityOptimized): 가용성이 가장 높은 풀 식별, 유형에 대한 우선 순위 설정 가능
    • 최저 가격(lowestPrice): 사용 가능한 용량이 있는 최저 가격 풀에서
    • 모든 풀에서 다각화(diversified): 모든 풀에 분산
  • 단점
    • 아무래도 스팟 인스턴스다 보니... 언제 중단될 지 모른다. 종료 2분 전 경고 알림
    • maintain이라는 유형이 있긴 하지만.. GPU 인스턴스의 경우 말이 다르다! GPU 리소스에 대한 수요가 높아 부족할 수도 있기 때문이다.

 

위의 단점을 피하기 위해 스팟 플릿에 대한 모니터링은 필수다!

EventBridge 서비스를 활용해 알림을 받을 수 있게 규칙을 설정해두는 걸 추천!

해당 이벤트 패턴에 Spot Fleet 알림 받는 소스를 제공해준다!

알림 대상을 SNS 주제로 설정해도 괜찮고 다른 여러 서비스들이 있으니 잘 활용하면 좋을 듯:)

CloudWatch로 트리거 잡아 Lambda로 설정해도 괜찮은데.. 귀찮잖아~

 

 

'Cloud > AWS' 카테고리의 다른 글

[AWS] Amazon Athena 사용법 -1  (1) 2022.11.19
[AWS] Step Functions  (0) 2022.11.18
[AWS] Lambda와 RDS Proxy  (0) 2022.11.14
[AWS] EC2 인스턴스 자동 중지 및 시작  (0) 2022.11.13
[AWS] GPU 인스턴스 Spot Fleet  (0) 2022.11.12

GPU 인스턴스를 온디맨드로 계속 켜서 사용하기엔 비용이 생각보다 많이 들 것 같다. 따라서 스팟 인스턴스를 요청해서 사용하는게 좋을 것 같은데.. 스팟 인스턴스의 경우 강제 종료 되는 상황이 찾아올 수 있다.

이를 방지하고자 Spot Fleet을 사용해보자.

Spot Fleet

  • 사용자가 지정한 기준에 따라 시작되는 스팟 인스턴스의 집합(선택적 온디맨드 인스턴스 집합)
  • 기본적으로 플릿에서 스팟 인스턴스가 종료된 후 교체 인스턴스를 시작하여 목표 용량을 유지하도록 설정되어 있음
  • 요청 유형:
    • request: 일회성 요청, 스팟 중단으로 인해 용량 감소할 때 다른 작업하지 않음
    • maintain: 중단된 모든 스팟 인스턴스를 자동으로 보충해 용량 유지
    • Maintain target capacity 체크 유무에 따라 갈린다.
  • 온디맨드:
    • 항상 인스턴스 용량을 사용할 수 있게 요청에 온디맨드 용량에 대한 요청 포함 가능
    • 원하는 목표 용량 및 해당 용량의 몇 %가 온디맨드 용량이어야 하는지 지정

실습 참고: https://aws.amazon.com/ko/blogs/korea/train-deep-learning-models-on-gpus-using-amazon-ec2-spot-instances/

 

 

'Cloud > AWS' 카테고리의 다른 글

[AWS] Lambda와 RDS Proxy  (0) 2022.11.14
[AWS] EC2 인스턴스 자동 중지 및 시작  (0) 2022.11.13
[AWS] GPU 인스턴스 유형(EC2)  (0) 2022.11.12
[AWS] Lambda에 X-Ray 적용하기  (0) 2022.11.06
[AWS] Serverless Service - Lambda 편 (3)  (0) 2022.11.06

+ Recent posts