'Cloud/AWS' 카테고리의 글 목록 (5 Page)

GPU 인스턴스를 사용할 때 스팟 인스턴스를 많이들 활용한다고 한다. 비용 때문이다!

근데, GPU 인스턴스의 경우 GPU 리소스의 부족 현상이 있을 수 있음...😅

Spot Fleet

사용자가 지정한 기준에 따라 시작되는 스팟 인스턴스의 집합(선택적으로 온디맨드 설정 가능)
요청 유형
- request: 원하는 용량을 얻기 위한 비동기식 일회성 요청(목표 용량 유지 비활성화)
- maintain: 원하는 용량을 얻기 위한 비동기식 요청, 중단된 모든 스팟 인스턴스를 자동으로 보충해 용량 유지(목표용량 유지 활성화)

인터럽트 방식: 스팟 서비스가 중단된 스팟 인스턴스 처리 방식(종료 / 중지 / 최대 절전 모드(수면))
용량 재조정:
- 시작 전용: 기존 스팟 인스턴스에 대해 재조정 알림이 전송될 때 대체 스팟 인스턴스 시작
  - 이전 인스턴스를 종료하거나 실행 중인 상태로 두는 건 사용자의 선택
- 종료 전 시작: 새로운 대체 스팟 인스턴스가 시작된 후 재조정 알림을 받는 스팟 인스턴스 종료(termination-delay)
  - 인스턴스 종료 절차가 완료되는데 걸리는 시간 예측 가능할 때 사용

할당 방식
- 가격 용량 최적화(priceCapacityOptimized): 가용성이 가장 높은 풀 안에서 가장 저렴한 가격
  - 여기서 말하는 가용성은 중단 가능성이 가장 낮음을 말한다
- 용량 최적화(capacityOptimized): 가용성이 가장 높은 풀 식별, 유형에 대한 우선 순위 설정 가능
- 최저 가격(lowestPrice): 사용 가능한 용량이 있는 최저 가격 풀에서
- 모든 풀에서 다각화(diversified): 모든 풀에 분산
단점
- 아무래도 스팟 인스턴스다 보니... 언제 중단될 지 모른다. 종료 2분 전 경고 알림
- maintain이라는 유형이 있긴 하지만.. GPU 인스턴스의 경우 말이 다르다! GPU 리소스에 대한 수요가 높아 부족할 수도 있기 때문이다.

위의 단점을 피하기 위해 스팟 플릿에 대한 모니터링은 필수다!

EventBridge 서비스를 활용해 알림을 받을 수 있게 규칙을 설정해두는 걸 추천!

해당 이벤트 패턴에 Spot Fleet 알림 받는 소스를 제공해준다!

알림 대상을 SNS 주제로 설정해도 괜찮고 다른 여러 서비스들이 있으니 잘 활용하면 좋을 듯:)

CloudWatch로 트리거 잡아 Lambda로 설정해도 괜찮은데.. 귀찮잖아~

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] Amazon Athena 사용법 -1 (1)	2022.11.19
[AWS] Step Functions (0)	2022.11.18
[AWS] Lambda와 RDS Proxy (0)	2022.11.14
[AWS] EC2 인스턴스 자동 중지 및 시작 (0)	2022.11.13
[AWS] GPU 인스턴스 Spot Fleet (0)	2022.11.12

일단은 Proxy가 정확하게 뭔지 잘 몰라서 해당 내용 부터 살펴 본다면,

Proxy

'대리', '대신' 의 뜻, 주로 보안 상의 문제를 방지하기 위해 직접 통신하지 않고 중계자를 거친다는 개념

여기서의 중계자가 'Proxy Server'

클라이언트가 프록시 서버에 요청한 내용을 서버에 캐시로 저장해두면, 전송 시간을 절약할 수 있고, 특정 사이트는 접근 불가능하도록 제한을 걸 수도 있다. → Forward Proxy

클라이언트가 바로 서버에 데이터를 요청해 받을 수 있지만, DB가 노출될 수 있는 위험이 존재한다. 중간에 프록시 서버를 두고 내부망을 보호하는 역할을 할 수도 있다. → Reverse Proxy

RDS Proxy

Connection Pooling
- 커넥션을 열고 닫으며 많은 커넥션을 동시에 열린 상태로 유지하는 데 관련된 오버헤드를 줄이는 최적화 기능
- connection multiplexing: 커넥션 재사용(하나의 DB 연결을 사용해 한 트랜잭션에 대한 모든 작업 수행)
데이터베이스 장애조치(failover)와 같은 오류 시나리오 동안 애플리케이션 가용성 개선
- 장애 조치 동안 애플리케이션 연결 유지
TLS/SSL 및 IAM을 포함한 RDS 보안 기능을 사용해 애플리케이션 코드에서 연결에 대한 자격 증명 불필요
- AWS Secrets Manager와 통합되어 하드 코딩할 필요가 없음(DB 자격 증명을 중앙에서 관리)
CloudWatch 메트릭 및 로깅
- 주요 메트릭: ClientConnections, QueryRequests, DatabaseConnections
- 로그 그룹 내에서 모니터링: /aws/rds/proxy/[proxy-name]

VPC 생성

cloudformation으로 생성

AWSTemplateFormatVersion: "2010-09-09"
Description: 'Cloudformation template to create VPC for workshop (Optimize Serverless Application on AWS)'
Resources:
  VPC:
    Type: AWS::EC2::VPC
    Properties:
      CidrBlock: 10.0.0.0/16
      EnableDnsSupport: true
      EnableDnsHostnames: true
      Tags:
        - Key: Name
          Value: serverless-app

  InternetGateway:
    Type: AWS::EC2::InternetGateway
    Properties:
      Tags:
        - Key: Name
          Value: serverless-app-igw

  InternetGatewayAttachment:
    Type: AWS::EC2::VPCGatewayAttachment
    Properties:
      InternetGatewayId: !Ref InternetGateway
      VpcId: !Ref VPC

  PrivateSubnet1:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2a
      CidrBlock: 10.0.1.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: lambda-subnet-a

  PrivateSubnet2:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2c
      CidrBlock: 10.0.2.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: lambda-subnet-c

  PrivateSubnet3:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2a
      CidrBlock: 10.0.10.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: rds-subnet-a

  PrivateSubnet4:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2c
      CidrBlock: 10.0.20.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: rds-subnet-c

  PrivateSubnet5:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2a
      CidrBlock: 10.0.100.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: secret-subnet-a

  PrivateSubnet6:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2c
      CidrBlock: 10.0.200.0/24
      MapPublicIpOnLaunch: false
      Tags:
        - Key: Name
          Value: secret-subnet-c

  PublicSubnet1:
    Type: AWS::EC2::Subnet
    Properties:
      VpcId: !Ref VPC
      AvailabilityZone: ap-northeast-2a
      CidrBlock: 10.0.0.0/24
      MapPublicIpOnLaunch: true
      Tags:
        - Key: Name
          Value: cloud9-subnet-a

  PublicRouteTable:
    Type: AWS::EC2::RouteTable
    Properties:
      VpcId: !Ref VPC
      Tags:
        - Key: Name
          Value: serverless-app-routes

  DefaultPublicRoute:
    Type: AWS::EC2::Route
    DependsOn: InternetGatewayAttachment
    Properties:
      RouteTableId: !Ref PublicRouteTable
      DestinationCidrBlock: 0.0.0.0/0
      GatewayId: !Ref InternetGateway

  PublicSubnet1RouteTableAssociation:
    Type: AWS::EC2::SubnetRouteTableAssociation
    Properties:
      RouteTableId: !Ref PublicRouteTable
      SubnetId: !Ref PublicSubnet1

Outputs:
  VPC:
    Description: serverless-app-vpc
    Value: !Ref VPC

보안 그룹 생성

lambda-sg
rds-sg: MySQL / lambda-sg

RDS 생성

서브넷 그룹 생성: 10.0.10.0/24(a az), 10.0.20.0/24 (c az)
DB 생성:
- MySQL 5.7.33 버전
- db.m5.large / gp2 20GB
- VPC쪽 위에서 생성했던 것들..

Lambda 생성

python 3.8
VPC 활성화: 10.0.1.0/24, 10.0.2.0/24 / lambda-sg
코드

import json
import pymysql

def lambda_handler(event, context):
    db = pymysql.connect(
        host='YOUR RDS ENDPOINT', 
        user='YOUR DATABASE MASTER USERNAME', 
        password='YOUR MASTER PASSWORD'
        )

    cursor = db.cursor()
    
    cursor.execute("select now()")
    result = cursor.fetchone()

    db.commit()
    db.close()
    
    return {
        'statusCode': 200,
        'body': json.dumps(result[0].isoformat())
    }

현재는 db 연결 테스트를 위한 작업으로 로그인이 하드코딩으로 이루어져 있다. 이후에 RDS Proxy를 통해 변경할 예정

Lambda Layer 추가

pymysql 패키지를 추가해줘야...

그 후에 lambda test를 돌려보자("statusCode: 200"이면 성공한 것)

API Gateway 구성

REST API / 새 api
리소스 - 작업 / GET 추가
- lambda func: 위에서 설정했던 lambda 이름
리소스 - 작업 / API 배포: 새 스테이지 - 이름

URL 클릭해보면 아까 lambda에서 테스트 했던 결과와 똑같이 나옴..

lambda 함수 개요로 다시 돌아가보면 api gateway가 트리거로 잡혀있다.

https://github.com/aws-samples/the-evolution-of-aws-serverless-applications/blob/main/module3/README.md

이제 RDS Proxy를 적용해보자!

AWS Secrets Manager 구성

암호는 RDS 생성 시 넣어줬던 비밀번호로 설정해주면 된다.

자동 교체의 경우는 비활성화로 진행한다.(테스트 용이니까)

Secrets Manager를 사용하면 기본적으로 퍼블릭 통신을 통해 DB 크리덴셜을 가져오지만, VPC Endpoints를 사용하면 프라이빗 엔드포인트를 통해 VPC 내의 리소스가 직접 액세스 할 수 있음!

VPC로 돌아가 생성되었던 VPC 선택 후

작업 → DNS 호스트 이름 편집 활성화

VPC Endpoints 설정에는 보안 그룹이 필요하다. Secrets Manager의 경우 Lambda에 접근 가능해야함..

보안그룹: secret-sg / HTTPS - lambda-sg

VPC Endpoints 설정

AWS 서비스 - 위에서 설정했던 Secrets Manager
VPC: 위에서 생성했던 대로.. 서브넷 (secret-subnet-a/c), 보안그룹: secret-sg

RDS Proxy 구성

서버리스에서 사실 RDS를 사용하기엔 어려움이 있다.

(서버리스 아키텍처를 기반으로 구축된 애플리케이션은 DB에 다수의 커넥션을 만들어 max_connections 옵션을 초과하는 에러가 발생하거나 빠른 속도로 DB 커넥션을 여닫아 과도하게 메모리와 컴퓨팅 리소스를 소진할 수도 있음.)

RDS Proxy를 사용할 경우 애플리케이션과 DB 사이의 연결을 풀링하고 공유가 가능해 조금이나마 도움이 될 수 있음!

따라서 lambda와 rds 커넥션을 하고 싶다면 Proxy를 활용해라

MySQL
위에서 생성했던 rds, secrets manager, 서브넷은 rds-subnet-a/c 확인 후 나머지 제거
보안그룹 rds-sg 추가

Lambda 함수 변경

구성 → 권한 → IAM Role 수정

해당 Secrets Manager에 대한 권한을 부여한다.

그 후에 코드 변경

import json
import pymysql
import boto3
import base64
import time
from botocore.exceptions import ClientError

secret_name = "serverless-app-rds-secret"
region_name = "ap-northeast-2"

def get_secret():    
    session = boto3.session.Session()
    client = session.client(
        service_name = 'secretsmanager',
        region_name = region_name
    )

    get_secret_value_response = client.get_secret_value(
        SecretId=secret_name
    )

    if 'SecretString' in get_secret_value_response:
        secret = get_secret_value_response['SecretString']
        return secret
    else:
        decoded_binary_secret = base64.b64decode(get_secret_value_response['SecretBinary'])
        return decoded_binary_secret

def lambda_handler(event, context):
    secret = get_secret()
    json_secret = json.loads(secret)

    db = pymysql.connect(
        host = 'YOUR RDS PROXY ENDPOINT',
        user = json_secret['username'], 
        password = json_secret['password']
        )

    cursor = db.cursor()
    
    cursor.execute("select now()")
    result = cursor.fetchone()

    db.commit()
    
    return {
        'statusCode': 200,
        'body': json.dumps(result[0].isoformat())
    }

해당 RDS Proxy 엔드포인트 쪽만 변경

이제 다 구성했으니 제대로 작동하는지 확인해보자.

API Gateway로 이동해 아까 생성했던 스테이지로 가서 Invoke URL 후 호출해보자
연결하는데 시간이 초과한다는 에러가 나면 lambda 함수 제한 시간을 늘려주자..ㅠ
- 이래서 서버리스는 서버리스끼리 사용하라는 듯..
- 아니면 구성을 다시 한번 되집어 보자...(중간에 엇갈렸었음;;)

부하테스트

사실상 메인 테스트, 내가 하고 싶은 테스트를 진행해볼까 한다!

Cloud9 - 부하테스트 도구 Locust 구성

c5.24xlarge
VPC 변경- cloud9-subnet

pip3 install locust
locust -v

locustfile.py 파일 생성 후 코드 넣어주기(단순히 GET을 통한 테스트)

import time
from locust import HttpUser, task, between

class QuickstartUser(HttpUser):

    @task
    def hello_world(self):
        self.client.get("/")

터미널에 다음 명령어 입력해 실행하기

locust

web interface에서 편하게 진행하기 위해 ec2로 간다.

해당 cloud9 인스턴스에서 보안그룹을 변경해준다.

Custom TCP 8089 / Anywhere

http://public ip:8089를 입력해 Locust web interface에 접속한다.

Number of users: 동시에 실행하는 최대의 Locust user
Spawn rate: 초당 생성하는 Locust user
Host: 부하를 발생할 호스트 - 오늘의 테스트는 API Gateway Endpoint

1차 부하테스트

Number of users: 10000 / Spawn rate: 500 / Host: API Gateway Invoke URL

Lambda 모니터링으로 돌아와 확인해보면, Burst Limit에 도달한 뒤 1분당 500씩 Concurrent executions이 증가하는 것을 볼 수 있다. 최초 스케일링 전 스로틀 발생했다가 Lambda가 스케일링 되면서 해소되는 것을 확인 할 수 있다.

(but, AWS에서 제공하는 기본 Concurrent executions 제한이 1000이여서 스케일링에 대한 부분 확인이 어려울 수 있음)

Lambda 코드 최적화

Lambda의 스로틀링을 회피해야 성능이 좋아질 듯?

그 방법에는

1) Lambda provisioned concurrency를 통해 지정한 갯수 만큼의 실행 환경을 구성해 두는 것

2) 동시성의 최소화를 위해 Lambda 함수의 실행 시간을 최적화 하는 것(얘는 모범 사례 중 하나)

지금 현재의 코드는 lambda_handler() 내에서 get_secret()을 통해 DB 크리덴셜 정보를 읽고 DB와 연결을 맺는 구조로 되어 있음. 이는 Lambda 가 호출될 때마다 고정된 값인 DB 크리덴셜을 읽고 새롭게 DB와 연결하는 구조라 비효율적..

이를 최적화 한다. 의 의미는 실행환경의 재사용성을 극대화 하는 것

현재 Lambda test를 해보면 실행시간이 약 700ms이다.

import json
import pymysql
import boto3
import base64

secret_name = "serverless-app-rds-secret"
region_name = "ap-northeast-2"

def get_secret():    
    session = boto3.session.Session()
    client = session.client(
        service_name = 'secretsmanager',
        region_name = region_name
    )

    get_secret_value_response = client.get_secret_value(
        SecretId=secret_name
    )

    if 'SecretString' in get_secret_value_response:
        secret = get_secret_value_response['SecretString']
        return secret
    else:
        decoded_binary_secret = base64.b64decode(get_secret_value_response['SecretBinary'])
        return decoded_binary_secret

secret = get_secret()
json_secret = json.loads(secret)

db = pymysql.connect(
    host = 'YOUR RDS PROXY ENDPOINT', 
    user = json_secret['username'], 
    password = json_secret['password']
    )

cursor = db.cursor()

def lambda_handler(event, context):
    cursor.execute("select now()")
    result = cursor.fetchone()

    db.commit()
    
    return {
        'statusCode': 200,
        'body': json.dumps(result[0].isoformat())
    }

위 코드와 같이 최적화 후에 테스트 해보면,

실행시간이 약 7ms로 최적화 된 것을 확인할 수 있음!!!

2차 부하테스트

Newtest 클릭!

위의 설정과 같게 돌려보자.

1차 테스트와 비교해보면 코드 최적화 이후 줄어든 Throttles와 Concurrent executions, Duration 등을 확인할 수 있다.

(Lambda 모니터링에서)

❗ 여기에 덧붙일만한 건 X-Ray로 모니터링 추적하는 기능 추가 정도...? 이는 다른 포스팅에 있으니.. 확인하시오!! ❗

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] Step Functions (0)	2022.11.18
[AWS] Spot Fleet (0)	2022.11.16
[AWS] EC2 인스턴스 자동 중지 및 시작 (0)	2022.11.13
[AWS] GPU 인스턴스 Spot Fleet (0)	2022.11.12
[AWS] GPU 인스턴스 유형(EC2) (0)	2022.11.12

일단 방법에 뭐가 있는지 생각해보자.

그냥 단순하게 생각해봤을 떄, 제일 먼저 생각 나는 건 lambda이다.

해당 lambda가 인스턴스를 시작/중지 시킬 수 있을 것이다. 그럼 다음으로 생각해봐야 할 것은 lambda를 누가 호출 할 것이냐인데... 이 기준은 사용자가 정하면 된다. 보통 EventBridge로 스케줄링 한다.

정리해보면 EventBridge가 Lambda를 호출하고 해당 Lambda가 인스턴스를 중지/시작 시켜 줄 것이다.

이를 잘 활용해서 사용하면 원하는 시간대에 자동으로 시작/중지를 할 수 있을 것 같다!

인스턴스 생성

위와 같은 태그를 가진 인스턴스를 생성해준다.

- auto-schedule: True 인 태그를 가진 인스턴스만 스케줄링

Lambda 생성

1) IAM Role과 Policy 생성

Lambda에 EC2 인스턴스 시작 및 종료에 관한 권한이 필요하다.

인라인 정책으로 넣어줬다

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": [
                "ec2:Describe*",
                "ec2:Start*",
                "ec2:Stop*"
            ],
            "Resource": "*"
        }
    ]
}

2) EC2 start 함수 생성

위에서 만들었던 역할로 연결해줘야한다.

import boto3
region = 'ap-northeast-2'
instances = []
ec2_r = boto3.resource('ec2')
ec2 = boto3.client('ec2', region_name=region)

for instance in ec2_r.instances.all():
    for tag in instance.tags:
        if tag['Key'] == 'auto-schedule':
            if tag['Value'] == 'True':
                instances.append(instance.id)

def lambda_handler(event, context):
    ec2.start_instances(InstanceIds=instances)
    print('started your instances: ' + str(instances))

제한 시간을 30초로 변경해준다.

그리고 그냥 아무 테스트 만들어서 돌려준다. 성공 로그 뜨면 완료.

3) EC2 stop 함수 생성

코드만 바뀌고 다른 과정은 위의 EC2 start 함수와 같다.

import boto3
region = 'ap-northeast-2'
instances = []
ec2_r = boto3.resource('ec2')
ec2 = boto3.client('ec2', region_name=region)

for instance in ec2_r.instances.all():
    for tag in instance.tags:
        if tag['Key'] == 'auto-schedule':
            if tag['Value'] == 'True':
                instances.append(instance.id)

def lambda_handler(event, context):
    ec2.stop_instances(InstanceIds=instances)
    print('stopped your instances: ' + str(instances))

해당 ec2가 중지 중인걸 볼 수 있음!

EventBridge 설정

규칙을 원하는대로 설정해서 생성하면 된다.(월-금 오전 9시 - 오후 6시까지 start, 나머지 stop)

이름: auto-ec2-start-rule / auto-ec2-stop-rule
이벤트 버스: 일단은 default로 진행
규칙 유형: 일정 선택
일정 패턴: cron " 0 0 ? * MON-FRI * " / " 0 9 ? * MON-FRI * "

대상: AWS 서비스 - lambda 위에서 생성한 함수 지정

시간은 UTC 기준이니 참고!!(00:00 UTC는 한국 시간으로 오전 9시)

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] Spot Fleet (0)	2022.11.16
[AWS] Lambda와 RDS Proxy (0)	2022.11.14
[AWS] GPU 인스턴스 Spot Fleet (0)	2022.11.12
[AWS] GPU 인스턴스 유형(EC2) (0)	2022.11.12
[AWS] Lambda에 X-Ray 적용하기 (0)	2022.11.06

GPU 인스턴스를 온디맨드로 계속 켜서 사용하기엔 비용이 생각보다 많이 들 것 같다. 따라서 스팟 인스턴스를 요청해서 사용하는게 좋을 것 같은데.. 스팟 인스턴스의 경우 강제 종료 되는 상황이 찾아올 수 있다.

이를 방지하고자 Spot Fleet을 사용해보자.

Spot Fleet

사용자가 지정한 기준에 따라 시작되는 스팟 인스턴스의 집합(선택적 온디맨드 인스턴스 집합)
기본적으로 플릿에서 스팟 인스턴스가 종료된 후 교체 인스턴스를 시작하여 목표 용량을 유지하도록 설정되어 있음
요청 유형:
- request: 일회성 요청, 스팟 중단으로 인해 용량 감소할 때 다른 작업하지 않음
- maintain: 중단된 모든 스팟 인스턴스를 자동으로 보충해 용량 유지
- Maintain target capacity 체크 유무에 따라 갈린다.
온디맨드:
- 항상 인스턴스 용량을 사용할 수 있게 요청에 온디맨드 용량에 대한 요청 포함 가능
- 원하는 목표 용량 및 해당 용량의 몇 %가 온디맨드 용량이어야 하는지 지정

실습 참고: https://aws.amazon.com/ko/blogs/korea/train-deep-learning-models-on-gpus-using-amazon-ec2-spot-instances/

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] Lambda와 RDS Proxy (0)	2022.11.14
[AWS] EC2 인스턴스 자동 중지 및 시작 (0)	2022.11.13
[AWS] GPU 인스턴스 유형(EC2) (0)	2022.11.12
[AWS] Lambda에 X-Ray 적용하기 (0)	2022.11.06
[AWS] Serverless Service - Lambda 편 (3) (0)	2022.11.06

요즘 GPU 인스턴스에 사람들의 관심이 높아져 가고 있다.

그래서 해당 유형들이 뭘 나타내고 어느정도의 사양인지 간단히 정리해보려 한다..

근데 사실 GPU가 뭔지도 제대로 모르고 있다...

GPU가 뭔지 간단하게 알아보면,

- ALU: 산출 연산 처리 장치(연산 담당)

- CU: 컨트롤 유닛(명령어 해석 및 실행)

GPU의 경우 CPU에 비해 월등하게 ALU 개수가 많다. 병렬 처리 방식을 위해 그런 것!

그래서 AI에 많이 사용된다. "AI는 단순 반복 연산을 처리하여 학습하는 특성"을 가지고 있어 병렬 구조로 연산하는 GPU 칩셋이 중요해진다!

그리고 GPU와 다른 리소스 들 사이의 병목 현상을 해결하는게 주요 문제이다.. 아래는 이를 해결할 수 있는 기술들!

(참고: https://www.youtube.com/watch?v=w_CkMjH8tm4 )

GPU Direct RDMA: NIC에 있는 버퍼를 GPU가 바로 읽을 수 있게 해주는 기술
- RDMA(Remote Direct Memory Access): 컴퓨터 간 CPU를 거치지 않고 메모리 끼지 직접 데이터를 주고 받게 하는 기술
GPU P2P: GPU Direct P2P, Memory 까지 다녀오는게 아닌 GPU 메모리 끼리 참조할 수 있도록
- P2P(Peer to Peer): GPU - GPU 간의 사이 연결
GPU Direct Storage 까지..

(참고로 GPU는 CPU와 비슷하지만, 용도가 다를 뿐.. CPU에 비해 더 작고 전문화된 코어로 구성된 프로세서)

(vCPU: 나누기 2를 해야 실제 물리 코어, 스레드라 생각하면 될듯)

일단 AWS는 GPU 인스턴스를 사용하는 유형들을 가속화된 컴퓨팅(Accelerated Computing) 쪽으로 분류한다.

P 유형

P4
- 최신 세대의 GPU 기반 인스턴스, 기계 학습 / 고성능 컴퓨팅 + 최고의 성능
- ENA / EFA:
  - ENA(Elastic Network Adapter): 향상된 네트워킹 제공, 높은 처리량과 PPS(초당 패킷) 성능 높게..
  - EFA(Elastic Fabric Adapter): 추가 OS 우회 기능이 있는 ENA, 대규모 HPC 앱과 같은 높은 수준의 인스턴스 간 통신을 실행할 수 있도록
- NVSwitch: NVLink의 고급 통신 기능을 구축해 더 높은 대역폭과 지연 시간 절감(여러 NVLink 연결)
- NVMe SSD: Non-Volatile Memory, 비휘발성 메모리(RAM과 비슷하지만 다른 점)

P3
- 머신 러닝/딥 러닝, 고성능 컴퓨팅
- NVLink: 높은 대역폭과 향상된 확장성
  - https://www.nvidia.com/ko-kr/data-center/nvlink/

G 유형

G5
- 그래픽 집약적인 애플리케이션, 기계 학습 추론 가속화
- 간단한 기계 학습 모델에서 중간 정도의 복잡한 기계 학습 모델까지 훈련하는데 사용 가능

G5g
- AWS Graviton2 프로세서, 그래픽 워크로드에 대해 EC2에서 최고의 가격 대비 성능 제공

F 유형

FPGA: field programmable gate array, 프로그래머블 반도체 - 용도에 따라 내부 회로를 바꿀 수 있음(GPU와 다름)
- CPU, GPU는 용도가 정해진 주문형 반도체와 다르게 칩 내부를 용도에 따라 바꿀 수 있음
- AI 연산을 하는 GPU의 경우 원래의 용도에서 벗어난다. 이를 보완 가능!(딥러닝 학습, 추론 가능)

❗ 여기에 추가적으로 Trn1 유형 정도 괜찮을 듯 싶다. ❗

(Trn1: AWS Trainium 칩으로 구동, GPU 기반 인스턴스 대비 최대 50% 저렴한 훈련 비용)

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] EC2 인스턴스 자동 중지 및 시작 (0)	2022.11.13
[AWS] GPU 인스턴스 Spot Fleet (0)	2022.11.12
[AWS] Lambda에 X-Ray 적용하기 (0)	2022.11.06
[AWS] Serverless Service - Lambda 편 (3) (0)	2022.11.06
[AWS] Serverless Service - Lambda 편 (2) (0)	2022.11.05

AWS X-Ray

애플리케이션이 제공하는 요청에 대한 데이터를 수집하고 해당 데이터를 보고, 필터링하고, 통찰력을 확보하여 문제와 최적화 기회를 식별하는데 사용할 수 있는 도구를 제공
- 마이크로 서비스 아키텍처, 서버리스 같은 분산 애플리케이션 분석 및 디버깅
- "성능 추적(Tracing) → 트레이스 저장 → 서비스 맵 보기 → 문제 분석 "
장점:
- 애플리케이션의 전반적인 과정을 추적할 수 있다
- 애플리케이션의 문제를 시각적으로 확인이 가능하다
- bottleneck이 어디서 걸리는지 알고 이를 성능 향상으로 이어지게 할 수 있다
X-Ray Daemon:
- Amazon Linux AMI, RHEL, Ubuntu, OS X 및 윈도 서버 설치 가능
- {서버 내부에 X-Ray SDK - (Localhost UDP) - X-Ray Daemon} - (HTTPS) - X-Ray API
비용:
- 프리티어(영구): 100,000개의 트레이스 저장 / 1,000,000개의 스캔 및 검색
- 추가 요금: 1백만 트레이스 저장 당 $5 / 1백만 트레이스 스캔 및 검색 당 $0.5

Trace: 클라이언트 부터 전체 서비스 기록(최대 크기 500KB / 저장 기간 30일)
Segments: 개별 서비스에서 생성된 데이터
Sub-segments: 원격 호출이나 개별 서비스 내 데이터 처리
Annotations: 별도 필터로 추적가능한 사용자 정의 데이터
Metadata: 필터로 추적하지 않는 비즈니스 데이터
Errors: 정규화된 오류 메시지

DynamoDB 테이블 생성

Table name: x-ray-demo
Primary key = id (string)
나머지는 default
create item 을 대충 해주자.

Lambda 함수 생성

Function name= x-ray-demo
Runtime = Node.js 12.x

const AWS = require('aws-sdk')
exports.handler =  function(event, context, callback) {
const dynamodb = new AWS.DynamoDB()
    var params = {
        TableName: 'x-ray-demo'
    }    
    var body
    dynamodb.scan(params, function(err, data) {
        
        if (err) {
            console.log("error")
            console.log(err, err.stack)
            callback(err)
        } else {
            const response = {
                statusCode: 200,
                body: JSON.stringify(data.Items)
            }
            callback(null, response)
        }
    })
}

Lambda 함수를 API Gateway와 연동

Lambda 역할에 DynamoDB의 권한을 추가적으로 부여해주자

후에 API endpoint 클릭하면 DynamoDB의 레코드를 확인할 수 있다.

X-Ray tracing

lambda 설정에서 tracing 활성화

그 다음에 API Endpoint로 여러번 접속한 뒤에 X-Ray 대시보드로 이동해 Service Map과 Traces 확인.

DynamoDB에 대한 정보는 보이지가 않는다..

Lambda Layer

Name = nodejs-xray-sdk
s3 link URL = https://saltware-aws-lab.s3.ap-northeast-2.amazonaws.com/msa/node-xray-sdk.zip

해당 layer를 lambda 함수에 적용해주자

const AWSXRay = require('aws-xray-sdk');
const AWS = AWSXRay.captureAWS(require('aws-sdk'));

exports.handler = function(event, context, callback) {
const dynamodb = new AWS.DynamoDB()
    var params = {
        TableName: 'x-ray-demo'
    }    
    var body
    dynamodb.scan(params, function(err, data) {
        
        if (err) {
            console.log("error")
            console.log(err, err.stack)
            callback(err)
        } else {
            const response = {
                statusCode: 200,
                body: JSON.stringify(data.Items)
            }
            callback(null, response)
        }
    })
}

위의 코드로 Lambda 함수 코드 수정해준다.

(참고로 Layer 생성할 때 썼던 s3 버킷 안의 코드의 경우 아래와 같은 명령어로 생성)

mkdir nodejs
cd nodejs
npm install aws-xray-sdk
zip node-xray-sdk.zip ../nodejs -r

다시 API Endpoint 몇 번 호출하고 X-Ray에서 변경된 사항을 확인해보자.

만약 MySQL 데이터베이스라면 아래와 같은 코드로 정의하고 사용하면 된다..

const mysql = AWSXRay.captureMySQL(require('mysql'))

전체적으로 어렵거나 하는 부분은 없는 느낌..(개인적으로)

이 서비스를 얼마나 어디에 잘 사용하느냐가 중요한듯

서버리스로 구성하는 경우나 그럴 때 찍어서 지연 시간이나 오류 부분 찾는 것도 나쁘지 않은듯...?!

저작자표시 (새창열림)

'Cloud > AWS' 카테고리의 다른 글

[AWS] GPU 인스턴스 Spot Fleet (0)	2022.11.12
[AWS] GPU 인스턴스 유형(EC2) (0)	2022.11.12
[AWS] Serverless Service - Lambda 편 (3) (0)	2022.11.06
[AWS] Serverless Service - Lambda 편 (2) (0)	2022.11.05
[AWS] Serverless Service - Lambda 편 (1) (0)	2022.11.05

글쓰는 감자

Cloud/AWS

[AWS] Spot Fleet

Spot Fleet

'Cloud > AWS' 카테고리의 다른 글

[AWS] Lambda와 RDS Proxy

RDS Proxy

부하테스트

'Cloud > AWS' 카테고리의 다른 글

[AWS] EC2 인스턴스 자동 중지 및 시작

'Cloud > AWS' 카테고리의 다른 글

[AWS] GPU 인스턴스 Spot Fleet

Spot Fleet

'Cloud > AWS' 카테고리의 다른 글

[AWS] GPU 인스턴스 유형(EC2)

P 유형

G 유형

F 유형

'Cloud > AWS' 카테고리의 다른 글

[AWS] Lambda에 X-Ray 적용하기

AWS X-Ray

'Cloud > AWS' 카테고리의 다른 글

+ Recent posts

티스토리툴바