칼퇴하는 개발자

글

라벨이 Capacity Rebalance 권고인 게시물 표시

EC2 스팟 재할당으로 인한 서비스 중단 대응 자동화 설계 가이드

EC2 스팟 재할당으로 인한 서비스 중단 대응 자동화 설계 가이드 AI 생성 이미지: EC2 스팟 재할당으로 인한 서비스 중단 대응 자동화 문제 정의 — 스팟 재할당이 왜 서비스 중단으로 이어지는가 EC2 스팟 인스턴스는 클라우드의 잉여 용량을 저비용으로 활용하게 해 주지만, AWS가 용량 필요 시 약 2분 전 통지 후 인스턴스를 회수합니다. 재할당 빈도는 리전·인스턴스 타입·수요에 따라 급변해 예측이 어렵습니다. 즉시 종료는 활성 연결 손실, 진행 중인 트랜잭션 중단, 캐시 유실, 배치 작업 실패 등으로 이어져 비즈니스에 직접적인 영향을 줍니다. 실무 체크리스트(예): 핵심 서비스의 상태 유지 여부 확인, 자동 페일오버·세션 복구 방안 마련, 중요 작업의 상태 저장 또는 중단 지점 기록, 모니터링·알림 정책 수립. 계획 수립 시 EC2 스팟 재할당으로 인한 서비스 중단 대응 자동화도 함께 고려하세요. 상태 유지형 서비스(Stateful): 세션·디스크·리더 파티션에 직접적인 영향이 발생합니다. 데이터 일관성 유지와 리더 선출, 재동기화 비용이 늘어나며 장애 복구의 복잡도와 복구 시간(RTO)이 상승합니다. 무상태 서비스(Stateless): 새 인스턴스를 기동하고 로드밸런서가 트래픽을 재분배하면 대체가 가능하지만, 콜드 스타트와 스케일링 지연으로 서비스 품질이 떨어질 수 있습니다. 이로 인해 장애가 확산될 위험도 있습니다. 스팟 동작 원리와 알림 메커니즘 이해하기 스팟 인스턴스는 AWS가 여유 용량을 회수할 때 중단(interruption) 또는 재할당(rebalance) 신호를 보냅니다. 이를 알리는 경로는 주로 두 가지로 나뉩니다. 인스턴스 메타데이터(IMDS) : 로컬의 메타데이터 경로(예: /latest/meta-data/spot/termination-time 또는 instance-action)에서 중단·재할당 타임스탬프를 확인합니다. 일반적으로 약 2분 내외의 짧은 경고를 제공합니다. EventBridge...