기본 콘텐츠로 건너뛰기

라벨이 온디맨드 폴백 전략인 게시물 표시

EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴과 대응 가이드

EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴과 대응 가이드 AI 생성 이미지: EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴 문제 정의 — 스팟 인스턴스 중단이 배포에 미치는 영향 스팟 인스턴스의 갑작스러운 중단은 배포 과정에 여러 문제를 유발합니다. 전형적인 영향은 롤아웃 중단, 서비스 가용성 저하, 상태 일관성 붕괴로 정리할 수 있습니다. 이 글은 특히 EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴을 중심으로 문제를 정리합니다. 실무 체크리스트 예: 레디니스·라이브니스 프로브와 재시작 정책 점검, 세션·캐시의 외부화, 로컬 볼륨 백업·복구 절차 확인. 롤아웃 중단: 노드 손실로 Deployment·DaemonSet·StatefulSet이 목표 복제 수를 유지하지 못하면 캔리·블루그린 배포가 일부만 적용되거나 배포가 중단되고 자동 롤백이 발생할 수 있다. 가용성 저하: 노드 감소는 처리 용량을 낮춰 응답 지연과 5xx 오류, 타임아웃 증가로 이어진다. 동시에 서비스 디스커버리 플랩과 오토스케일링의 과도한 반응을 촉발할 수 있다. 상태 일관성 문제: 리더 선출·세션·캐시·로컬 볼륨에 저장된 임시 상태가 손실되면 중복 처리나 데이터 불일치, 트랜잭션 실패가 발생한다. 쿠버네티스가 이를 보정하려 재스케줄링을 반복하면서 컨트롤플레인의 조정이 잦아진다. 스팟 인스턴스 동작 특성 — 중단 신호와 시간적 제약 스팟 인스턴스는 비용 효율적이지만 운영상 몇 가지 중요한 제약을 가집니다. 가장 대표적인 것은 중단 통지입니다. AWS는 일반적으로 인스턴스 종료 약 2분 전에 IMDS의 instance-action 엔드포인트로 알림을 전송합니다. 이 짧은 시간 창은 파드 드레인이나 재스케줄링, 롤링 업데이트 완료, 긴 이미지 풀링 같은 작업을 마치기에 부족할 수 있습니다. 따라서 EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴을 고려해 대비책을 마련해야 합니다. 용량 변동성: 가용성은 AZ, 인스턴스 유형, ...