EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴과 대응 가이드 AI 생성 이미지: EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴 문제 정의 — 스팟 인스턴스 중단이 배포에 미치는 영향 스팟 인스턴스의 갑작스러운 중단은 배포 과정에 여러 문제를 유발합니다. 전형적인 영향은 롤아웃 중단, 서비스 가용성 저하, 상태 일관성 붕괴로 정리할 수 있습니다. 이 글은 특히 EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴을 중심으로 문제를 정리합니다. 실무 체크리스트 예: 레디니스·라이브니스 프로브와 재시작 정책 점검, 세션·캐시의 외부화, 로컬 볼륨 백업·복구 절차 확인. 롤아웃 중단: 노드 손실로 Deployment·DaemonSet·StatefulSet이 목표 복제 수를 유지하지 못하면 캔리·블루그린 배포가 일부만 적용되거나 배포가 중단되고 자동 롤백이 발생할 수 있다. 가용성 저하: 노드 감소는 처리 용량을 낮춰 응답 지연과 5xx 오류, 타임아웃 증가로 이어진다. 동시에 서비스 디스커버리 플랩과 오토스케일링의 과도한 반응을 촉발할 수 있다. 상태 일관성 문제: 리더 선출·세션·캐시·로컬 볼륨에 저장된 임시 상태가 손실되면 중복 처리나 데이터 불일치, 트랜잭션 실패가 발생한다. 쿠버네티스가 이를 보정하려 재스케줄링을 반복하면서 컨트롤플레인의 조정이 잦아진다. 스팟 인스턴스 동작 특성 — 중단 신호와 시간적 제약 스팟 인스턴스는 비용 효율적이지만 운영상 몇 가지 중요한 제약을 가집니다. 가장 대표적인 것은 중단 통지입니다. AWS는 일반적으로 인스턴스 종료 약 2분 전에 IMDS의 instance-action 엔드포인트로 알림을 전송합니다. 이 짧은 시간 창은 파드 드레인이나 재스케줄링, 롤링 업데이트 완료, 긴 이미지 풀링 같은 작업을 마치기에 부족할 수 있습니다. 따라서 EC2 스팟 인스턴스 중단으로 인한 배포 실패 패턴을 고려해 대비책을 마련해야 합니다. 용량 변동성: 가용성은 AZ, 인스턴스 유형, ...