칼퇴하는 개발자

글

라벨이 system-reserved 설정인 게시물 표시

Kubernetes 노드 OOM 발생 시 파드 재스케줄링 문제 해결 로드맵

Kubernetes 노드 OOM 발생 시 파드 재스케줄링 문제 해결 로드맵 AI 생성 이미지: Kubernetes 노드 OOM 발생 시 파드 재스케줄링 문제 해결 문제 정의 — 노드 OOM이 파드 재스케줄링에 미치는 영향 노드 수준 OOM(Out Of Memory)은 한 번의 사건으로 여러 재스케줄링 문제와 연쇄적인 서비스 장애를 촉발할 수 있다. 주요 관찰 지표는 다음과 같다. Evicted — kubelet의 eviction manager가 메모리 압박 시 우선순위가 낮은 파드를 강제 종료해 Evicted 상태로 만든다. CrashLoopBackOff — OOM-killer가 컨테이너 프로세스를 종료하면 파드가 반복 재시작하며 지수적 백오프에 빠진다. Pending — 스케줄러가 다른 노드에서 충분한 메모리를 찾지 못하거나 노드에 taint가 있어 파드를 배치하지 못한다. NotReady — kubelet 장애로 노드가 NotReady 상태가 되면 컨트롤러에 의한 대체·복구 작업이 지연된다. 서비스 영향은 다양하게 나타난다. 요청 처리량이 감소하고 응답 지연이 길어질 수 있다. 세션 또는 캐시 손실이 발생하며, 상태 저장 워크로드는 복구에 시간이 더 걸린다. 파드 재시작으로 인한 트래픽 스파이크와 자동스케일링·헬스체크의 불안정은 부분적 또는 전체 서비스 장애로 이어질 수 있다. 실무 체크리스트 예: Evicted 로그와 노드 메모리 사용량을 우선 확인하고, 필요 시 QoS/Requests/Limits을 조정하거나 노드를 증설해 대응하라. 이러한 점검은 Kubernetes 노드 OOM 발생 시 파드 재스케줄링 문제 해결에 직접적으로 도움이 된다. 근본 원인 분석 — 노드 메모리 고갈의 주요 원인 노드 OOM 원인을 빠르게 파악하려면 애플리케이션, 스케줄링·리소스 설정, 시스템(데몬·커널)의 세 가지 관점에서 접근하세요. 애플리케이션 메모리 누수 : 특정 파드의 메모리 사용량이 시간이 지날수록 점진적으...