칼퇴하는 개발자

글

라벨이 kubelet eviction 튜닝인 게시물 표시

Kubernetes 노드 OOM 반복 발생 — 원인 분석과 실무적 방지책

Kubernetes 노드 OOM 반복 발생 — 원인 분석과 실무적 방지책 AI 생성 이미지: Kubernetes 노드 OOM 반복 발생 원인과 방지책 문제 정의 — 노드 OOM이 반복 발생하면 어떤 문제가 생기는가 노드 수준에서 OOM(Out Of Memory)이 반복되면 단순한 메모리 누수를 넘어 심각한 운영 리스크로 이어진다. 커널의 OOM killer가 작동하고, kubelet이 강제로 파드를 퇴거시키며 파드 재시작과 CrashLoopBackOff가 잦아진다. 이로 인해 서비스 가용성과 데이터 일관성이 즉시 악화된다. 이후 섹션에서는 Kubernetes 노드 OOM 반복 발생 원인과 방지책을 중심으로 해결 방안을 제시한다. 증상: 커널 로그의 OOM 메시지, kubelet 이벤트의 "Evicted"/"OOMKilled" 기록, 파드 재스케줄링 빈도 상승, 노드의 NodeNotReady 상태 증가 직접 영향: 인메모리 캐시나 세션 등 임시 상태 손실로 데이터 일관성이 흔들리고, 그 결과 요청 실패와 응답 지연이 늘어난다. 운영 영향: 스케줄링 혼잡과 리소스 파편화가 발생한다. HPA나 클러스터 오토스케일러가 의도와 다르게 동작할 수 있고, 모니터링·알람의 폭주로 관제 피로가 커진다. 성능 영향: 가비지 컬렉션과(스왑 사용 시) 스왑 활동 증가로 I/O 대기와 전체 서비스 레이턴시가 악화된다. 실무 체크리스트: 파드별 메모리 요청·한계 확인, 노드별 OOM 발생률 수집 및 추세 분석, 문제 재현 시 메모리 프로파일링 우선 수행 OOM 내부 메커니즘 — Linux OOM killer와 K8s Eviction의 차이 Linux 커널의 OOM killer는 시스템 전체 메모리와 스왑이 고갈될 때 커널이 프로세스를 강제 종료해 시스템을 구하는 마지막 수단입니다. 선택 기준은 프로세스의 메모리 사용량, 우선순위 등 여러 휴리스틱을 따릅니다. kubelet과는 독립적으로 동작하므로 갑작스럽고...

대규모 쿠버네티스 스케줄링 성능 튜닝 체크리스트

대규모 쿠버네티스 스케줄링 성능 튜닝 체크리스트 AI 생성 이미지: 대규모 쿠버네티스 스케줄링 성능 튜닝 체크리스트 문제 정의 — 대규모 환경에서 스케줄링 병목이란 무엇인가 스케줄링 병목은 클러스터에서 파드가 제때 노드에 할당되지 못하는 상황을 말한다. 단기적으로는 지연(latency)이 증가하고, 중기적으로는 스케줄링 실패(타임아웃이나 바인드 오류)가 잦아진다. 장기적으로는 Pending 파드가 누적되어 백로그가 형성된다. 결과적으로 사용자 요청 지연, 롤아웃 지체, 자원 불균형, 재시도 폭주 같은 문제가 관찰된다. 주요 증상: 스케줄러 대기시간 증가로 인한 지연, 타임아웃 또는 반복 바인딩 오류에 따른 스케줄링 실패, 그리고 Pending 파드의 축적(백로그) 원인군: 컨트롤플레인: kube-scheduler의 CPU·메모리 포화, API 서버의 QPS 제한 및 watch 지연, etcd 응답 지연 노드: kubelet 응답 지연이나 불안정한 노드 상태, 리소스 사용 보고 지연, 네트워크 패킷 손실 워크로드: 대량 파드 동시 생성, 복잡한 affinity/taint/toleration 규칙, 초기화 단계가 긴(init-heavy) 컨테이너 스케일 영향 요약: 노드와 파드 수가 늘어나면 스케줄러 처리량(pods/sec)과 API 서버가 병목점이 된다. 이로 인해 watch/reflector의 재시도와 큐잉 지연이 급증하며 전체 반응성이 떨어진다. 실무 체크리스트 예: 먼저 kube-scheduler와 API 서버의 CPU 사용량, 큐 길이, watch 지연을 확인하고, 대량 파드 생성 테스트로 처리량 한계를 측정한다. 필요하다면 스케줄러 튜닝 또는 리밸런싱 전략을 적용해 병목을 완화한다. (대규모 쿠버네티스 스케줄링 성능 튜닝 체크리스트로 활용할 수 있다) 측정과 관찰성 확보 — 어떤 메트릭과 로그를 봐야 하는가 대규모 스케줄링 문제는 핵심 지표와 로그를 구조적으...