칼퇴하는 개발자

글

Kubernetes 노드 리소스 폭주 시 OOM/Kill 원인 분석 및 대응 가이드

Kubernetes 노드 리소스 폭주 시 OOM/Kill 원인 분석 및 대응 가이드 증상 정의 — 노드 리소스 폭주와 OOM/Kill이란 무엇인가 노드 리소스 폭주는 주로 메모리나 디스크(특히 /var/lib/kubelet) 부족 때문에 커널 또는 kubelet이 프로세스를 강제 종료하는 상황을 뜻합니다. 커널의 OOM(Out‑Of‑Memory)과 Kubernetes 차원의 Eviction/Pod Kill은 밀접하게 연결됩니다. 다음은 흔히 관찰되는 주요 증상입니다. 실무 체크리스트(예): ① 메모리·디스크 사용량 확인 ② kubelet의 eviction threshold 및 이벤트 점검 ③ dmesg/커널 로그 확인. Kubernetes 노드 리소스 폭주 시 OOM/Kill 원인 분석에서는 우선 이 항목들을 점검하세요. Pod 상태: kubectl get pod의 containerStatuses에 "OOMKilled"로 표시되거나, Pod 이벤트에 "Evicted" 또는 "OOMKilled"가 기록됨 커널 로그: dmesg나 /var/log/kern.log에 "Out of memory" 메시지, "Killed process <pid> (<name>)" 또는 oom_score 관련 정보가 남음 kubelet 이벤트/로그: eviction manager에서 "eviction signal" 또는 "threshold met" 경고가 발생하고, 이벤트에 MemoryPressure나 NodeHasDiskPressure가 표시됨 노드 상태 변화: kubectl describe node에서 MemoryPressure나 DiskPressure 조건이 활성화되고, 컨테이너가 반복적으로 재시작하거나 OOM 재시작 루프가 발생함 데이터 수집과 가설 수립 — 어느 항목을, 어떤 시간 범위로 확인할까 ...

Firebase 인증 토큰 만료로 인한 모바일 로그인 장애 대응 가이드

Firebase 인증 토큰 만료로 인한 모바일 로그인 장애 대응 가이드 AI 생성 이미지: Firebase 인증 토큰 만료로 인한 모바일 로그인 장애 대응 사건 개요 — 어떤 증상과 범위로 서비스가 영향을 받았는가 모바일 클라이언트에서 Firebase 인증 토큰 만료로 인한 로그인 장애가 발생했습니다. 주요 증상은 로그인 시 즉시 실패하며, 서버가 401 또는 "invalid-token" 오류를 반환하는 것입니다. 클라이언트의 토큰 재발급(토큰 리프레시) 루틴도 반복해서 실패해 사용자가 재로그인 화면으로 강제 전환되었습니다. 일부 화면에서는 "세션 만료" 메시지가 표시되었고, 프로필·주문·푸시 등록 등 인증이 필요한 모든 API 호출이 인증 오류로 차단되었습니다. 영향 앱/버전: Android 3.2.1–3.4.0(주요 사용 비중 약 48%), iOS 4.0.0–4.1.3(약 36%) 유저 비율(장애 시간 기준): 전체 활성 사용자 중 약 12%가 로그인 불가를 보고했으며, 해당 집단의 로그인 시도 중 약 60%가 401 또는 "invalid-token" 응답을 받았습니다 영향 범위: 인증이 필요한 모든 기능 접근 불가(인증 헤더 기반 API 전면). 재시도/백오프 로직으로는 일시적으로 회복되지 않았습니다. 실무 체크리스트(예): 리프레시 토큰 상태 확인, 서버 시간 동기화 여부 점검, 인증 서버의 키·인증서 만료 확인 원인 분석 — ID 토큰·리프레시 토큰·SDK 동작의 차이를 이해하기 Firebase 인증에서 ID 토큰은 기본 만료 시간 1시간의 JWT로 발급되며, 클라이언트가 API 호출 시 사용합니다. 리프레시 토큰은 장기간 유효하며, 필요할 때 ID 토큰을 재발급하는 용도입니다. 재발급 흐름은 서버와 클라이언트에서 다르게 동작하므로 구현 방식에 따라 처리 방식이 달라집니다. 토큰 수명: ID 토큰(exp)은 단기간, 리프레시 토큰은 장기간입니다. 리프레시...

GCP 서비스 계정 키 누출 탐지 및 권한 축소 절차

GCP 서비스 계정 키 누출 탐지 및 권한 축소 절차 AI 생성 이미지: GCP 서비스 계정 키 누출 탐지 및 권한 축소 절차 문제 정의 — GCP 서비스 계정 키 누출이 가져오는 위험과 대표적 유출 경로 GCP 서비스 계정 키(JSON 등)가 유출되면 무단 접근, 권한 상승, 내부 리소스 횡적 이동, 민감 데이터 유출과 비용 악용(불필요한 인스턴스·네트워크 사용) 등 즉각적이고 지속적인 위험이 발생합니다. 공격자는 유출된 키로 API를 호출하고 IAM을 변경하며 데이터를 내려받는 등 자동화된 방식으로 피해를 확산시킬 수 있습니다. 특히 유효 기간이 긴 키는 탐지와 차단이 어려워 로그에 흔적이 남지 않는 경우도 많습니다. 따라서 신속한 식별, 키 회수와 권한 축소가 필수입니다. 실무 체크리스트 예: 의심 키 식별 → 즉시 비활성화 → 관련 역할 최소화 → 새 키 발급 및 서비스 교체 → 영향 범위 조사·로그 보존. 필요 시 GCP 서비스 계정 키 누출 탐지 및 권한 축소 절차를 즉시 시행하세요. 코드에 하드코딩된 키 또는 환경 설정·리소스 템플릿 같은 설정 파일 깃 리포지토리의 커밋·포크 이력(공개·비공개 모두 해당) GCS 버킷이나 공유 문서에 포함된 키 CI/CD 파이프라인의 로그, 환경 변수 또는 빌드 아티팩트에서의 노출 컨테이너 이미지·VM 스냅샷, 외부 통합·서드파티 서비스 설정 탐지 전략 — 로그·이상행동·서명 기반으로 누출 징후 파악하기 Cloud Audit Logs, VPC Flow, Stackdriver(Cloud Monitoring) 지표를 SIEM과 연계해 시그니처·이상행동·상태 기반 탐지를 통합한다. 주목할 핵심 지표로는 서비스 계정 키의 생성·삭제 및 impersonation 이벤트, API 호출량 급증, 동일 키의 복수 지역 접속, 비업무 시간 토큰 사용, 오류율 또는 권한 거부 증가 등이 있다. 이 접근법은 GCP 서비스 계정 키 누출 탐지 및 권한 축소 절차와 연계해 활용할 수 있다....

IAM 권한 변경으로 인한 서비스 접근 장애: 대응·복구·예방 가이드

IAM 권한 변경으로 인한 서비스 접근 장애: 대응·복구·예방 가이드 AI 생성 이미지: IAM 권한 변경으로 인한 서비스 접근 장애 대응 문제 정의 — IAM 권한 변경이 서비스에 미치는 영향 IAM 권한 변경(권한 제거·제한·오타 등)은 인증·인가 실패로 곧바로 서비스 접근 장애를 일으킵니다. 대표적 증상으로는 401·403 응답 증가, API 호출 실패와 재시도 폭증, 그리고 서비스 간의 연쇄 장애가 있습니다. 권한 문제가 단순 호출 차단을 넘어서 로깅·모니터링·배치 작업 권한까지 영향을 미치면 문제 탐지와 복구가 더 늦어집니다. 실무 체크리스트: ① 변경 전 권한 영향 범위 리뷰 및 테스트, ② 권한 배포 시 점진 적용과 모니터링 집중, ③ 문제 발생 시 신속한 롤백·복구 절차 마련. 특히 IAM 권한 변경으로 인한 서비스 접근 장애 대응 관점에서 위 항목들을 우선 점검하세요. 인증/인가 오류: 역할·정책 누락이나 오타로 토큰 발급·검증이 실패 → 클라이언트 401/403 응답 증가 API/서비스 호출 실패: 마이크로서비스 간 원격 호출이 차단되어 트랜잭션 중단, 타임아웃·재시도 증가 비동기·배치 영향: 큐 소비자나 스케줄러 권한 부족으로 처리 지연이 누적 운영·모니터링 영향: 로그·메트릭 전송 실패로 장애 탐지·복구가 지연 탐지와 알림 — 접근 장애를 신속히 인지하는 방법 권한 변경으로 인한 접근 실패는 서비스 전체 가용성에 직접적인 영향을 줍니다. 따라서 지표·합성 테스트·로그 기반의 탐지 체계를 갖춰 조기에 포착해야 합니다. 특히 IAM 권한 변경으로 인한 서비스 접근 장애 대응에서는 탐지부터 알림까지의 흐름을 명확히 정의해 두세요. 권한 관련 에러 지표 — HTTP 401/403, 클라우드 SDK 오류 코드(AccessDenied, Unauthorized), 그리고 principal별 거부 카운트를 메트릭으로 수집합니다. 평소 대비 급증하면 즉시 경보를 발생시키세요. 합성 테스트 — 핵심 API와 작업...

CloudFront 오리진 실패 시 캐시 히트에 미치는 영향과 운영 전략

CloudFront 오리진 실패 시 캐시 히트에 미치는 영향과 운영 전략 AI 생성 이미지: CloudFront 오리진 실패시 캐시 히트 영향 분석 문제 정의 — 오리진 실패가 캐시 히트에 미치는 영향 CloudFront는 먼저 엣지에서 콘텐츠 존재 여부를 확인(캐시 조회)하고, 캐시 히트라면 오리진을 호출하지 않고 바로 응답한다. 그래서 유효한 캐시가 있으면 오리진 장애가 즉시 캐시 히트에 영향을 주지 않는다. 반면 캐시 미스나 TTL 만료 시에는 엣지가 오리진에 요청을 보내며, 이때 오리진 실패는 캐시 히트/미스 통계와 사용자 경험에 여러 방식으로 영향을 준다. 이 글은 CloudFront 오리진 실패시 캐시 히트 영향 분석 관점에서 정리한 내용이다. 오리진 그룹/페일오버: 보조 오리진으로 재시도하면 캐시 미스 상태는 유지된다. 대신 재시도를 통해 최종 응답의 성공률을 개선할 수 있다. 에러 캐싱(Error Caching Minimum TTL): 5xx 응답을 캐시하면 이후 요청은 '히트'로 기록되지만 실제로는 에러가 반환된다. 따라서 캐시 히트율은 올라가더라도 정상 트래픽은 줄어드는 역설이 발생할 수 있다. 만료된 스테일 콘텐츠: CloudFront는 기본적으로 만료된 객체를 자동으로 제공하지 않는다. 만료된 항목이 많을수록 오리진 장애 시 캐시 미스와 실패 응답이 늘어난다. 메트릭 해석 주의: 장애 기간에 캐시 히트율 상승이 관찰되더라도 서비스 정상화의 증거로 보지 말아야 한다. 에러 응답 캐싱 여부와 성공률 지표를 함께 확인해 해석해야 한다. 실무 체크리스트 예: Error Caching 설정(최소 TTL) 검토, 오리진 그룹 페일오버 동작 시뮬레이션, TTL 정책 재검토, CloudFront·오리진 로그 및 모니터링 알람 점검을 수행한다. CloudFront의 기본 캐싱 동작과 에러 캐시 규칙 요약 CloudFront는 기본적으로 오리진의 Cache-Control/Expires 헤더를 우...

EC2 비용 급증 원인 진단과 태그 기반 추적 실무 가이드

EC2 비용 급증 원인 진단과 태그 기반 추적 실무 가이드 AI 생성 이미지: EC2 비용 급증 원인 진단과 태그 기반 추적 방법 문제 정의 — EC2 비용이 갑자기 늘어났을 때 먼저 확인할 항목 우선 '언제' 늘었는지, '어디서' 늘었는지, 그리고 비즈니스에 미치는 영향을 명확히 규정하세요. 시간 범위를 고정하고 관련 계정·리전·인스턴스 타입·태그로 조사 범위를 좁힙니다. 비용 데이터(Billing/Cost Explorer)와 사용량 지표(CloudWatch/Cost and Usage Report)는 차이가 날 수 있으니 동시에 비교해야 합니다. 이 절차는 EC2 비용 급증 원인 진단과 태그 기반 추적 방법의 핵심 단계입니다. 증가 시점 — 최초 탐지 시점과 그 전후 24~72시간의 패턴을 확인합니다. 범위 식별 — 계정·조직, 리전·AZ, 인스턴스 타입, Auto Scaling 그룹, 태그 단위로 집계해 이상 징후가 집중된 곳을 찾습니다. 비즈니스 영향 — 예산 초과 여부, SLA 위반 가능성, 핵심 서비스 영향 등을 빠르게 판단합니다. 청구 vs 사용량 — 예약·스팟·AMI·마켓플레이스 등 청구 항목과 실제 인스턴스의 사용시간, I/O, 네트워크 사용량을 대조하세요. 실무 체크리스트 — 태그 누락 또는 변경, Auto Scaling 정책 변경, 최근 배포나 스케줄된 작업 여부를 우선 확인합니다. 데이터 수집 — 진단에 필요한 청구·모니터링·로그 소스 확보 방법 비용 급증 원인 분석에서 가장 먼저 할 일은 신뢰할 수 있는 데이터 파이프라인을 확보하는 것입니다. 필수 소스는 AWS Cost & Usage Report(CUR, S3에 일별/시간별 저장, 리소스 ID 포함), Cost Explorer(추세와 이상치 탐지), CloudWatch(인스턴스별 CPU·네트워크·EBS 지표와 커스텀 메트릭), CloudTrail(API 호출·권한 변경 기록), VPC Flow Log...

Firebase 보안룰로 인한 403 권한 거부 사례 분석

Firebase 보안룰로 인한 403 권한 거부 사례 분석 AI 생성 이미지: Firebase 보안룰로 인한 403 권한 거부 사례 분석 문제 개요 — Firebase에서의 403 권한 거부가 미치는 영향 Firebase 보안룰 때문에 클라이언트 요청이 403 Forbidden으로 응답할 때는 보통 인증 실패, 규칙 불일치, 또는 경계 조건 미처리에서 비롯됩니다. 흔한 증상으로는 API 호출의 즉시 실패, 특정 필드나 컬렉션 접근 차단, 그리고 Storage 업로드·다운로드 불가 등이 반복적으로 나타납니다. 간단히 말하면, 이 글은 Firebase 보안룰로 인한 403 권한 거부 사례 분석을 통해 원인 규명과 우선 대응책을 제시합니다. 403 증상: 인증 토큰의 유효성 문제, 규칙 조건 미충족, 또는 경로별 권한 누락 등으로 인해 일관되게 403 응답이 반환됩니다. 사용자 영향: 읽기·쓰기 실패로 기능이 멈추고 데이터 동기화가 깨질 수 있습니다. UI에 에러가 표시되면 사용자 혼란과 이탈로 이어질 가능성이 큽니다. 서비스·운영 리스크: SLO·가용성 저하, 모니터링 알람의 폭주, 고객지원 부담 증가가 뒤따릅니다. 또한 규칙 수정이나 배포 롤백 시 의도치 않은 부작용이 발생할 수 있습니다. 실무 체크리스트: 토큰 만료 확인 → 규칙 시뮬레이터로 검증 → 거부 로그에서 경로·필드 확인. Firebase 보안룰과 인증·권한의 핵심 개념 정리 Firebase 보안룰은 인증(authentication)과 권한(authorization)을 별도로 평가합니다. 클라이언트 요청에서 핵심 변수는 request.auth이며, request.auth.uid로 사용자를 식별합니다. 역할과 권한 판정은 request.auth.token이나 custom claims로 이루어집니다. custom claims는 ID 토큰에 포함되어 전달되므로 변경 후에는 토큰을 갱신해야 변경 사항이 적용됩니다. Firestore: 규칙에서 request.resource.da...

AWS 계정별 비용 이상 탐지와 원인 규명 워크플로 (실무 가이드)

AWS 계정별 비용 이상 탐지와 원인 규명 워크플로 (실무 가이드) AI 생성 이미지: AWS 계정별 비용 이상 탐지와 원인 규명 워크플로 문제 정의 — 계정별 비용 이상이 왜 중요한가 AWS 멀티계정 모델에서 계정은 소유권, 권한, 비용의 경계를 의미한다. 계정 단위의 비용 이상은 단순한 예산 초과를 넘어 구성 오류, 무한 루프성 작업, 자동화 실패, 심지어 권한 탈취와 같은 보안 사고의 전조일 수 있다. 조직을 통합 청구(consolidated billing)로 묶으면 총비용 관리는 쉬워지지만, 그만큼 개별 계정의 이상 징후가 묻혀 탐지와 책임 규명이 늦어지는 문제가 발생한다. 리스크 관점: 계정별 이상을 조기에 식별하면 블라스트 레디우스(영향 범위)를 제한하고, 빠른 차단과 복구로 비용 및 보안 피해를 줄일 수 있다. 운영 관점: 소유자 통지 체계, 청구(Showback/Chargeback) 절차, 태그와 리소스 정합성 점검 같은 운영 프로세스 정비가 필요하다. 가시성 과제: 통합 청구 구조, 태그 불일치, 교차계정 활동 로그 추적의 어려움이 원인 규명을 복잡하게 만든다. 따라서 이 문서에서 다루는 AWS 계정별 비용 이상 탐지와 원인 규명 워크플로는 정상 비용의 기준(베이스라인) 설정, 실시간 이상 탐지, 계정 소유자 연계 알림, 그리고 CUR/Cost Explorer와 CloudTrail 기반의 조사 워크플로를 전제로 설계되어야 한다. 실무 체크리스트 예: 1) 베이스라인 주기와 방법 정의, 2) 이상 임계값 및 알림 정책 수립, 3) 알림 시 오케스트레이션(차단·롤백) 연동, 4) 조사용 템플릿(CUR/CloudTrail 조회 절차) 마련. 데이터 소스와 계측 설계 — 무엇을 수집해야 하는가 비용 이상을 탐지하고 원인을 규명하려면 표준화된 원천 데이터가 필요합니다. 이는 AWS 계정별 비용 이상 탐지와 원인 규명 워크플로에 직접 연결됩니다. 핵심 데이터는 비용·사용량 정보(CUR/Cost Explorer), 리...

MySQL 복제 지연으로 인한 SLO 위배 — 탐지, 긴급복구와 예방 가이드

MySQL 복제 지연으로 인한 SLO 위배 — 탐지, 긴급복구와 예방 가이드 AI 생성 이미지: MySQL 복제 지연으로 인한 SLO 위배와 복구 절차 문제 정의 — 복제 지연이 SLO에 미치는 영향 복제 지연(replication lag)은 마스터에서 커밋된 트랜잭션이 레플리카에 적용되기까지 걸리는 시간(초 단위)을 말한다. 네트워크 지연, 디스크 I/O 병목, 긴 트랜잭션 또는 복제 스레드의 정지 등이 원인이 된다. 이러한 지연은 SLO의 핵심 품질 지표에 직접적인 영향을 준다. 읽기 일관성 : 레플리카에서의 읽기가 지연되면 스태일 데이터가 반환되어 세션 일관성이나 읽기 신선도 같은 일관성 SLO를 위반할 수 있다. 가용성 : 다수의 레플리카가 지연되면 읽기 처리 용량이 감소한다. 자동·수동 페일오버 시 스태일 복제본이 승격되면 데이터 손실이나 롤백 가능성으로 가용성·무결성 SLO를 침해할 수 있다. 복구 시간(RTO) 및 데이터 손실(RPO) : 복구 시 레플리카의 미적용 로그를 재적용하거나 재생성해야 해 RTO가 늘어난다. 지연이 크면 RPO 목표를 초과할 위험도 커진다. 운영상 핵심 지표는 seconds_behind_master(또는 replica_lag), relay_log 및 SQL 스레드 상태다. 이들 지표를 지속적으로 모니터링해 SLO 기준치를 초과하기 전에 조기에 탐지해야 한다. 실무 체크리스트: 모니터링 임계값 설정, 알람 채널 정의, 복제 스레드 재시작 및 로그 재적용 절차를 문서화해 두자. MySQL 복제 지연으로 인한 SLO 위배와 복구 절차를 설계할 때 이 항목들을 우선 고려하면 대응 속도가 빨라진다. SLO와 지표 맵핑 — 언제 경보를 울릴 것인가 복제 지연 SLO를 관련 메트릭에 직접 연결해 경보 기준과 에러 버짓 소모를 계량화한다. 핵심 지표는 Seconds_Behind_Master(미디어 서버), replica_lag_seconds(Prometheus), 그리고 IO/SQL 스레드 상태와...

CORS·JWT 조합으로 발생하는 401/403 원인별 해결 가이드

CORS·JWT 조합으로 발생하는 401/403 원인별 해결 가이드 AI 생성 이미지: CORS·JWT 조합으로 발생하는 401/403 원인별 해결 문제 정의 — CORS와 JWT가 맞닿을 때 401/403이 발생하는 이유 브라우저의 동일출처 정책과 서버의 JWT 인증 흐름이 만나는 지점에서는 주로 세 가지 계층에서 문제가 생깁니다. 첫째, CORS 사전검사(OPTIONS)가 올바르게 처리되지 않으면 요청이 서버에 도달하지 못하고 브라우저가 네트워크·보안 오류로 간주합니다. 설사 서버가 응답을 반환해도 자바스크립트에서 접근할 수 없습니다. 둘째, Authorization 헤더나 쿠키를 보내려면 서버가 Access-Control-Allow-Headers에 Authorization을 포함해야 하고, 자격증명 전송 시에는 Access-Control-Allow-Credentials: true와 명시적 Origin 설정이 필요합니다 — 와일드카드는 쓸 수 없습니다. 셋째, 요청이 서버까지 도달하더라도 JWT가 누락되거나 만료·변조된 경우 401을, 권한이 부족하면 403을 반환합니다. 즉 동일한 클라이언트 오류라도 원인은 프리플라이트(CORS) 설정, 클라이언트 전송 방식, 또는 서버의 인증·권한 검사 중 어느 쪽인지로 나뉩니다. CORS·JWT 조합으로 발생하는 401/403 원인별 해결을 빠르게 진단하려면 아래 실무 체크리스트를 참고하세요: ① 프리플라이트(OPTIONS) 응답 존재 확인 ② Access-Control-Allow-Headers에 Authorization 포함 여부 확인 ③ Allow-Credentials와 Origin 일치 여부 확인 ④ 서버에서 JWT 유효성 및 권한 검증 수행. 표시 단서: 브라우저 콘솔에 표시되는 CORS 오류는 보통 클라이언트·서버 간 설정 문제를 가리킵니다. 반면 네트워크 탭에서 401 또는 403 응답이 보이면 서버의 인증·권한 검증 실패일 가능성이 큽니다. 오류 원인 요약: Access-Control-...