칼퇴하는 개발자

글

CORS·JWT 조합으로 발생하는 401/403 원인별 해결 가이드

CORS·JWT 조합으로 발생하는 401/403 원인별 해결 가이드 AI 생성 이미지: CORS·JWT 조합으로 발생하는 401/403 원인별 해결 문제 정의 — CORS와 JWT가 맞닿을 때 401/403이 발생하는 이유 브라우저의 동일출처 정책과 서버의 JWT 인증 흐름이 만나는 지점에서는 주로 세 가지 계층에서 문제가 생깁니다. 첫째, CORS 사전검사(OPTIONS)가 올바르게 처리되지 않으면 요청이 서버에 도달하지 못하고 브라우저가 네트워크·보안 오류로 간주합니다. 설사 서버가 응답을 반환해도 자바스크립트에서 접근할 수 없습니다. 둘째, Authorization 헤더나 쿠키를 보내려면 서버가 Access-Control-Allow-Headers에 Authorization을 포함해야 하고, 자격증명 전송 시에는 Access-Control-Allow-Credentials: true와 명시적 Origin 설정이 필요합니다 — 와일드카드는 쓸 수 없습니다. 셋째, 요청이 서버까지 도달하더라도 JWT가 누락되거나 만료·변조된 경우 401을, 권한이 부족하면 403을 반환합니다. 즉 동일한 클라이언트 오류라도 원인은 프리플라이트(CORS) 설정, 클라이언트 전송 방식, 또는 서버의 인증·권한 검사 중 어느 쪽인지로 나뉩니다. CORS·JWT 조합으로 발생하는 401/403 원인별 해결을 빠르게 진단하려면 아래 실무 체크리스트를 참고하세요: ① 프리플라이트(OPTIONS) 응답 존재 확인 ② Access-Control-Allow-Headers에 Authorization 포함 여부 확인 ③ Allow-Credentials와 Origin 일치 여부 확인 ④ 서버에서 JWT 유효성 및 권한 검증 수행. 표시 단서: 브라우저 콘솔에 표시되는 CORS 오류는 보통 클라이언트·서버 간 설정 문제를 가리킵니다. 반면 네트워크 탭에서 401 또는 403 응답이 보이면 서버의 인증·권한 검증 실패일 가능성이 큽니다. 오류 원인 요약: Access-Control-...

Nginx TLS 핸드셰이크 실패 및 인증서 갱신 오류에 대한 진단·대응·예방 가이드

Nginx TLS 핸드셰이크 실패 및 인증서 갱신 오류에 대한 진단·대응·예방 가이드 AI 생성 이미지: Nginx TLS 핸드셰이크 실패와 인증서 갱신 오류 대응 문제 개요 — TLS 핸드셰이크 실패가 서비스에 미치는 영향 TLS 핸드셰이크 실패는 웹 브라우저와 API 클라이언트에서 즉시 연결 실패, 요청 타임아웃, 인증 오류(예: ERR_SSL_PROTOCOL_ERROR)로 드러납니다. 결과적으로 사용자 이탈, 거래 실패, SLA 위반과 모니터링 알람의 폭주로 이어질 수 있습니다. 원인으로는 인증서 만료, 체인 불일치, SNI 설정 오류, 암호화 스위트 불일치, OCSP/CRL 응답 실패, 또는 중간 프록시(로드밸런서/CDN) 설정 문제 등이 있습니다. 특히 Nginx 환경에서는 TLS 핸드셰이크 실패와 인증서 갱신 오류 대응이 중요합니다. 주요 증상: 클라이언트 측 SSL/TLS 에러 메시지, 서버측 nginx error.log의 "SSL alert" 또는 "handshake failure" 기록, 증가한 SYN 재전송과 타임아웃 실패 유형: 클라이언트 경고(alert): 클라이언트가 구체적 오류를 수신한 뒤 연결을 정식으로 종료 — 인증서 신뢰성 문제나 만료 등의 원인 파악에 단서가 됩니다 연결 중단(drop): 핸드셰이크 초기 단계에서 즉시 끊김(프로토콜 불일치나 네트워크 차단) — 재시도로 인해 지연과 재시도 폭증을 초래할 수 있습니다 탐지 포인트: 핸드셰이크 실패율, 인증서 만료 D-일, OCSP 실패율, nginx ssl_error_log 항목, 클라이언트별 성공/실패 패턴 — 대응 체크리스트 예: 인증서 유효기간(D-일) 확인, OCSP/CRL 응답 점검, nginx 로그 필터링 및 클라이언트별 재현 시나리오 검증 초기 진단 — 로그와 접속 테스트로 원인 좁히기 문제 진단은 로그와 간단한 접속 검사로 시작하세요. Nginx T...

Jenkins 크리덴셜 유출 탐지와 권한 분리 실무

Jenkins 크리덴셜 유출 탐지와 권한 분리 실무 AI 생성 이미지: Jenkins 크리덴셜 유출 탐지와 권한 분리 실무 문제 정의 — Jenkins 크리덴셜 유출이 조직에 미치는 영향 Jenkins에 저장된 크리덴셜이 유출되면 단순한 비밀번호 노출을 넘어 조직의 신뢰 경계를 무너뜨릴 수 있다. 구체적인 위험은 다음과 같다. 권한 상승 : 빌드·배포용 계정을 이용해 내부 서비스, 데이터베이스, 클러스터에 접근하고 더 높은 권한이나 관리자 권한으로 확장될 수 있다. 사이드 채널·측면 이동 : 에이전트·로그·아티팩트 저장소 등을 통해 다른 호스트로 횡적 이동하며 키나 토큰 같은 민감 데이터를 수집하고 유출할 수 있다. CI/CD 파이프라인 공격 : 빌드 단계 변조, 의존성 주입 또는 아티팩트 변경으로 공급망을 오염시키고, 결국 악성 코드가 프로덕션에 배포될 위험이 있다. 탐지·복구 난이도 : 장기 토큰과 시크릿의 재사용 및 분산된 빌드 환경 때문에 침해 흔적이 은닉되기 쉽고, 신속한 롤백과 권한 회수가 어렵다. 실무 체크리스트 : 노출 의심 시 즉시 관련 크리덴셜을 폐기하고 새 토큰을 발급한다. 빌드 에이전트 접근 로그를 조사하고 권한을 최소화(최소 권한 원칙 적용)하며, 비밀 관리 솔루션 도입과 주기적 시크릿 회전을 시행한다 — Jenkins 크리덴셜 유출 탐지와 권한 분리 실무 관점에서 우선순위를 정해 대응하라. Jenkins의 크리덴셜 모델과 주요 위험 지점 Jenkins는 글로벌·폴더·시스템 스토어로 구성된 계층화된 크리덴셜 모델과, config.xml·콘솔 로그·에이전트 환경 등 다양한 노출 경로를 가지고 있습니다. 관리가 허술하면 크리덴셜 유출 위험이 크게 증가합니다. 글로벌 스토어 — 모든 파이프라인과 플러그인이 접근할 수 있어 가장 민감한 저장소입니다. 폴더 스토어 — 권한 경계로 사용되지만, 상속이나 승계 규칙이 잘못되면 의도치 않게 노출될 수 있습니다. 시스템 스토어 — 노...

GitHub Actions 빌드 비용·캐시 전략과 로그 분석: 엔터프라이즈 가이드

GitHub Actions 빌드 비용·캐시 전략과 로그 분석: 엔터프라이즈 가이드 AI 생성 이미지: GitHub Actions 빌드 비용·캐시 전략과 로그 분석 문제 정의 — GitHub Actions 비용은 어디에서 발생하는가 GitHub Actions 비용은 실행 시간(빌드 분), 스토리지·아티팩트 비용, 그리고 워크플로 구성에서 발생하는 확장성(매트릭스와 동시성)으로 크게 나뉩니다. 이 요소들은 서로 영향을 주어 전체 비용을 빠르게 늘릴 수 있습니다. 비용 절감 대책을 세울 때는 GitHub Actions 빌드 비용·캐시 전략과 로그 분석을 함께 고려해야 합니다. 빌드 분(런타임) 요금 — GitHub 호스티드 러너는 분 단위로 과금됩니다. 운영체제별 요금 차이가 있어 Windows나 macOS에서 더 높은 비용이 발생할 수 있습니다. 러너 시작 시간, 환경 설정, 코드 체크아웃, 테스트 실행까지 모든 시간이 곧 비용입니다. 스토리지·아티팩트 — 아티팩트와 캐시의 저장 용량 및 보존 기간이 비용을 만듭니다. 대용량 아티팩트나 장기 보존은 GB-월 과금뿐 아니라 대규모 다운로드나 아카이빙 시 전송 비용을 유발할 수 있습니다. 실무 체크리스트: 불필요한 아티팩트 삭제, 보존 기간 단축, 압축 적용을 우선 점검하세요. 매트릭스·동시성 영향 — 테스트 매트릭스는 실행 횟수를 곱해 빌드 분을 급격히 증가시킵니다. 동시 실행 수가 늘어나면 더 많은 병렬 러너가 필요하고, 동시성 슬롯 비용 또한 상승합니다. 셀프호스팅 트레이드오프 — 자체 러너로 분 과금을 피할 수 있지만, 인프라·운영·네트워크 비용과 보안 및 유지보수 부담이 전가됩니다. 총비용 관점에서 비교해 결정해야 합니다. 로그·전송 비용 — 상세 로그와 빈번한 아티팩트 전송은 저장 용량과 네트워크 사용을 늘려 간접 비용을 발생시킵니다. 필요한 경우 로그 레벨을 조정해 저장량을 줄이세요. 빌드 실행 최적화로 비용을 즉시 절감하는 방법 조건부 실행, 워크...

Redis 메모리 폭증과 Eviction 정책 선택 가이드

Redis 메모리 폭증과 Eviction 정책 선택 가이드 AI 생성 이미지: Redis 메모리 폭증과 eviction 정책 선택 기준 문제 정의 — Redis 메모리 폭증이 운영에 미치는 영향 Redis의 메모리 사용량이 급격히 늘면 운영에 즉각적이고 연쇄적인 문제가 발생합니다. 대표 증상은 다음과 같습니다. 급격한 팽창: 키·값 수가 짧은 시간에 늘어나 메모리 점유가 급상승하고 RDB/AOF 스냅샷이나 동기화가 지연됩니다. OOM(Out Of Memory): 메모리가 한계에 이르면 Redis 프로세스가 종료되거나 커널의 OOM killer가 개입합니다. 지연 증가: 페이지 교체, 스왑, 블로킹 I/O로 p95/p99 응답 시간이 길어지고 처리량이 떨어집니다. Eviction 쓰래싱: 부적절한 정책이나 파라미터로 키 제거와 재생성이 반복되어 CPU와 네트워크 비용이 상승합니다. 서비스 영향은 캐시 적중률 하락으로 백엔드 트래픽이 폭증하고, 오류·타임아웃 증가 및 기능 저하로 장애가 전파되는 것입니다. 이로 인해 SLA 위협이 커지고 응답지연과 가용성 저하로 SLO 위반, 운영 비용 증가와 복구 시간(데이터 복원·재구성) 연장이 발생하며 반복 경보로 운영자 피로도가 높아집니다. 운영자는 Redis 메모리 폭증과 eviction 정책 선택 기준을 사전에 정의하고, 실무 체크리스트(예: 임계치 알람 설정, eviction 정책·메모리 한도 재검토, 스냅샷/백업 주기 점검)를 정해 즉시 대응할 수 있도록 준비해야 합니다. 원인 분석 — 메모리 폭증을 일으키는 흔한 패턴 메모리 폭증은 보통 단일 원인보다 여러 요인이 겹쳐 발생합니다. 예컨대 워크로드 변화 — 트래픽 급증이나 배치·백필(batch/backfill) 작업 — 는 키와 값의 수를 순간적으로 늘려 예기치 못한 피크로 메모리를 잠식합니다. 키 증가·누수 : 유효기간이 설정되지 않은 고유 키(예: 요청별 임시 키)나 네임스페이스 설계 부재로 키 수가 꾸준히 증...

PostgreSQL 슬로우쿼리·락 컨텐션 원인 추적과 대응 가이드

PostgreSQL 슬로우쿼리·락 컨텐션 원인 추적과 대응 가이드 AI 생성 이미지: PostgreSQL 슬로우쿼리·락 컨텐션 원인 추적 문제 정의 — 슬로우쿼리와 락 컨텐션이 나타나는 전형적 증상 슬로우쿼리·락 컨텐션은 사용자 경험과 시스템 처리량에 즉시 영향을 줍니다. 흔히 응답 지연과 타임아웃, 스루풋 저하로 드러나며, 심하면 서비스 전체 장애로 이어집니다. PostgreSQL 슬로우쿼리·락 컨텐션 원인 추적에서는 지연 분포(p95/p99), 대기 이벤트, 잠금 현황을 우선적으로 확인해야 합니다. 실무 체크리스트 예: 오래 대기 세션 확인 → 블로커 쿼리 식별 → 인덱스·트랜잭션 범위 검토. 지연 패턴: p95·p99 지연이 악화되고, 특정 시간대나 배치 트래픽과 연관된 간헐적 응답 지연 스파이크가 관찰됩니다. 타임아웃·실패 증가: API 호출이나 배치 작업이 타임아웃으로 실패하거나 재시도가 급증합니다. 스루풋 저하: 초당 처리량이 떨어지고 작업 큐가 밀리며 백프레셔로 전체 처리율이 하락합니다. 연결·리소스 고갈: 커넥션 풀 포화, 워커 스레드 대기, CPU·I/O 사용량 급증이 동반됩니다. 락 특이 징후: pg_stat_activity에 오래 대기 중인 쿼리, pg_locks에서 블로킹 체인과 wait_event 'Lock' 증가, 반복되는 데드락 로그가 나타납니다. 관찰성 기초 — 꼭 수집해야 할 메트릭, 로그, 트레이스 PostgreSQL 슬로우쿼리·락 컨텐션 원인 추적을 위해 기본적으로 수집하고 연계해야 할 항목들입니다. pg_stat_statements — normalized query, calls, total_time, mean_time, rows: 상위 N 쿼리를 집계하고 쿼리 해시를 보관. pg_stat_activity — pid, state, wait_event, query_start, current_query로 현재 실행과 대기 상태를 파악. pg_loc...

Kubernetes HPA 튜닝: 지연과 스케일링 실패를 가리키는 핵심 지표와 대응

Kubernetes HPA 튜닝: 지연과 스케일링 실패를 가리키는 핵심 지표와 대응 AI 생성 이미지: Kubernetes HPA 튜닝시 지연·스케일링 실패 지표 문제 정의 — HPA가 지연되거나 예상과 다르게 스케일링할 때 서비스 영향 응답 지연 증가: 요청이 큐에 쌓이고 처리 지연이 발생해 SLO/SLA를 위반할 수 있습니다. 사용자 경험도 악화됩니다. 가용성 저하: 과소 스케일링이면 타임아웃과 오류율이 상승합니다. 반대로 과다 스케일링은 비용 증가와 리소스 분산으로 오히려 성능 저하를 초래할 수 있습니다. 운영 부담 증가: 잦은 플랩(빈번한 up/down)과 예측 불가능한 노드 압박으로 운영 복잡도가 높아집니다. 모니터링과 대응에 더 많은 노력이 필요합니다. 흔한 증상 스케일업/스케일다운 반응 지연: 목표 메트릭에 도달했음에도 파드 수가 늦게 변경됩니다. Kubernetes HPA 튜닝시 지연·스케일링 실패 지표로 자주 관찰되는 증상입니다. 지속적인 과부하: CPU나 메모리 임계치에 자주 도달하거나 컨테이너 내부 대기열이 늘어납니다. 결과적으로 서비스가 안정적으로 버티지 못합니다. 빈번한 트래픽 변동에 따른 플랩: 짧은 주기로 재조정이 반복되어 불필요한 리소스 낭비가 발생합니다. 스케일 이벤트 실패 또는 에러 로그: 권한 문제, API 호출 실패, 또는 메트릭 수집 오류가 원인일 수 있습니다. 시작 지연 문제: 파드 프로비저닝, 이미지 풀링, 런타임 초기화에 시간이 많이 걸리는 경우 실제 스케일 반영이 지연됩니다. 실무 체크리스트 예: readiness/liveness와 프로브 설정 점검, 컨테이너 이미지와 초기화 스크립트 최적화, HPA의 타겟·메트릭·cooldown 값 검토. 스케일 지연을 알려주는 핵심 메트릭들 아래 항목은 HPA가 추천한 스케일 시점과 실제 스케일 간의 지연...