기본 콘텐츠로 건너뛰기

라벨이 SLO 기반 알림인 게시물 표시

PostgreSQL 급증한 슬로우쿼리와 인덱스 잠금 해결법: 진단·응급조치·근본대책

PostgreSQL 급증한 슬로우쿼리와 인덱스 잠금 해결법: 진단·응급조치·근본대책 AI 생성 이미지: PostgreSQL 급증한 슬로우쿼리와 인덱스 잠금 해결법 문제 정의 — 슬로우쿼리와 인덱스 잠금이 서비스에 미치는 영향 증상: 특정 쿼리의 응답 시간이 갑자기 길어지고 psql의 pg_stat_activity에서 'waiting' 상태가 증가합니다. 인덱스 관련 뮤텍스/lock과 VACUUM 대기가 함께 나타나는 경우가 많습니다. 이로 인해 커넥션 타임아웃, 장기 트랜잭션 유지로 인한 WAL 증가 및 디스크 IO 급증이 동반될 수 있습니다. 진단과 대응 절차는 PostgreSQL 급증한 슬로우쿼리와 인덱스 잠금 해결법을 참고하면 도움이 됩니다. 비즈니스 영향: API 응답 지연·타임아웃으로 사용자 경험이 악화되고 배치·보고 파이프라인이 지연됩니다. SLA/SLO 위반 위험이 커지며, 결과적으로 매출 손실과 운영 비용 증가로 이어질 수 있습니다. 재현 빈도 및 피크 패턴: 업무 시간(특히 트래픽 피크), 야간 리포트나 배치 실행, 정기 백업·마이그레이션 직후에 재현이 잦습니다. 또한 특정 쿼리나 스키마 변경 이후에 계속 발생하는 경우가 많습니다. 실무 체크리스트 예시 — 문제 발생 시: 1) 문제 쿼리 식별, 2) 인덱스와 통계 확인, 3) VACUUM/ANALYZE 상태 점검, 4) 잠금 원인 확인 및 쿼리 튜닝 순으로 진행하세요. 초기 진단 — 어떤 지표와 로그를 우선 확인할까 초기 대응은 무엇이 대기 중인지, 무엇이 가장 늦게 끝나는지 파악하는 것에서 출발한다. 우선 아래 항목들을 확인하라. pg_stat_activity — state, wait_event, query_start와 query 텍스트로 오래된 트랜잭션과 대기 중인 백엔드를 찾는다 pg_locks — lockmode와 granted 여부, relation/transaction ID를 확인해 인덱스나 테이블 잠금 원인을 추적한다 pg_stat_s...

대규모 데이터 파이프라인 관측성 설계와 비용 최적화: 설계 원칙과 실무 전략

대규모 데이터 파이프라인 관측성 설계와 비용 최적화: 설계 원칙과 실무 전략 AI 생성 이미지: 대규모 데이터 파이프라인 관측성 설계와 비용 최적화 왜 관측성이 대규모 데이터 파이프라인 비용 문제의 핵심인가 관측성이 부족하면 장애 탐지 지연, 중복 처리, 불필요한 장기 보관, 오버프로비저닝으로 이어진다. 문제 원인을 신속히 파악하지 못하면 재처리에 따른 컴퓨트·네트워크 비용이 급증한다. 중복 데이터와 미흡한 보존 정책은 스토리지 비용을 끌어올리고, 성능 특이점을 놓치면 SLA를 맞추기 위해 리소스를 상향 배치하면서 정기적인 과다 지출이 발생한다. 장애나 지연이 미탐지되면 대규모 백필이나 재처리가 발생해 컴퓨트·네트워크 비용이 크게 늘어난다. 데이터 중복과 보존 정책 부재는 불필요한 장기 스토리지 비용을 초래한다. 핵심 메트릭이 없으면 안전 마진을 크게 잡아 인스턴스·디스크 등 오버프로비저닝이 증가한다. 탐지·복구가 지연되면 SRE·엔지니어 인건비와 SLA 페널티가 추가로 발생한다. 따라서 관측성은 비용 통제의 프레임워크다. 메트릭·트레이스·로그를 적절히 수집하고 가시화하지 않으면 운영 비용을 효과적으로 낮추기 어렵다. 실무 체크리스트 예: 핵심 파이프라인별로 SLA 기반 모니터링과 비용 임계치 알림을 설정하고, 정기적으로 데이터 보존 정책을 검토하라. 대규모 데이터 파이프라인 관측성 설계와 비용 최적화는 이러한 기본이 충실할 때 비로소 의미가 있다. 관측성을 위한 핵심 지표와 데이터 모델은 어떻게 설계할까 서비스·파이프라인·작업 수준을 명확히 구분해 메트릭을 설계한다. 서비스 수준은 SLA, P99/95 응답시간, 오류율, 전체 처리량(건/초), 용량 임계치 등을 포함한다. 파이프라인(DAG) 수준에서는 단계별 지연(큐잉·처리), 레이턴시 분포, 병목 단계 식별을 위한 처리율과 대기열 길이, 데이터 지연(lag)을 측정한다. 작업(task) 수준에서는 실행시간, 재시도 횟수, 입력/출력 레코드 수, 자원 사용(CPU...

서비스 가용성 확보를 위한 장애 예측과 대응 체계 설계

서비스 가용성 확보를 위한 장애 예측과 대응 체계 설계 AI 생성 이미지: 서비스 가용성 확보를 위한 장애 예측과 대응 체계 문제 정의 — 장애 예측이 가용성에 미치는 영향 서비스 다운타임은 매출 손실과 고객 신뢰 하락으로 곧바로 이어진다. 예측되지 않은 장애는 SLI(응답시간·가용률)를 악화시켜 SLA 위반과 페널티를 초래한다. 장기적으로는 브랜드 손상이나 계약 해지 위험도 커진다. 반면 장애 예측은 MTTD(탐지시간)와 MTTR(복구시간)을 단축해 영향을 받는 고객 수를 줄인다. 또한 자동 차단, 롤백, 트래픽 셰이핑 등의 대응을 사전에 준비할 여유를 만든다. 비용 영향: 매출 손실, 고객 보상, 추가 지원 인력 비용 증가 운영 리스크: 인시던트 급증, 교대 인력 피로, 복구 우선순위 혼선 비즈니스 리스크: 계약 위반, 시장 신뢰 저하, 규제·법적 문제 따라서 예측 체계는 측정 가능한 SLI 정의, 적정 경보 임계값, 우선순위 기반 대응 플레이북 및 용량·배포 정책과 긴밀히 연계되어야 한다. 실무 체크리스트 예: 핵심 SLI 선정·측정, 경보 임계값 검증, 플레이북·자동화 시나리오 점검을 주기적으로 수행하라. 전반적으로 서비스 가용성 확보를 위한 장애 예측과 대응 체계는 탐지·대응·복구가 유기적으로 연결되도록 설계되어야 한다. 관찰성의 토대 다지기 — 어떤 데이터와 계측이 필요한가 계측 설계는 메트릭·로그·트레이스·외부 헬스체크를 목적에 따라 구분하고, 각 데이터의 수집·보관 정책을 정의하는 것에서 출발한다. 메트릭: 해상도가 높은 지표는 빈번히 수집하되, 저카디널리티 지표와 고카디널리티 이벤트는 분리해 저장해야 한다. 레이블은 service, env, region, deployment, team 등으로 제한해 카디널리티를 관리한다. 로그: JSON 같은 구조화 형식을 사용하고 요청ID 등 필요한 컨텍스트 필드를 포함하되 PII는 제외한다. 정상 로그는 비율 샘플링하고 오류는 100% 보존하며, 보관 계층도 정의하자...

대규모 CI/CD 파이프라인 가시성 확보 전략

대규모 CI/CD 파이프라인 가시성 확보 전략 AI 생성 이미지: 대규모 CI/CD 파이프라인 가시성 확보 전략 문제 정의 — 대규모 파이프라인에서 가시성 확보가 어려운 이유 대규모 CI/CD 환경에서는 개별 이벤트가 전체 흐름과 분리되거나 사라지면서 관찰성 공백이 발생하기 쉽다. 핵심 원인은 병렬 실행, 다양한 툴체인, 임시 에이전트, 그리고 지리적·조직적 분산이다. 이 문서에서 제안하는 대규모 CI/CD 파이프라인 가시성 확보 전략은 이러한 공백을 메우는 데 초점을 둔다. 각 원인이 만드는 구체적 문제는 다음과 같다. 병렬 실행: 동시 작업이 많아 로그와 메트릭이 섞이고 타임라인 정렬이 까다로워 전체 빌드·배포 상태를 재구성하기 어렵다. 다중 툴·플랫폼: 빌드·테스트·배포 도구가 각기 다른 포맷과 저장소를 사용하면 이벤트 연동이 끊겨 엔드투엔드 트레이싱이 불가능해진다. 임시 에이전트/컨테이너: 임시 에이전트나 컨테이너가 종료되면 로컬 로그와 아티팩트가 사라져 중앙 집계에 누락되고 원인 추적이 막힌다. 팀 분산·소유권 부재: 단계별 책임자가 불분명하면 메타데이터와 컨텍스트가 제대로 남지 않아 문제의 범위나 우선순위가 모호해진다. 실무 체크리스트 예: 로그·메트릭의 중앙 집계 여부, 트레이스 ID 일관성, 에이전트 종료 시 아티팩트 보존 정책, 단계별 소유권 할당을 점검해 빠르게 관찰성 공백을 좁힌다. 무엇을 측정할 것인가 — 핵심 메트릭, 로그, 트레이스 설계 대규모 CI/CD 파이프라인의 가시성은 핵심 메트릭(처리량, 레이턴시, 실패율, 큐 대기시간), 단계별 스팬(스테이지·잡 지연), 그리고 구조화된 로그를 결합해 확보한다. 메트릭: 처리량(평균/피크, builds/min), 엔드투엔드 레이턴시(큐 입력→완료), 단계별 레이턴시 히스토그램, 실패율(유형별), 큐 대기시간을 게이지·히스토그램으로 수집한다. 레이블: 파이프라인ID, 리포/브랜치, 잡타입, 러너/노드, 우선순위, 리전 등 ...

엔터프라이즈 데이터 레이크 파이프라인의 관찰성 확보 전략

엔터프라이즈 데이터 레이크 파이프라인의 관찰성 확보 전략 AI 생성 이미지: 데이터 레이크 파이프라인의 관찰성 확보 전략 문제 정의 — 데이터 레이크 파이프라인에서 관찰성이 중요한 이유 데이터 레이크 파이프라인은 대량·다양한 소스와 복잡한 변환·배포 경로로 이루어집니다. 관찰성이 부족하면 실무에서 곧바로 여러 리스크가 드러납니다. 데이터 지연: 처리 병목이나 백프레셔로 SLA 미달, 실시간 분석 실패와 의사결정 지연을 초래한다 데이터 오염: 스키마 변경이나 잘못된 레코드 전파로 BI와 모델의 신뢰도가 떨어진다 비용 증가: 재처리, 중복 저장, 불필요한 스캔 등으로 클라우드 비용이 급증한다 규정 준수 리스크: 삭제·접근·감사 추적이 미비하면 벌금이나 법적 책임에 노출된다 운영·디버깅 난이도: 분산 특성 때문에 MTTR이 늘고, 라인리지·시계열 메트릭·분산 트레이스가 없으면 원인 파악을 위한 수동 조사 비용이 급증한다 따라서 메트릭, 로그, 데이터 품질 경보와 라인리지(계보) 추적을 포함한 데이터 레이크 파이프라인의 관찰성 확보 전략은 필수적입니다. 실무 체크리스트 예: 메트릭·로그 수집 범위 정의, 데이터 품질 경보 임계치 설정, 라인리지 수집 및 검증. 관찰성의 핵심 구성요소 — 메트릭, 로그, 트레이스, 메타데이터 메트릭 — 처리량·지연 같은 성능 지표와 오류율, 리소스 사용량을 시계열로 수집해 전체 상태를 정량화합니다. 수집 대상: 인제스션 서비스, 스트리밍 브로커(파티션 레이턴시), ETL 작업(잡 지속시간·스루풋), 스토리지 IO/용량, 쿼리 엔진 등. 에이전트, Prometheus, JMX 등으로 수집합니다. 로그 — 실패 원인과 예외 스택, 데이터 이상을 탐지하는 핵심 증거입니다. 수집 대상: 커넥터 로그, 변환 단계, 스케줄러, 커스텀 애플리케이션 로그 등. 구조화, 로그 레벨 설정, 샘플링 정책이 중요합니다. 트레이스 — 데이터 흐름의 라인리지와 엔드투엔드 지연을 파악합니다. 수집 대상: 서비스 간 호출, 메...

실무: 대시보드 SLO 기반 알림조정과 노이즈 감소전략 및 자동조정

실무: 대시보드 SLO 기반 알림조정과 노이즈 감소전략 및 자동조정 AI 생성 이미지: 대시보드 SLO 기반 알림조정과 노이즈 감소전략 및 자동조정 실무 리더 요약 정리 이 문서는 대시보드 SLO 기반 알림조정과 노이즈 감소전략 및 자동조정과 관련해, 리더가 현장에서 빠르게 참고할 의사결정 포인트를 정리해 둔 내용입니다. 이 글에서 짚고 가는 핵심 포인트 현장에서 실제로 마주한 사례들 대시보드 기반 알림 설계의 실무 방법론 운영 프로세스와 성공을 측정하는 지표 팀 위키나 아키텍처 리뷰 문서에 그대로 옮겨 쓰고, 우리 조직 상황에 맞게 일부만 손봐도 충분히 활용할 수 있습니다. 실제 엔터프라이즈 환경에서 이런 일이 자주 벌어집니다. 몇 년 전 우리 팀도 대시보드 SLO 기반 알림조정과 노이즈 감소전략 및 자동조정를 제대로 설계하지 못해 반복되는 장애와 불필요한 야근에 시달린 적이 있습니다. 이 글은 그런 경험을 바탕으로, 리더 관점에서 먼저 정리해야 할 구조와 운영 방식을 중심으로 안내합니다. 이 글에서 짚고 가는 핵심 포인트 현장에서 실제로 겪었던 문제와 그 원인 대시보드 기반 알림의 설계와 적용 방법 운영 프로세스와 핵심 성공지표 SLO·SLI 기반으로 경보를 설계하는 출발점 엔터프라이즈 환경에서 이 주제를 적용할 때 빠뜨리기 쉬운 구조적 포인트와 운영 체크리스트만 골라 담았습니다. 실제 현장에서 겪었던 상황 국내 대형 이커머스 팀에서는 대시보드 기반 알림이 하루에도 수십 건씩 쌓이던 시기가 있었습니다. 새 서비스를 배포하면서 메트릭 레이블이 바뀌자 같은 이벤트가 여러 번 중복 경보를 발생시켰고, 순간적인 지연이나 백그라운드 작업에도 불필요한 경고가 계속 쌓였습니다. 그 결과 온콜 팀의 피로도가 빠르게 상승했습니다. 근본 원인은 알림을 원시 지표(raw metric) 수준의 단일 임계값으로만 판단했기 때문이며, 사용자 영향(SLI/SLO)과 연결되지 않아 중요도를 제대로 분류하지 못했던 점입니다. ...

멀티리전 대규모 K8s 무중단 배포와 관측성 고도화, 어떻게 시작할까

멀티리전 대규모 K8s 무중단 배포와 관측성 고도화, 어디서부터 시작할까 AI 생성 이미지: 멀티리전 대규모 K8s 무중단 배포와 관측성 고도화 실무 리더 요약 정리 이 섹션은 멀티리전 대규모 K8s 무중단 배포와 관측성 고도화와 관련한 핵심 의사결정 포인트를 간결하게 정리해 둔 요약입니다. 핵심 포인트 요약 관측성 고도화와 운영 전략 — 멀티리전 모니터링, 트레이싱, 런북 멀티리전 아키텍처 패턴과 클러스터 구성 선택지 현장에서 겪은 사례와 대응 방안 팀 위키나 아키텍처 리뷰 문서에 그대로 붙여넣고, 조직 상황에 맞춰 조금만 손보면 바로 활용할 수 있습니다. 실제 엔터프라이즈 환경에서 이런 일이 자주 벌어집니다. 몇 년 전 우리 팀도 멀티리전 K8s 배포와 관측성 설계를 충분히 준비하지 못해 반복되는 장애와 불필요한 야근을 겪었습니다. 이 글은 그런 실수를 되풀이하지 않기 위해, 리더 관점에서 우선 정해야 할 구조와 운영 원칙에 초점을 맞춥니다. 이 글에서 짚고 가는 핵심 포인트 관측성 고도화와 운영전략 — 멀티리전 모니터링, 트레이싱, 런북 멀티리전 아키텍처 패턴과 클러스터 구성 선택지 실제 현장에서 겪었던 상황과 대응 문제 정의 — 멀티리전 K8s에서 무중단 배포가 어려운 이유 멀티리전 대규모 K8s 무중단 배포와 관측성 고도화를 실제 환경에 적용할 때 반드시 확인해야 할 구조적·운영적 포인트만 추려 정리했습니다. 관측성 고도화와 운영전략 — 멀티리전 모니터링, 트레이싱, 런북 멀티리전 환경에서는 메트릭, 로그, 분산 트레이스를 한 눈에 볼 수 있어야 지역별로 반복되는 이상 패턴을 빠르게 식별할 수 있습니다. 보편적인 설계는 리전별 수집기에서 글로벌 스토리지로 흘려보내는 중앙집중형 텔레메트리 레이어이고, 여기에 샘플링 정책을 결합해 비용과 가시성 사이의 균형을 맞춥니다. 또한 엔터프라이즈 서비스는 요청 흐름마다 상관관계 ID를 전파해 로그와 트레이스를 연결하면 문제 원인 파악 속도가 크게 빨라집니다. ...

스트리밍 ETL 관찰성 개선으로 데이터 SLA 보증 실전 가이드

스트리밍 ETL 관찰성 개선으로 데이터 SLA 보증 실전 가이드 AI 생성 이미지: 스트리밍 ETL 관찰성 개선으로 데이터 SLA 보증 실무 리더 요약 정리 이 글은 스트리밍 ETL 관찰성 개선을 통해 데이터 SLA를 보증하기 위해 리더가 빠르게 파악해야 할 의사결정 포인트를 정리했습니다. 이 글에서 짚고 가는 핵심 포인트 핵심 관찰성 신호 설계 — 메트릭·로그·트레이스·데이터 계보 실시간 알람과 자동화된 대응 체계 만들기 아키텍처와 도구 선택 — 인스트루먼트 방법과 스택 예시 팀 위키나 아키텍처 리뷰 문서에 그대로 옮겨 상황에 맞게 일부만 맞춰도 실무에 큰 도움이 됩니다. 실제 엔터프라이즈 환경에서 이런 일이 자주 벌어집니다. 몇 년 전 우리 팀도 스트리밍 ETL 관찰성 체계를 제대로 갖추지 못해 반복된 장애와 불필요한 야근을 겪었습니다. 이 글은 그런 실수를 줄이기 위해, 리더 관점에서 어떤 구조와 운영 방식을 먼저 정리해야 하는지에 초점을 맞췄습니다. 이 글에서 짚고 가는 핵심 포인트 핵심 관찰성 신호 설계 — 메트릭·로그·트레이스·데이터 계보 실시간 알람과 자동화된 대응 체계 만들기 아키텍처와 도구 선택 — 인스트루먼트 방법과 스택 예시 실제 현장에서 겪었던 상황과 개선의 흐름 엔터프라이즈 환경에서 스트리밍 ETL의 관찰성을 개선하고 데이터 SLA를 보증할 때 반드시 점검해야 할 구조와 운영 포인트만 추려 정리했습니다. 핵심 관찰성 신호 설계 — 메트릭·로그·트레이스·데이터 계보 엔터프라이즈 스트리밍 ETL 운영에서는 처리 지연(히스토그램: P50/P95/P99), 처리율(초당 레코드), 백프레스(큐 길이·조절 카운터), 오류율(레코드 실패/총레코드) 같은 핵심 메트릭을 태스크·파티션·토폴로지 단위로 수집해야 합니다. 실제 운영에서는 라벨(cardinality)을 통제하고, P95/P99 기준으로 SLA 임계값을 정해 자동 에스컬레이션을 연결하는 방식이 실용적입니다. 권장 추적·계보 포인트 ...

데이터 파이프라인의 비용-성능 자동조절 플랫폼 도입 전 필수 체크

데이터 파이프라인의 비용-성능 자동조절 플랫폼 도입 전 필수 체크 AI 생성 이미지: 데이터 파이프라인의 비용-성능 자동조절 플랫폼 실무 리더 요약 정리 이 글은 데이터 파이프라인의 비용-성능 자동조절 플랫폼을 도입하기 전에 실무 리더가 반드시 짚어야 할 의사결정 포인트를 간결하게 정리한 요약입니다. 이 글에서 짚고 가는 핵심 포인트 관찰성부터 정비하기 — 어떤 메트릭과 시그널을 수집해야 하는가 실행 패턴과 통합 전략 — 배치·스트림·플랫폼별 고려사항 실제 현장에서 겪은 비용-성능 자동조절 문제와 개선 사례 팀 위키나 아키텍처 리뷰 문서에 그대로 옮겨 붙이고, 우리 조직 상황에 맞게 조금만 손보면 실무에 바로 활용할 수 있습니다. 실제 엔터프라이즈 환경에서 이런 일이 자주 벌어집니다. 몇 년 전 우리 팀은 데이터 파이프라인의 비용-성능 자동조절 플랫폼을 제대로 설계하지 못해 장애가 반복되고 불필요한 야근이 잦았습니다. 이 글은 그런 실패를 되풀이하지 않기 위해, 리더 관점에서 먼저 챙겨야 할 구조적·운영적 항목을 중심으로 정리했습니다. 이 글에서 짚고 가는 핵심 포인트 관찰성부터 정비하기 — 어떤 메트릭과 시그널을 수집해야 하는가 실행 패턴과 통합 전략 — 배치·스트림·플랫폼별 고려사항 실제 현장에서 겪은 비용-성능 자동조절 문제와 개선 사례 왜 데이터 파이프라인에 비용‑성능 자동조절이 필요한가 실제 엔터프라이즈 환경에서 데이터 파이프라인의 비용-성능 자동조절 플랫폼을 적용할 때 꼭 확인해야 할 구조와 운영 포인트만 요약했습니다. 관찰성부터 정비하기 — 어떤 메트릭과 시그널을 수집해야 하는가 자동조절을 시작하려면 우선 핵심 시그널을 정의해 수집부터 시작해야 합니다. 리소스(CPU·메모리·디스크 I/O), 지연(엔드투엔드·스테이지별), 처리량(레코드/초·바이트/초), 큐 길이·백프레셔, 오류율·재시도 횟수, 그리고 비용 태그(프로젝트·팀·환경) 등을 우선적으로 확보하세요. 또한 타임스탬프 동기화(NTP)와 ...

비상대응용 런북 자동화와 SRE 온콜 효율화 사례, 왜 주목할까?

비상대응용 런북 자동화와 SRE 온콜 효율화 사례, 왜 주목할까? AI 생성 이미지: 비상대응용 런북 자동화와 SRE 온콜 효율화 사례 실무 리더 요약 정리 이 섹션은 비상대응용 런북 자동화와 SRE 온콜 효율화 사례에 관해 실무 의사결정에 필요한 핵심 포인트를 간결하게 정리했습니다. 이 글에서 짚고 가는 핵심 포인트 현장에서 실제로 겪은 문제와 개선 흐름 런북 자동화 도구와 적용 가능한 아키텍처 패턴 적용 로드맵과 운영적 베스트프랙티스 팀 위키나 아키텍처 리뷰 문서에 그대로 붙여넣고 조직 상황에 맞게 약간만 손보면 바로 활용할 수 있습니다. 실제 엔터프라이즈 환경에서는 이런 일이 흔히 발생합니다. 몇 년 전 우리 팀도 런북과 온콜 운영을 제대로 설계하지 못해 장애와 잦은 야근을 겪었습니다. 이 글은 그 경험을 바탕으로, 리더 관점에서 우선 정해야 할 구조와 운영 방식을 중심으로 정리한 내용입니다. 이 글에서 짚고 가는 핵심 포인트 현장에서 발생한 문제와 개선 흐름 런북 자동화 도구와 아키텍처 패턴 단계별 적용 로드맵과 운영 베스트프랙티스 문제 정의 — 온콜 팀의 고통 포인트와 런북의 역할 엔터프라이즈 환경에서 런북 자동화와 온콜 효율화를 적용할 때 반드시 점검해야 할 구조적·운영적 포인트만 추려 두었습니다. 실제 현장에서 겪었던 상황과 개선 흐름 한 번은 국내 대형 이커머스의 블랙프라이데이 트래픽 피크에서 오토스케일링과 캐시 리밸런싱이 동시에 발생하며 특정 백엔드 풀로 트래픽이 몰리는 일이 있었습니다. 당시 비상대응용 런북은 위키에 흩어져 있었고, 단계별 조치가 담당자마다 달라 수작업으로 토글해야 하는 항목이 많았습니다. 그 과정에서 잘못된 명령으로 캐시 상태가 엉키기도 했고, 초기 경보가 적절히 그룹화되지 않아 여러 명의 온콜 엔지니어가 중복 호출되는 바람에 상황이 더 복잡해졌습니다. 비슷한 시기 모 금융사에서는 수동 인증 토큰 갱신 절차를 빠뜨려 야간 배치가 실패했고, 그 원인도 런북의 권한 안내...