SRE팀을 위한 온콜 정책과 피로도 관리 지표 설계 가이드 AI 생성 이미지: SRE팀을 위한 온콜 정책과 피로도 관리 지표 문제 정의 — 온콜 피로도가 조직과 서비스에 미치는 영향 온콜 피로도는 단순한 피곤함을 넘어 인적·운영 비용을 유발한다. 아래 사례와 수치는 조직에서 자주 관찰되는 영향을 요약한다. 이를 개선하려면 SRE팀을 위한 온콜 정책과 피로도 관리 지표를 도입해 측정하고 관리할 필요가 있다. 인적 비용 — 반복적인 야간 호출이 병가와 휴직을 늘린다. 예를 들어, 월 평균 페이지 20건인 팀은 주당 평균 수면 손실이 60분에 달하며, 연간 병가·휴직 비율이 약 10% 수준으로 상승했다. 이직 위험 — 피로가 쌓이면 이직 의도와 실제 이직률이 높아진다. 관찰치로는 온콜 부담이 큰 엔지니어의 이직률이 팀 평균보다 8~15% 포인트 높게 나타난다. 대체 비용(채용·온보딩)은 보통 연봉의 1.2~2.0배에 이른다. 서비스 신뢰성 저하 — 피로는 판단력 저하로 이어져 MTTR을 늘리고 재발 사건을 촉발한다. 사례로 온콜 피크 주간에는 MTTR이 평소보다 15~30% 악화하고, 포스트모템에서 인적 실수 비중이 커지는 경향이 관찰된다. 실무 체크리스트: 호출 빈도와 야간 호출 비중, 수면 손실 등 핵심 지표를 먼저 측정하고, 온콜 순환 정책과 최대 연속 근무시간 제한 같은 운영 규칙을 적용해 개선을 시작하라. 온콜 정책의 핵심 원칙과 역할 구분 온콜 정책의 목적은 책임 범위와 우선순위, 심야·주말 대응 규칙을 명확히 하여 일관된 대응을 보장하는 것입니다. 책임 범위는 서비스·컴포넌트·운영 단계(감지·초기 대응·복구·포스트모템)로 구분해 문서화하고, 각 단계별 SLA와 수행자 판단 기준을 분명히 정의합니다. 우선순위 : P0(서비스 중단)부터 P3(경미한 영향)까지 구분하고, 알림·에스컬레이션·복구 목표(예: MTTR)를 표준화합니다. 역할 구분 : 1차 온콜은 초기 감지와 임시 완화를 담당하고, 2차 온콜은 심층...