blog

Redis Timeout 으로 인한 서비스 전체 장애 대응 로그

날짜: 2025-07-29

최근에 회사에서 2주 연속으로 정확히 동일한 시간에 동일한 서비스 전체가 멈추는 장애가 발생하여 관련하여 조치하였고 이를 해결한 사례를 기록으로 남긴다.

로드밸런서
- 요청수 급등
- 4xx, 5xx 응답 급등
API 서버 인스턴스 전체
- CPU, 메모리 정상
Redis 캐시 서버
- CPU, 메모리 정상
- Slow log 에 배송스케줄 또는 배송 휴무일 관련 캐시가 잡힘 (지속적으로 변경되는지 확인했어야…)
RDB 서버
- CPU, 메모리 정상

배송스케줄, 배송휴무일 정보를 불러올때 MGET, MSET 을 남용하는 로직
- Redis 대신 RDB 사용하도록 로직 수정
- MGET 으로인한 Redis 액세스 횟수가 1회 요청당 800번 -> RDB 2번 액세스으로 변경
- 다행히 RDB 쿼리는 무겁지 않았음.
health check API 관련 작업
- 미들웨어에서 공통적으로 기본적으로 RDB 또는 캐시 접근하는 로직이 있었음
- 설정값 추가하여 특정 endpoint 일경우 모든 미들웨어 패스스루 처리
기타 개선
- 서버 스펙업: t3.medium -> m6g.large
  - 메모리 2배, 네트워크 성능 2배 (5 -> 10 기가비트)
  - 엔진 변경: Redis OSS -> Valkey
  - AWS ElastiCache 에서 제공하는 느린로그, 엔진로그
- Redis 사용 어플리케이션들 대응
  - 호스트 변경
  - 레디스 관련 pip 패키지 버전업 (주로 파이썬 프로젝트이므로 )
- Request log middleware 추가
  - 요청 in, out 시 각각 로깅 (총 2회)
  - user_id, client_ip, 응답시간 기록