Ingester 파드 하나의 OOM이 어떻게 전체 Observability 스택을 마비시켰는지, 그리고 왜 파드가 스스로 복구하지 못하고 무한 재시작 루프에 빠졌는지 추적한 3개월간의 기록입니다.
retention을 14일로 바꿨는데 예상한 boundary보다 30분 이른 시각의 trace가 살아있었다. search API와 compactor 로그, object storage block metadata를 따라 그 이유를 파고든 기록.
EKS에서 새 서비스를 배포했는데 ALB가 504를 반환했다. Pod는 정상이었고, 원인은 terraform-aws-eks 모듈의 attach_cluster_primary_security_group 옵션이 LB Controller의 SG 자동 관리와 충돌한 것이었다.