[멘토 질문] 99.9% SLO에서 멀티윈도우 Burn Rate 알럿을 저트래픽 환경에 현실적으로 적용/검증하는 기준(답변 희망 멘토: sean.wd) #234
-
|
🙋질문자 판교 3기 / 5조(개발자지만 독서는 하고싶지?) - vani.kim(김정빈)/클라우드 🙋답변 희망 멘토 sean.wd(장수용)/ @waterdrag0n ✏️ 궁금한 내용 SLI/SLO를 정의하고 멀티윈도우 burn rate 모델까지 설계했는데, 99.9% 가용성 목표를 실제로 구현할 때(특히 저트래픽 환경에서) 현실적으로 어떤 기준으로 잡아야 하는지 궁금합니다. 또한 “트래픽이 있다고 가정”해서 설계하는 건 이해하지만, 지금 트래픽이 낮아서 알럿이 실제로 안 오거나 오탐이 나면 ‘제대로 동작하는지’ 검증이 어려운 문제가 있어 이 부분까지 조언을 받고 싶습니다. [추가 이해를 위한 디테일한 질문]
👀 시도한 방식
⏭️ 이제 어떻게 하려고 하는지?
|
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 1 reply
-
|
안녕하세요.
|
Beta Was this translation helpful? Give feedback.
안녕하세요.
절대적인 분모 자체가 적은 상황이니 모든 부분에서 burn rate을 보려고 하는것보다는 에러의 절대량을 같이 복합적으로 봐서 판단하도록 세팅하는게 나을 것 같습니다. 윈도우 내 에러 개수가 n개 이상일때만 burn rate을 통한 얼럿이 활성화되게 하면 어떨까요?
recording rule을 활용하는 방향을 추천드립니다. 프로메테우스가 항상 겪는 문제가 OOM 이슈인데요, 복잡한 쿼리 연산이 몰리면 이런 이슈가 있는데 recording rule 사용 시 미리 계산한 메트릭을 사용하기 때문에 부하 측면에서 도움이 됩니다.
기준을 세우고 분리가 필요합니다.
서버 에러 rate, latency 늘어지는 이슈 등은 burn rate을 적용하되 디스크, 노드 등의 리소스는 burn rate 보다는 현재 동작하는지 여부가 중요하기 때문에 가용성을 위주로 모니터링 하는게 유리합니다.
처음 구축할 때 fault injection을 통해 검증을 하는건 필요합니다. 다만 그렇게 검증된 파이프라인에 대해 동작이 안하는건 아닐지 걱정할 필요는 없을거라고 생각합니다.