Skip to content
Discussion options

You must be logged in to vote

안녕하세요.

  1. 절대적인 분모 자체가 적은 상황이니 모든 부분에서 burn rate을 보려고 하는것보다는 에러의 절대량을 같이 복합적으로 봐서 판단하도록 세팅하는게 나을 것 같습니다. 윈도우 내 에러 개수가 n개 이상일때만 burn rate을 통한 얼럿이 활성화되게 하면 어떨까요?

  2. recording rule을 활용하는 방향을 추천드립니다. 프로메테우스가 항상 겪는 문제가 OOM 이슈인데요, 복잡한 쿼리 연산이 몰리면 이런 이슈가 있는데 recording rule 사용 시 미리 계산한 메트릭을 사용하기 때문에 부하 측면에서 도움이 됩니다.

  3. 기준을 세우고 분리가 필요합니다.
    서버 에러 rate, latency 늘어지는 이슈 등은 burn rate을 적용하되 디스크, 노드 등의 리소스는 burn rate 보다는 현재 동작하는지 여부가 중요하기 때문에 가용성을 위주로 모니터링 하는게 유리합니다.

  4. 처음 구축할 때 fault injection을 통해 검증을 하는건 필요합니다. 다만 그렇게 검증된 파이프라인에 대해 동작이 안하는건 아닐지 걱정할 필요는 없을거라고 생각합니다.

Replies: 1 comment 1 reply

Comment options

You must be logged in to vote
1 reply
@SuperSon7
Comment options

Answer selected by SuperSon7
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
개발
Labels
None yet
2 participants