Replies: 1 comment
-
|
안녕하세요, 장애 복구 시나리오를 체계적으로 정리해보려는 시도 좋습니다. 실무에서는 더 나아가 Runbook이나 Playbook이라는 개념으로 관리하곤 하는데, 이 키워드들을 한번 깊게 스터디해보시는 것을 추천합니다. 담당자 본인이 자리에 없더라도 팀원 누구나 이 문서를 보고 즉각 대응할 수 있도록 시스템화하는 것이 운영의 핵심이라는 생각으로 적어보시는걸 추천합니다. 누가 보더라도 동일한 결과를 낼 수 있는 가이드를 만드는 걸 목표로 하면 더 좋을 것 같습니다. 또한, 가능한 시나리오라도 스테이징 환경에서 의도적으로 장애 상황을 발생시켜 보며 시나리오를 검증해 보는 것도 좋습니다. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
🙋질문자
판교 3기 / 5조(독토리) - haaland.kim(김지석) / Cloud
🙋답변 희망 멘토
sean.wd(장수용) 멘토님 / @waterdrag0n
✏️ 궁금한 내용
서비스 운영 안정성을 높이기 위해 장애 복구 시나리오, 롤백 절차, 알림 체계 같은 운영 요소를 정리하고 있습니다. 이 과정에서 문득 실제 현업에서는 장애 대응 훈련을 어떤 방식으로 하는지가 궁금합니다!
신입이나 주니어가 이런 운영 훈련 관점까지 이해하고 있는 것이 실제 인프라/클라우드 직무에서 어느 정도 의미가 있는지도 궁금합니다.
👀 시도한 방식
현재 운영 안정성을 높이기 위해 장애 대응 및 복구 시나리오를 정리해보려 했습니다.
다만 문서로만 정리하는 것과 실제 현업에서 훈련하는 방식은 다를 수 있다고 느껴, 실무에서는 어떤 식으로 운영하는지 궁금해졌습니다.
⏭️ 이제 어떻게 하려고 하는지?
우선은 현재 서비스 기준으로 발생 가능한 장애 상황을 정리하고, 각 상황별로 대응 절차와 복구 흐름을 문서화해보려고 합니다.
그 이후 멘토님 조언을 참고해서, 지금 단계에서 현실적으로 할 수 있는 장애 대응 훈련 수준이 어디까지인지 정리하고, 작은 범위부터라도 운영 검증 방식에 반영해보려고 합니다.
Beta Was this translation helpful? Give feedback.
All reactions