[멘토링]LLM 서비스에서 메시지 큐 도입 시점과 기술 선택 기준이 궁금합니다. (답변 희망 멘토: charlotte.chk) #220
-
|
🙋 질문자: 판교 3기 / 14조(나춘식과 집사들) - waf.jung(정승환) / Cloud 🙋 답변 희망 멘토: charlotte.chk(김채현) / @cohys7 🔍 궁금한 내용 LLM 서비스에서 메시지 큐 도입 시점과 기술 선택 기준이 궁금합니다. 저희 서비스는 계약서 이미지 → OCR → LLM 해설 파이프라인을 자체 GPU 서버에서 운영할 예정입니다. 모델 응답이 1분 이상 걸릴 것으로 예상되어, 동시 요청 처리와 장애 시 재시도를 위해 메시지 큐 도입을 검토하고 있습니다. 현재는 초기 단계라 실트래픽은 크지 않지만, 장시간 추론(1분+)과 GPU 병목 특성상 재시도/중복 처리 방지/관측 같은 운영 이슈를 초기부터 설계에 반영하는 게 맞는지 판단이 필요합니다. 또한 팀 차원에서 운영 경험을 갖추기 위해 큐잉 시스템 도입을 검토하고 있으나, 현재 단계의 트래픽 대비 과도한 복잡도가 되지 않도록 도입의 적정선을 조언 받고 싶습니다. 🛠 시도한 방식 프로젝트 구조를 구현 가능성과 운영 경험을 염두에 두고 설계했습니다. 현재 아키텍처 [WAS - Spring Boot] → [AI 서버 - FastAPI] → [자체 GPU 모델 서빙]
검토한 내용
📋 이제 어떻게 하려고 하는지 메시지 큐 도입 관련해서 다음 세 가지를 고민 중입니다. A. 초기에는 큐 없이, 문제 발생 시 도입
B. 처음부터 비동기 패턴 적용 (큐 없이)
C. 운영 경험 확보를 위해 처음부터 메시지 큐 도입
추가) 가정 기반 부하 테스트 계획 (성장기 트래픽 가정)
🙏 질문 정리 도입 계기/경험
기술 선택 설계 판단 포트폴리오 관점 |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment
-
|
@WAFriend3416 안녕하세요. 1. 실제 AI 서비스 운영 큐 도입 계기 2. 다양한 큐 기술 스택 중 AI 서비스에 더 적합한 선택 기준 3. A/B/C 중 권장하는 접근과 판단 기준 5. 포트폴리오에서 운영 경험을 어필하는 방법 |
Beta Was this translation helpful? Give feedback.
@WAFriend3416 안녕하세요.
멘토링에서 답변 드렸던 부분 정리해서 답변 남깁니다.
1. 실제 AI 서비스 운영 큐 도입 계기
실제 AI 모델을 직접 운영하는 서비스 경험은 없어서, 유사한 운영 사례로 설명드립니다.
콘텐츠 파이프라인을 개발하면서 전사 콘텐츠를 수집·가공·유통하는 API를 운영했고,
여러 조직의 콘텐츠를 수집하거나, 다른 조직에서 발굴한 콘텐츠의 메타데이터를 동기화하는 과정에서 메시지 큐를 사용했습니다.
저희는 Kafka를 사용했었는데,
여러 조직에서 만든 콘텐츠를 한 곳에 모아 처리하고,
파티션 키로 사용해 동일 엔티티 단위의 순서를 보장하기 위해 카프카를 이용했습니다.
2. 다양한 큐 기술 스택 중 AI 서비스에 더 적합한 선택 기준
AI 서비스 보다, 지금 만드는 서비스가 어떤 특성을 가지는지 고려하는 것이 좋을 것 같습니다.
다양한 큐 기술마다, 각 기술의 장/단점이 존재할텐데요. 해당 장단점을 가지고 내가 만드는 서비스에 어떤 기술이 더 도움이 되는지 비교해서 생각해보면 좋을 것 같습니다.
3. A/B/C 중 권장하는 접근과 판단 기준
말씀 주신 것 처럼 A -> B -> C 순서대로 진행해도 큰 문제 없을 것 같습니다.
다만, 이미 응답시간이 오래 걸릴 것을 예상할 수 있고, 동기/비동기에 따라 프론트 작업이 달라진다면
A는 생략하고 B -> C 순서로 진행하는 것이 더 좋을 것 같습니다.
5.…