런칭에서 망하는 진짜 이유: 합의·책임·운영
SOTAAZ·

런칭에서 망하는 진짜 이유: 합의·책임·운영
조직/팀을 위한 AI 프로젝트 프로덕션 가이드
기술이 아니라 조직이 문제다
코드는 완벽합니다. 모델 성능도 좋습니다. 그런데 런칭이 자꾸 지연되거나, 런칭 후 3개월 내에 조용히 내려갑니다.
왜? 합의가 없고, 책임이 불명확하고, 운영 체계가 없어서입니다.
1. 승인과 합의
문제: "누가 오케이 했어?"
AI 프로젝트는 결과가 확률적입니다. 100% 정확도란 없습니다. 그런데 "얼마나 틀려도 되는지" 합의 없이 런칭하면, 첫 번째 실패에서 프로젝트가 멈춥니다.
증상:
- 런칭 직전에 갑자기 브레이크
- "이거 법무 검토 받았어?" "보안팀은?"
- 한 번 실패하자 "AI는 아직 이르다" 결론
처방:
- 런칭 전 이해관계자 명단 작성 (법무, 보안, CS, 사업)
- 허용 실패율 합의 (예: 5% 오답 허용)
- 단계적 롤아웃 합의 (내부 → 베타 → 전체)
2. 책임 소재 (RACI)
문제: "이거 누가 고쳐야 해?"
모델이 틀린 답을 했습니다. 누가 책임지나요? ML 팀? 백엔드 팀? 프로덕트 팀? 책임이 불명확하면 모두가 "내 일 아님"이 됩니다.
증상:
- 장애 발생 시 핑퐁
- "모델 문제인데요" "아니 데이터 문제예요" "그건 프롬프트 문제..."
- 아무도 안 고치고 방치
처방:
RACI 매트릭스로 정리: Responsible(실행), Accountable(책임), Consulted(자문), Informed(통보)
3. 보안과 권한
문제: "이 데이터 써도 돼?"
AI는 데이터를 먹습니다. 그 데이터가 개인정보라면? 내부 기밀이라면? 권한 체계 없이 런칭하면 사고 터집니다.
증상:
- "고객 데이터가 로그에 남아있어요"
- "이 응답에 내부 문서 내용이 그대로..."
- 감사에서 걸림
처방:
- 데이터 분류 (공개 / 내부 / 기밀 / 개인정보)
- 접근 권한 레벨별 응답 제한
- PII 마스킹 / 로그 정제
- 정기 감사 체크포인트
4. 모니터링과 SLO
문제: "언제부터 망가져 있었어?"
대시보드 없이 운영하면, 문제가 생겨도 모릅니다. 사용자 컴플레인이 쌓여야 알게 됩니다.
증상:
- "지난주부터 이상했대요" (일주일 뒤에 발견)
- 비용이 3배 나왔는데 아무도 몰랐음
- 조용한 품질 저하 (성능 서서히 떨어짐)
처방:
SLI (측정 지표):
- 성공률 (2xx 응답 비율)
- 레이턴시 (p50, p95, p99)
- 에러율 (4xx, 5xx)
- 비용 (일일/월간)
SLO (목표):
- 성공률 99.5% 이상
- p95 레이턴시 3초 이하
- 월간 비용 $X 이하
알람:
- 성공률 99% 이하 시 즉시 알림
- 레이턴시 5초 초과 시 알림
- 일일 비용 한도 초과 시 알림
5. 롤백과 장애 대응
문제: "빨리 원래대로 돌려!"
새 버전 배포 후 문제가 생겼습니다. 롤백 절차가 없으면 패닉입니다.
증상:
- "어떻게 이전 버전으로 돌리지?"
- 롤백하는 데 2시간
- 롤백했는데 데이터가 꼬임
처방:
- 원클릭 롤백 준비 (이전 버전 항상 보관)
- 롤백 테스트 정기 실행
- 장애 대응 런북 작성
장애 등급:
6. 피드백 루프와 개선
문제: "사용자들이 뭐라고 하는지 모르겠어"
런칭 후 피드백을 수집하지 않으면, 개선할 수 없습니다.
증상:
- "잘 쓰고 있는 거 맞아?"
- 실패 케이스가 뭔지 모름
- 같은 문제가 반복
처방:
- 실패 케이스 자동 수집 (low confidence, 사용자 부정 피드백)
- 주간 실패 분석 리뷰
- 개선 → 배포 → 측정 사이클
조직용 체크리스트
시리즈
- 1편: 데모는 되는데 런칭만 하면 무너지는 이유 5가지
- 2편: 바이브코더를 위한 프로덕션 생존 가이드
- 3편: 조직/팀을 위한 가이드 — 합의·책임·운영 ← 현재 글