런칭에서 망하는 진짜 이유: 합의·책임·운영

조직/팀을 위한 AI 프로젝트 프로덕션 가이드

기술이 아니라 조직이 문제다

코드는 완벽합니다. 모델 성능도 좋습니다. 그런데 런칭이 자꾸 지연되거나, 런칭 후 3개월 내에 조용히 내려갑니다.

왜? 합의가 없고, 책임이 불명확하고, 운영 체계가 없어서입니다.

1. 승인과 합의

문제: "누가 오케이 했어?"

AI 프로젝트는 결과가 확률적입니다. 100% 정확도란 없습니다. 그런데 "얼마나 틀려도 되는지" 합의 없이 런칭하면, 첫 번째 실패에서 프로젝트가 멈춥니다.

증상:

런칭 직전에 갑자기 브레이크
"이거 법무 검토 받았어?" "보안팀은?"
한 번 실패하자 "AI는 아직 이르다" 결론

처방:

런칭 전 이해관계자 명단 작성 (법무, 보안, CS, 사업)
허용 실패율 합의 (예: 5% 오답 허용)
단계적 롤아웃 합의 (내부 → 베타 → 전체)

2. 책임 소재 (RACI)

문제: "이거 누가 고쳐야 해?"

모델이 틀린 답을 했습니다. 누가 책임지나요? ML 팀? 백엔드 팀? 프로덕트 팀? 책임이 불명확하면 모두가 "내 일 아님"이 됩니다.

증상:

장애 발생 시 핑퐁
"모델 문제인데요" "아니 데이터 문제예요" "그건 프롬프트 문제..."
아무도 안 고치고 방치

처방:

RACI 매트릭스로 정리: Responsible(실행), Accountable(책임), Consulted(자문), Informed(통보)

3. 보안과 권한

문제: "이 데이터 써도 돼?"

AI는 데이터를 먹습니다. 그 데이터가 개인정보라면? 내부 기밀이라면? 권한 체계 없이 런칭하면 사고 터집니다.

증상:

"고객 데이터가 로그에 남아있어요"
"이 응답에 내부 문서 내용이 그대로..."
감사에서 걸림

처방:

데이터 분류 (공개 / 내부 / 기밀 / 개인정보)
접근 권한 레벨별 응답 제한
PII 마스킹 / 로그 정제
정기 감사 체크포인트

4. 모니터링과 SLO

문제: "언제부터 망가져 있었어?"

대시보드 없이 운영하면, 문제가 생겨도 모릅니다. 사용자 컴플레인이 쌓여야 알게 됩니다.

증상:

"지난주부터 이상했대요" (일주일 뒤에 발견)
비용이 3배 나왔는데 아무도 몰랐음
조용한 품질 저하 (성능 서서히 떨어짐)

처방:

SLI (측정 지표):

성공률 (2xx 응답 비율)
레이턴시 (p50, p95, p99)
에러율 (4xx, 5xx)
비용 (일일/월간)

SLO (목표):

성공률 99.5% 이상
p95 레이턴시 3초 이하
월간 비용 $X 이하

알람:

성공률 99% 이하 시 즉시 알림
레이턴시 5초 초과 시 알림
일일 비용 한도 초과 시 알림

5. 롤백과 장애 대응

문제: "빨리 원래대로 돌려!"

새 버전 배포 후 문제가 생겼습니다. 롤백 절차가 없으면 패닉입니다.

증상:

"어떻게 이전 버전으로 돌리지?"
롤백하는 데 2시간
롤백했는데 데이터가 꼬임

처방:

원클릭 롤백 준비 (이전 버전 항상 보관)
롤백 테스트 정기 실행
장애 대응 런북 작성

장애 등급:

6. 피드백 루프와 개선

문제: "사용자들이 뭐라고 하는지 모르겠어"

런칭 후 피드백을 수집하지 않으면, 개선할 수 없습니다.

증상:

"잘 쓰고 있는 거 맞아?"
실패 케이스가 뭔지 모름
같은 문제가 반복

처방:

실패 케이스 자동 수집 (low confidence, 사용자 부정 피드백)
주간 실패 분석 리뷰
개선 → 배포 → 측정 사이클

조직용 체크리스트

시리즈

1편: 데모는 되는데 런칭만 하면 무너지는 이유 5가지
2편: 바이브코더를 위한 프로덕션 생존 가이드
3편: 조직/팀을 위한 가이드 — 합의·책임·운영 ← 현재 글