Gemma 4 MoE 파인튜닝 — 3.8B 활성 파라미터로 Arena #6 성능 커스터마이징
Gemma 4 26B MoE 모델에 QLoRA 적용. Expert 레이어 LoRA 전략, Dense 대비 비교, MoE 전용 학습 팁, Ollama 배포까지. LoRA 시리즈 Part 4.
Gemma 4 MoE 파인튜닝 — 3.8B 활성 파라미터로 Arena #6 성능을 커스터마이징하기
시리즈: Part 1: LoRA 이론 | Part 2: QLoRA + 한국어 | Part 3: 평가 + 배포 | Part 4 (이 글)
Part 1~3에서 Qwen 2.5 7B로 LoRA의 기초부터 배포까지 다뤘습니다. Part 4에서는 한 단계 올라갑니다 — Gemma 4 MoE 모델에 LoRA를 적용합니다.
왜 Gemma 4인가? 세 가지 이유:
- MoE 아키텍처: 26B 파라미터 중 3.8B만 활성화. 추론 비용은 4B급이지만 성능은 Arena #6
관련 포스트

AI Engineering
LLM 추론 최적화 Part 4 — 프로덕션 서빙
vLLM과 TGI로 프로덕션 배포. Continuous Batching, Speculative Decoding, 메모리 버짓 설계, 처리량 벤치마크.

AI Engineering
LLM 추론 최적�� Part 3 — Sparse Attention 실전
Sliding Window, Sink Attention, DeepSeek DSA, IndexCache, Nvidia DMS. 동적 토큰 선별부터 Needle-in-Haystack 평가까지.

AI Engineering
LLM 추론 최적화 Part 2 — KV Cache 최적화
KV Cache 양자화(int8/int4), PCA 압축(KVTC), PagedAttention(vLLM). 실전 메모리 절감 코드와 시나리오별 설정 가이드.