MiniCPM-o 4.5 한국어 성능도 잘 나올까?
MiniCPM-o 4.5의 한국어 성능을 영어와 나란히 비교 측정했습니다. 이미지 설명, OCR, 문서 추출에서 한국어가 잘 되는 부분과 무너지는 지점, 그리고 프롬프트가 아닌 아키텍처에서 오는 근본 원인을 분석합니다.

MiniCPM-o 4.5 한국어 성능도 잘 나올까?
MiniCPM-o 4.5는 영어와 중국어에 최적화된 옴니 모델입니다. 그렇다면 한국어는 얼마나 될까요?
동일한 이미지에 한국어와 영어로 같은 질문을 던지고, 출력을 나란히 비교했습니다. 이미지 설명, OCR, 문서 추출, 파인튜닝까지 실제로 돌려본 결과를 정리합니다.
결론부터 말하면: 한국어는 됩니다. 하지만 흥미로운 문제들이 있고, 그 원인은 프롬프트가 아니라 더 깊은 곳에 있습니다.
테스트 환경
| 항목 | 사양 |
|---|---|
| 모델 | MiniCPM-o 4.5 (BF16, 17.6GB VRAM) |
| 프레임워크 | transformers 4.51.0, PyTorch 2.x |
| 방법 | 동일 이미지 + 동일 의미의 한/영 질문 |
| 디코딩 | sampling=True, temperature=0.7, repetition_penalty=1.2 |
시스템 프롬프트는 각 언어별로 다음과 같이 설정했습니다:
system_prompts = {
"ko": "당신은 한국어 전문 어시스턴트입니다. 반드시 한국어로만 답변하세요. 중국어, 영어, 러시아어 등 다른 언어를 섞지 마세요.",
"en": "You are a helpful assistant. Respond only in English.",
}잘 되는 것들
이미지 설명: 에펠탑
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.