MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
MiniMax M2.5는 230B MoE 아키텍처에서 10B만 활성화하여 SWE-bench 80.2%를 달성합니다. Claude Opus의 1/20 가격에 동등한 코딩 성능. Forge RL 프레임워크, 벤치마크 분석, 가격 비교.

MiniMax M2.5: 1시간 1달러로 Opus급 성능을 쓰는 시대
2026년 2월 12일, 상하이의 AI 스타트업 MiniMax가 M2.5를 공개했습니다. SWE-bench Verified 80.2%, BrowseComp 76.3%, Multi-SWE-Bench 51.3%. Claude Opus 4.6의 0.6%p 이내이면서, 가격은 1/20 수준입니다.
모델은 오픈 웨이트로 Hugging Face에 공개되었고, modified MIT 라이선스를 사용합니다. 230B 파라미터 MoE 아키텍처에서 추론 시 10B만 활성화합니다. 100 TPS(tokens per second)의 Lightning 변종을 1시간 연속 실행해도 비용은 1달러입니다.
이 글에서는 M2.5의 아키텍처, 학습 방법론, 벤치마크 성능, 가격 구조를 분석하고, 이것이 AI 산업에 어떤 의미인지를 살펴봅니다.
아키텍처: 230B인데 10B만 쓴다
MiniMax M2.5는 Mixture of Experts(MoE) 아키텍처입니다.
| 항목 | 수치 |
|---|---|
| 총 파라미터 | 230B (2,300억) |
| 활성 파라미터 | 10B (100억) — 전체의 약 4% |
| 컨텍스트 윈도우 | 204,800 토큰 (~205K) |
| 학습 언어 | 13개 (Python, Go, C, C++, TypeScript, Rust, Kotlin, Java, JavaScript, PHP, Lua, Dart, Ruby) |
MoE의 핵심 아이디어: 입력 토큰마다 전체 파라미터 중 일부 "전문가"만 활성화합니다. 230B의 지식 용량을 유지하면서, 실제 계산량은 10B 모델 수준입니다. 이것이 가격과 속도의 비밀입니다.
두 가지 변종으로 제공됩니다:
| 변종 | 속도 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|---|
| M2.5 (Standard) | 50 TPS | $0.15 | $1.20 |
| M2.5-Lightning | 100 TPS | $0.30 | $2.40 |
관련 포스트

InternVL-U: 4B 파라미터로 이해+생성+편집을 동시에 -- 통합 멀티모달의 새 기준
Shanghai AI Lab의 InternVL-U. 4B 파라미터 단일 모델로 이미지 이해, 생성, 편집, 추론 기반 생성을 모두 수행. 디커플드 비주얼 표현으로 14B BAGEL을 GenEval과 DPG-Bench에서 능가.

Hybrid Mamba-Transformer MoE: 세 팀이 동시에 도달한 같은 결론 -- 2026년 LLM 아키텍처의 수렴
NVIDIA Nemotron 3 Nano, Qwen 3.5, Mamba-3가 독립적으로 75% 선형 레이어 + 25% 어텐션 + MoE 구조에 수렴. 88% KV-cache 절감, O(n) 복잡도로 긴 컨텍스트 처리.

Spectrum: 학습 없이 Diffusion 모델 3~5배 빠르게 -- 체비셰프 다항식의 마법
Stanford/ByteDance의 CVPR 2026 논문. 체비셰프 다항식 기반 feature forecasting으로 FLUX.1 4.79배, HunyuanVideo 4.56배 스피드업. Training-free로 어떤 모델에도 즉시 적용.