Claude Sonnet 4.6: Opus급 성능, 40% 저렴 — 벤치마크 심층 분석

Sonnet이 Opus를 이겼다? — Claude Sonnet 4.6 벤치마크 심층 분석
Anthropic이 2월 17일 공개한 Claude Sonnet 4.6가 특정 벤치마크에서 플래그십 모델 Opus 4.6를 능가하는 결과가 나왔습니다. 가격은 약 40% 저렴. 비결은 '싸게 만든 열화판'이 아니라, 아키텍처 레벨의 구조 변경에 있습니다.
Opus vs Sonnet, 뭐가 달랐나?
기존의 Opus-Sonnet 관계는 명확했습니다. Opus는 '풀스펙 두뇌', Sonnet은 '경량화 두뇌'. 같은 아키텍처를 압축하니 당연히 성능이 깎였죠.
4.6 세대에서 이 공식이 깨집니다.
Sonnet이 이기거나 동급인 영역
코딩과 에이전트 태스크에서 Sonnet이 Opus와 동급이거나 이기고 있습니다. $3/$15 per M tokens으로.
Opus가 확실히 이기는 영역
패턴이 보이시나요? Opus가 확실히 이기는 건 '추론 깊이'와 '초장문 컨텍스트 정확도'입니다.
비유하자면 이렇습니다. Sonnet 4.6은 수능 만점자입니다. 정해진 범위 내에서는 거의 완벽하게 풀어냅니다. Opus 4.6은 수학 올림피아드 금메달리스트입니다. 본 적 없는 문제, 여러 개념을 엮어야 하는 문제에서 차이가 벌어지죠.
대부분의 실무 코딩, 문서 작업, 에이전트 태스크는 '수능 범위'입니다. Opus가 필요한 건 미지의 추론이 요구되는 연구급 태스크뿐.
컴퓨터 사용 능력의 진화 속도
진짜 주목해야 할 건 개별 벤치마크 숫자가 아닙니다.
OSWorld 벤치마크 추이를 보면:
16개월 만에 5배. 3개월마다 약 10-15%p씩 올라가고 있습니다.
이 커브가 유지되면 올해 안에 90%를 넘깁니다. 'AI가 컴퓨터를 인간처럼 조작한다'가 연내 현실이 된다는 뜻입니다. 마우스 클릭, 드래그 앤 드롭, 폼 입력, 파일 관리를 AI가 직접 수행하는 시대가 오고 있어요.
Adaptive Thinking: 사고 깊이 자동 조절
기존 Extended Thinking은 항상 '깊게 생각'했습니다. 간단한 질문에도 토큰을 소모하며 과잉 추론하는 문제가 있었죠.
Adaptive Thinking은 4단계(low/medium/high/max)로 자동 조절됩니다.
사람이 문제 난이도에 따라 고민 시간을 조절하는 것과 같습니다. 결과적으로 같은 품질에 토큰 비용이 줄어듭니다.
개발자 입장에서 중요한 건: budget_tokens 파라미터로 "이 요청에는 최대 이만큼만 생각해"라고 제어할 수 있다는 점입니다. 비용 예측이 가능해졌어요.
Context Compaction: 가장 과소평가된 기능
1M 토큰 컨텍스트 윈도우 자체는 이전에도 있었지만, 문제는 'Lost-in-the-middle'이었습니다. 100만 토큰을 넣어도 중간 내용을 까먹으면 의미가 없으니까요.
Context Compaction은 서버 단에서 오래된 컨텍스트를 자동 요약합니다. 핵심 정보는 유지하면서 토큰을 절약하는 거죠.
이게 왜 중요한가? RAG 파이프라인의 설계가 바뀔 수 있기 때문입니다.
- 기존: 문서 -> 청킹 -> 임베딩 -> 벡터DB -> 리랭킹 -> LLM (5단계 파이프라인)
- 4.6: 문서 -> LLM (1단계, Compaction이 알아서 관리)
물론 아직 1M 컨텍스트는 베타이고, Usage Tier 4 이상에서만 접근 가능합니다. MRCR v2에서 Opus는 76%를 찍었지만 Sonnet 4.6의 수치는 아직 미공개. 이 부분은 검증이 필요합니다.
언제 Opus, 언제 Sonnet?
이번 벤치마크 결과를 종합하면 결론은 명확합니다.
Sonnet 4.6을 기본으로 쓰세요
- 코딩, 디버깅, 코드 리뷰 (SWE-bench 79.6%)
- 데이터 분석, 문서 작성, 지식 업무 (GDPval-AA 1633 Elo)
- 에이전트 워크플로우, 도구 사용 (Finance Agent 63.3%)
- 컴퓨터 직접 조작 (OSWorld 72.5%)
- 가격: $3 input / $15 output per M tokens
Opus 4.6은 이럴 때만
- 본 적 없는 문제를 풀어야 할 때 (ARC-AGI-2 68.8%)
- 수학 올림피아드급 추론이 필요할 때 (HLE 53.0%)
- 100만 토큰 문서에서 바늘 찾기를 해야 할 때 (MRCR v2 76%)
- 가격: $5 input / $25 output per M tokens
개발자라면 기본 스택을 Sonnet 4.6으로 바꾸고, Opus는 추론이 필요한 노드에만 쓰는 하이브리드 구조를 추천합니다. 같은 예산으로 약 1.67배 더 많은 작업을 처리할 수 있어요.
핵심 정리
Sonnet 4.6은 '저가형 Opus'가 아닙니다. 실무 최적화 모델입니다. 코딩, 에이전트, 지식 업무에서는 Opus와 동급이거나 앞서고, 비용은 약 40% 저렴. Opus가 필요한 순간은 "이 문제, 본 적 없는데?"라는 상황뿐입니다.
참고 소스: Anthropic 공식 블로그, Anthropic 시스템 카드, SWE-bench, OSWorld, ARC-AGI-2, Vals AI, Artificial Analysis