나만의 autoresearch 만들기 — 다른 도메인에 자율 실험 적용하기

나만의 autoresearch 만들기 -- 다른 도메인에 자율 실험 적용하기

Karpathy의 autoresearch는 LLM 사전학습에 특화된 자율 실험 시스템입니다. Part 1에서 전체 구조를, Part 2에서 에이전트의 실험 전략과 결과 분석을 다뤘습니다. 여기까지 읽으셨다면 한 가지 질문이 떠오를 겁니다.

"이걸 내 문제에도 쓸 수 있을까?"

이번 글에서는 autoresearch의 핵심 패턴을 추출하고, 텍스트 분류, 이미지 분류, RAG 파이프라인이라는 세 가지 도메인에 적용하는 방법을 다룹니다. 마지막에는 범용 실험 러너 코드와 program.md 템플릿을 제공합니다.

autoresearch의 핵심 패턴 추출

autoresearch 전체를 관통하는 구조는 놀라울 정도로 단순합니다. 파일 3개, 규칙 5단계, 설계 원칙 몇 가지. 이것만 추출하면 어떤 ML 태스크에든 적용할 수 있습니다.

3-파일 아키텍처

autoresearch의 파일 구조를 역할별로 정리하면 다음과 같습니다.

파일	역할	수정 주체
`prepare.py`	고정 인프라 (데이터, 평가, 유틸리티)	인간 (최초 1회)
`train.py`	실험 대상 (모델, 하이퍼파라미터, 학습 루프)	에이전트 (매 실험)
`program.md`	에이전트 프로토콜 (실험 규칙, 평가 기준)	인간 (메타 최적화)

`prepare.py`는 안정적 토대입니다. 데이터 로딩, 전처리, 평가 함수가 들어 있고, 에이전트는 이 파일을 절대 건드리지 않습니다. 실제 autoresearch의 prepare.py를 보면 MAX_SEQ_LEN, TIME_BUDGET, EVAL_TOKENS 같은 상수와 evaluate_bpb() 함수가 고정되어 있습니다.

python

# prepare.py에서 — 에이전트가 건드리지 않는 고정 상수
MAX_SEQ_LEN = 2048       # context length
TIME_BUDGET = 300        # training time budget in seconds (5 minutes)
EVAL_TOKENS = 40 * 524288  # number of tokens for val eval

`train.py`는 탐색 공간입니다. 에이전트가 수정하는 유일한 파일이며, 모델 아키텍처, 옵티마이저, 하이퍼파라미터, 배치 크기 등 모든 것이 여기에 들어 있습니다. autoresearch에서는 GPT 모델 전체와 MuonAdamW 옵티마이저, 학습 루프가 이 단일 파일에 담겨 있습니다.

python

# train.py에서 — 에이전트가 자유롭게 수정하는 하이퍼파라미터
DEPTH = 8               # number of transformer layers
ASPECT_RATIO = 64       # model_dim = depth * ASPECT_RATIO
TOTAL_BATCH_SIZE = 2**19 # ~524K tokens per optimizer step
MATRIX_LR = 0.04        # learning rate for matrix parameters (Muon)
WEIGHT_DECAY = 0.2      # cautious weight decay for Muon

`program.md`는 에이전트의 행동 규범입니다. 무엇을 수정해도 되는지, 어떤 메트릭을 최적화해야 하는지, 실험 결과를 어떻게 기록하는지가 명시되어 있습니다. program.md의 핵심 규칙을 요약하면 이렇습니다.

나만의 autoresearch 만들기 — 다른 도메인에 자율 실험 적용하기