Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질

Andrej Karpathy가 새로운 코드를 공개했습니다. 이번에는 nanoGPT보다 더 극단적입니다. 외부 라이브러리 없이, 순수 Python만으로 GPT를 학습하고 추론하는 150줄짜리 코드입니다.

PyTorch 없음. NumPy 없음. import는 os, math, random 세 개뿐.

코드 상단의 주석이 모든 것을 요약합니다:

"This file is the complete algorithm. Everything else is just efficiency."

이 글에서는 microgpt.py를 한 줄 한 줄 해부합니다. 코드를 따라가다 보면, GPT라는 알고리즘이 실제로는 놀라울 정도로 단순한 수학 연산의 조합이라는 사실을 체감하게 됩니다.

전체 구조

microgpt.py는 크게 6개 파트로 나뉩니다:

파트	줄 수	역할
데이터 & 토크나이저	~10줄	이름 데이터셋 로드, 문자 단위 토큰화
Value 클래스 (Autograd)	~35줄	스칼라 자동 미분 엔진
파라미터 초기화	~15줄	가중치 행렬 생성 (4,192개 파라미터)
모델 아키텍처	~40줄	Embedding + Attention + MLP + RMSNorm
학습 루프	~20줄	Cross-entropy loss + Adam optimizer
추론	~15줄	Temperature sampling으로 이름 생성

총 파라미터: 4,192개. GPT-2 Small의 124M과 비교하면 약 30,000배 작습니다. 하지만 알고리즘은 동일합니다.

import os import math import random random.seed(42) if not os.path.exists('input.txt'): import urllib.request names_url = 'https://raw.githubusercontent.com/karpathy/makemore/refs/heads/master/names.txt' urllib.request.urlretrieve(names_url, 'input.txt') docs = [l.strip() for l in open('input.txt').read().strip().split('\n') if l.strip()] random.shuffle(docs)

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질

Karpathy의 microgpt.py 완전 해부: 150줄로 이해하는 GPT의 본질

전체 구조

1. 데이터와 토크나이저

이어서 읽으려면 로그인이 필요합니다

관련 포스트

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법

AI는 왜 어제 한 일을 잊는가 — 기억력 문제를 해결하는 오픈소스 3종