AI Research•February 14, 2026•EN

역전파를 처음부터: Chain Rule, 계산 그래프, 위상 정렬

microgpt.py의 backward() 15줄이 작동하는 원리. 고등학교 미분부터 시작해 chain rule, 계산 그래프, 위상 정렬, 역전파까지 연결합니다.

microgpt.py의 backward() 함수는 15줄입니다. 하지만 이 15줄이 딥러닝 전체를 떠받치는 핵심 알고리즘 -- 역전파(backpropagation) -- 의 완전한 구현입니다.

이 글에서는 "왜 위상 정렬이 필요한가?"와 "chain rule이 뭔가?"를 고등학교 미분부터 시작해 microgpt.py의 backward()까지 연결합니다.

신경망을 학습시킨다는 것은 이런 뜻입니다:

3번이 어렵습니다. 파라미터가 4,192개(microgpt.py)든 70억 개(LLaMA)든, 각각에 대해 "이 파라미터를 살짝 바꾸면 loss가 얼마나 변하는가?"를 계산해야 합니다.

이것을 효율적으로 하는 알고리즘이 역전파입니다. 그리고 역전파의 수학적 기반이 chain rule입니다.

고등학교 미분부터 시작합니다.

함수 f(x) = x^2의 미분은 f'(x) = 2x입니다. x가 3이면, f'(3) = 6. "x를 3에서 아주 조금 늘리면, f는 약 6배만큼 증가한다"는 뜻입니다.

그런데 함수가 중첩되면 어떨까요?

🔒

무료 회원가입으로 전체 콘텐츠를 확인하세요.

관련 포스트