Multi-Layer Perceptron 노드의 상세 동작 알아보기(2) - 역전파

지난 글에서는 입력 신호가 은닉층을 거쳐 출력층으로 전달되는 순전파의 계산 과정에 대해 알아보았습니다. 초기에는 가중치를 무작위로 설정하기 때문에 예측값이 정답과 차이가 클 것 입니다.

때문에 정답과 예측값 간의 차이를 줄이는 학습을 수행해야 합니다. 먼저 차이, 즉 오차를 평가하기 위한 목적 함수를 정의해보겠습니다. 목적 함수는 손실함수, 비용함수 라고도 부릅니다.

해당 글에서는 목적함수로 MSE(Mean Squared Error, 평균제곱오차)를 사용하겠습니다. MSE의 계산 식을 작성해보면 다음과 같이 나타낼 수 있습니다.

$$\displaystyle e = \frac{1}{2n} \sum_{i=1}^{n} \| \mathbf{y}_i - \mathbf{o}_i \|_2^2 $$

정답 벡터($y_i$)에서 예측값 벡터($o_i$)를 빼고 해당 벡터의 L2 norm (유클리드 노름)을 구하는 식으로 나타낼 수 있습니다.

결국 우리의 목표는 가중치 행렬이 $U^1, U^2$의 목적함수의 최저점을 찾아야 합니다. 그렇다면 $U^1$, $U^2$(입력층 - 은닉층, 은닉층 - 출력층을 잇는 가중치)의 업데이트는 다음과 같이 이루어져야 합니다.

$$\left. \begin{aligned} \mathbf{U}^1 &= \mathbf{U}^1 - \rho \frac{\partial J}{\partial \mathbf{U}^1} \\ \mathbf{U}^2 &= \mathbf{U}^2 - \rho \frac{\partial J}{\partial \mathbf{U}^2} \end{aligned} \right\}$$

그렇다면 출력층 가중치 $U^2$ 학습을 진행해 보겠습니다. \frac{\partial J}{\partial \mathbf{U}^2}에서, 목적함수 $J$는 $u^2_{kj}와 연결되어있지 않습니다.

때문에 미분의 연쇄법칙을 이용하여 다음과 같은 미분식으로 계산해야합니다. $$ \frac{\partial J}{\partial u^2_{kj}} = \frac{\partial J}{\partial o_k} \cdot \frac{\partial o_k}{\partial osum_k} \cdot \frac{\partial osum_k}{\partial u^2_{kj}} $$

'CS > AI' 카테고리의 다른 글

Multi-Layer Perceptron 노드의 상세 동작 알아보기(1) - 순전파 (0)	2025.12.06

'CS > AI' 카테고리의 다른 글

티스토리툴바