koos808

딥러닝 제대로 시작하기(책) - 4장 요약 및 Quiz 본문

Deep Learning/딥러닝 제대로 시작하기

딥러닝 제대로 시작하기(책) - 4장 요약 및 Quiz

koos808 2020. 7. 5. 02:14
728x90
반응형

* 4장은 수식이 많아 직접 책을 보는 것을 추천드립니다.

*※ STEP 4 : 역전파 * [책보기]

  • Q. 역전파법(backpropagation) 이 뭔가요?
    • 역전파는 앞먹임 신경망 학습에서 가중치와 바이어스에 대한 오차함수의 미분을 계산해야하는데 이러한 미분을 효율적으로 계산하는 방법이에요.
    • Q-1. 역전파법을 왜 사용하죠?
      • 경사 하강법을 실행하기 위해서는 오차함수 E(w)의 기울기를 계산해야 하는데, 이 미분의 계산이 매우 까다롭기 때문에 역전파법을 사용하는거죠.
      • 각 층의 결합 가중치(w)와 각 유닛의 바이어스(b)에 대한 오차함수의 편미분이 기울기 벡터의 각 성분이고,
        자세히는 중간층, 특히 입력이 가까운 깊은 층의 파라미터일수록 미분을 계산하기 까다로워요.
  • Q. 오차 역전파를 통해 오차 기울기(가중치에 대한 오차의 미분)를 계산하는 절차 를 말해줘요.
      1. 각각의 층의 유닛 입력 u과 출력 z을 순서대로 계산한다.
      1. 출력층 델타(δ)를 구한다. (통상적으로 δ = z - d : 출력층 L의 유닛 j의 델타 δ는 신경망의 출력(z)과 목표 출력(d)의 차가 된다.)
      1. 역전파 : 각 중간층 l( = L-1, L-2, .., 2)에서의 델타 δ를 출력층부터 가까운 순서대로 계산한다.
      1. 각 층 l(= 2, ..., L))의 파라미터 w에 대해 미분을 계산한다.
    • 참조 : l-1번째 층의 유닛 i와 l번째 층의 유닛 j를 잇는 결합의 가중치 w_ji에 대한 미분은,
      유닛 j에 대한 델타(δ_j)(L) 와 유닛 i의 출력 z_i(L-1)에 지나지 않는다.
  • Q. 순전파와 역전파 계산의 공통점과 차이점은?
    • 공통점 : 순전파와 역전파 계산은 모두 층 단위의 행렬 계산으로 나타낼 수 있으며 식의 형태가 닮았다는 공통점이 있다.
    • 차이점 : 순전파는 비선형 계산인데 비해, 역전파는 선형 계산이라는 차이점이 있다.
      • 순전파 계산에서는 각 층에 대한 입력은 유닛이 갖는 활성화 함수를 경유하기 때문에, 활성화 함수가 비선형이라면 이 층의 입출력의 관계도 비선형성을 갖는다.
        • ex) 로지스틱 함수를 예로 들면 각 층의 출력은 항상 [0, 1]의 범위로 제약되며, 값이 지나치게 커져서 발산해 버리는 일은 일어나지 않는다.
      • 한편, 역전파 계산은 선형 계산이다. 그 결과, 각 층의 가중치의 값이 크면 델타가 각 층을 거쳐 전달되는 도중에 급속하게 커지거나(발산), 혹은 반대로 기울기가 작으면 급속하게 작아져 0(소실) 이 되어 버린다. 어떤 경우든 가중치의 업데잍트가 잘안되며 학습 자체가 어려워진다.
728x90
반응형
Comments