일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- python image list
- 파이썬 이미지 리스트 변환
- 파이썬 이미지 라벨 저장
- ORACLE 상위 N개 추출
- 회수모형
- jupyter notebook 테마 변경
- ORACLE NULL값 처리
- jupyter notebook PDF
- CSS Fraud Score
- linux 폴더 크기 확인
- 신용평가 부정사용 평점
- 행동평점
- ORACLE SQL NVL
- SQL NVL
- 파이썬 테마
- python image load
- python pandas
- 딥러닝
- linux 폴더 용량 확인
- SQL NULL값 처리
- 파이썬 이미지 불러오기
- 주피터노트북 테마 변경
- ORACLE 상위 행 추출
- Python Numpy
- Cudnn 버전 확인
- 딥러닝 제대로 시작하기
- 리눅스 저장 용량 확인
- 주식 데이터 수집
- 신청평점
- 신용평가 Fraud
Archives
- Today
- Total
koos808
딥러닝 제대로 시작하기(책) - 4장 요약 및 Quiz 본문
728x90
반응형
* 4장은 수식이 많아 직접 책을 보는 것을 추천드립니다.
*※ STEP 4 : 역전파 * [책보기]
- Q. 역전파법(backpropagation) 이 뭔가요?
- 역전파는 앞먹임 신경망 학습에서 가중치와 바이어스에 대한 오차함수의 미분을 계산해야하는데 이러한 미분을 효율적으로 계산하는 방법이에요.
- Q-1. 역전파법을 왜 사용하죠?
- 경사 하강법을 실행하기 위해서는 오차함수 E(w)의 기울기를 계산해야 하는데, 이 미분의 계산이 매우 까다롭기 때문에 역전파법을 사용하는거죠.
- 각 층의 결합 가중치(w)와 각 유닛의 바이어스(b)에 대한 오차함수의 편미분이 기울기 벡터의 각 성분이고,
자세히는 중간층, 특히 입력이 가까운 깊은 층의 파라미터일수록 미분을 계산하기 까다로워요.
- Q. 오차 역전파를 통해 오차 기울기(가중치에 대한 오차의 미분)를 계산하는 절차 를 말해줘요.
-
- 각각의 층의 유닛 입력 u과 출력 z을 순서대로 계산한다.
-
- 출력층 델타(δ)를 구한다. (통상적으로 δ = z - d : 출력층 L의 유닛 j의 델타 δ는 신경망의 출력(z)과 목표 출력(d)의 차가 된다.)
-
- 역전파 : 각 중간층 l( = L-1, L-2, .., 2)에서의 델타 δ를 출력층부터 가까운 순서대로 계산한다.
-
- 각 층 l(= 2, ..., L))의 파라미터 w에 대해 미분을 계산한다.
- 참조 : l-1번째 층의 유닛 i와 l번째 층의 유닛 j를 잇는 결합의 가중치 w_ji에 대한 미분은,
유닛 j에 대한 델타(δ_j)(L) 와 유닛 i의 출력 z_i(L-1) 의 곱에 지나지 않는다.
-
- Q. 순전파와 역전파 계산의 공통점과 차이점은?
- 공통점 : 순전파와 역전파 계산은 모두 층 단위의 행렬 계산으로 나타낼 수 있으며 식의 형태가 닮았다는 공통점이 있다.
- 차이점 : 순전파는 비선형 계산인데 비해, 역전파는 선형 계산이라는 차이점이 있다.
- 순전파 계산에서는 각 층에 대한 입력은 유닛이 갖는 활성화 함수를 경유하기 때문에, 활성화 함수가 비선형이라면 이 층의 입출력의 관계도 비선형성을 갖는다.
- ex) 로지스틱 함수를 예로 들면 각 층의 출력은 항상 [0, 1]의 범위로 제약되며, 값이 지나치게 커져서 발산해 버리는 일은 일어나지 않는다.
- 한편, 역전파 계산은 선형 계산이다. 그 결과, 각 층의 가중치의 값이 크면 델타가 각 층을 거쳐 전달되는 도중에 급속하게 커지거나(발산), 혹은 반대로 기울기가 작으면 급속하게 작아져 0(소실) 이 되어 버린다. 어떤 경우든 가중치의 업데잍트가 잘안되며 학습 자체가 어려워진다.
- 순전파 계산에서는 각 층에 대한 입력은 유닛이 갖는 활성화 함수를 경유하기 때문에, 활성화 함수가 비선형이라면 이 층의 입출력의 관계도 비선형성을 갖는다.
728x90
반응형
'Deep Learning > 딥러닝 제대로 시작하기' 카테고리의 다른 글
딥러닝 제대로 시작하기(책) - 6장 요약 및 Quiz (2) | 2020.07.05 |
---|---|
딥러닝 제대로 시작하기(책) - 5장 요약 및 Quiz (0) | 2020.07.05 |
딥러닝 제대로 시작하기(책) - 3장 요약 및 Quiz (0) | 2020.07.05 |
딥러닝 제대로 시작하기(책) - 2장 요약 및 Quiz (0) | 2020.07.05 |
딥러닝 제대로 시작하기(책) - 1장 요약 (0) | 2020.07.05 |
Comments