supervised 데이터를 가지고 학습
regression 범위를 사용
Cost function(Loss function): 가설과 실제 데이터가 얼마나 차이나는 지
(H(x) - y)^2 -> 제곱을 함으로써 차이를 양수로 나타내고 차이가 크면 차이가 더 커진다.
각 점마다 따로 구해서 평균을 구하면 cost
cost = 1/m (시그마(H(xi) -yi)^2)
minmize cost(W, b) 하게 하는 W, b를 구해야한다.
Gradient descent algorithm: 주어진 코스트를 최소화하는 데 이용
어느 점에서든지 시작을 한 뒤, W를 조금씩 바꾸면서 경사도를 계산한다.
cost = 1/2m (시그마(H(xi) -yi)^2)
W := W - a d/dW cost(W) 알파 라운드
-> W := W - a d/dW (1/2m (시그마(W(xi) -yi)^2))
-> W := W - a (1/2m (시그마 2(W(xi) -yi))
-> W := W - a (1/m (시그마 (W(xi) -yi))
Convex function 으로 cost 함수를 만들어야한다. (3차원으로 보았을 때 경사가 한 점으로 모이는)
'Studying > Deep Learning' 카테고리의 다른 글
[모두를 위한 딥러닝] 6일차 (0) | 2017.04.02 |
---|---|
[모두를 위한 딥러닝] 5일차 (0) | 2017.03.27 |
[모두를 위한 딥러닝] 4일차 (0) | 2017.03.27 |
[모두를 위한 딥러닝] 3일차 (0) | 2017.03.24 |
[모두를 위한 딥러닝] 1일차 (0) | 2017.03.20 |