mioscode
diff --git a/‎_posts/2019-11-21-DL(2)-mulit-layer-network-activate-function-loss-function.md
Lines changed: 112 additions & 16 deletions b/‎_posts/2019-11-21-DL(2)-mulit-layer-network-activate-function-loss-function.md
Lines changed: 112 additions & 16 deletions
diff --git a/‎assets/images/dl2/loss_function.png
122 KB b/‎assets/images/dl2/loss_function.png
122 KB
diff --git a/‎assets/images/dl2/times.png
62.6 KB b/‎assets/images/dl2/times.png
62.6 KB
@@ -44,7 +44,7 @@ comments: true
 $y = ax$라는 선형함수가 있다고 한다면 이 것을 3층으로 구성하면 $y = a(a(a(x)))$ 와 동일한 것으로 이는 $y = a^3(x)$와 같다. 굳이 은닉층 없이 선형함수로 네트워크를 구성하는 것은 의미가 없다는 뜻이다. 
 1.2.2.부터는 모두 비선형함수이다.
 
-<center><img src="https://mioscode.github.io/assets/images/dl2/step_function.png" width="50%"></center>
+<center><img src="https://mioscode.github.io/assets/images/dl2/linear_function.png" width="50%"></center>
 
 ### 1.2.2. Binary Step Function (=Step Function)
 - 임계치를 기준으로 출력을 해준다.
@@ -63,6 +63,9 @@ $y = ax$라는 선형함수가 있다고 한다면 이 것을 3층으로 구성
 
 $$s(t)=\frac{1}{1+e^{-t}}$$
 
+($e^{-t}$ : 자연로그의 역함수인 지수 함수)
+($e$ : 오일러 상수; 근사값=$2.718281828459...$)
+
 ### 1.2.4. Tahn Function
 - 장단점이 sigmoid와 유사하다.
 - Sigmoid와 같이 잘 사용하지 않는 함수이다.
@@ -74,35 +77,128 @@ $$s(t)=\frac{1}{1+e^{-t}}$$
 - CNN에서 좋은 성능을 보였고, 현재 딥러닝에서 가장 많이 사용하는 활성화 함수이다.
 - 실제 뇌와 같이 모든 정보에 반응하는 것이 나닌 일부 정보에 대해 무시와 수용을 통해 보다 효율적인 결과를 낸다.
 - 미분값이 상수가 아닌 함수이며 backpropagation을 허용한다.
+- 비선형함수이고 도함수를 가지며 backpropagation을 허용한다.
+  - 도함수 : (유)도함수, 미분 원하는 함수를 미분계수 구하는 식에 a대신 x로 넣었을 떄 모두 유도 된 함수를 도함수
 
 <center><img src="https://mioscode.github.io/assets/images/dl2/relu_function.png" width="50%"></center>
 
 ### 1.2.6 Swish & Leacky ReLU & ELU
 
 <center><img src="https://mioscode.github.io/assets/images/dl2/swish_function.png" width="50%"></center>
 
-<center><img src="https://mioscode.github.io/assets/images/dl2/leacky_relu_function.png" width="50%"></center>
+<center><img src="https://mioscode.github.io/assets/images/dl2/leaky_relu_function.png" width="50%"></center>
 
 <center><img src="https://mioscode.github.io/assets/images/dl2/elu_function.png" width="50%"></center>
 
-## 1.1. 신경망 용어 정의
-- 타깃(target) : 기대 출력을 의미합니다.
-- 매핑(mapping) : 입력과 타깃의 관계로 입력을 representation로 변환, 연관시키는 것을 의미합니다.
-- 가중치(weight) : 머신 러닝, 딥러닝 모두 결국은 가장 효율적인 식을 찾는 것이 목표이며, 이런 식 또는 식에 필요한 파라미터를 칭합니다.
-- 손실함수(loss function) : 타깃과 출력값의 차이를 계산하는 함수입니다
-- 역전파(Backpropagation) : 손실함수의 결과를 개선하기 위해서 다시 결과에서부터 가중치를 수정하는 과정입니다. 이를 옵티마이저(optimizer)가 담당합니다.
+## 1.3. 다차원 배열 연산
+- 앞서 설명한 가중치의 값을 보다 편하게 하기 위해서 행렬 연산을 이용하는 것이다. 한 두개의 신경망 층은 인간이 계산할 수 있을지 모르겠지만 그 이상의 수 많은 차원의 수많은 뉴런층으로 구성된 신경망의 weight를 일일이 계산하는 것은 불가능한 일이다. 이를 컴퓨팅적으로도 쉽게 할 수 있도록 돕는 것이 행렬 연산이다. 
+- 여기서 중요한 개념은 다차원 배열(행렬) 간의 곱 연산이다. 행렬의 곱이 성립하기 위해서는 기본적으로 아래의 조건을 따라야 한다. 
+  $$a \times b  *  c \times d  =  a \times d \ (when \ b = c )$$
+  - $*$(곱 연산)의 안쪽에 있는 $b$와 $c$의 값이 일치해야 하며, 곱 연산을 했을 때 결과값은 $a \times d$의 형태로 나온다는 점이다. 이는 한쪽이 1차원 배열일 때도 동일하게 적용된다.
+
+### 예제
+```python
+import numpy as np
+
+X = np.array([[1,2]])
+print(X.shape)
+
+W = np.array([[1,2,3], [4,5,6]])
+print(W.shape)
+
+Y = np.dot(X, W)
+print(Y)
+```
+
+<center><img src="https://mioscode.github.io/assets/images/dl2/times.png" width="50%"></center>
+
+- 이런식으로 어떤 층의 노드(뉴런)의 개수가 몇 개가 되든 (위에서는 3개) 한 번의 연산으로 이 작업을 빠르게 수행할 수 있다. 행렬의 내적은 신경망에서 아주 중요한 개념인 것이다. 층이 몇 개이든 이와 같은 방법으로 가중치를 계속해서 계산해 나가는 것이라고 보면 된다.
+
+## 1.4. 신경망 용어 정의
+- 타깃(target) : 기대 출력
+- 매핑(mapping) : 입력과 타깃의 관계로 입력을 representation로 변환, 연관시키는 것
+- 가중치(weight) : 머신 러닝, 딥러닝 모두 결국은 가장 효율적인 식을 찾는 것이 목표이며, 이런 식 또는 식에 필요한 파라미터
+- 손실함수(loss function) : 타깃과 출력값의 차이를 계산하는 함수
+- 역전파(Backpropagation) : 손실함수의 결과를 개선하기 위해서 다시 결과에서부터 가중치를 수정하는 과정,  이를 옵티마이저(optimizer)가 담당
+
+## 1.5. 신경망의 훈련 순서
+1. 데이터를 입력한다.
+2. 여러 layer를 통해 예상 결과값을 만든다. (매핑)
+3. 실제 값과 비교해서 그 차이를 구한다. (타깃과 손실함수)
+4. 차이를 줄이기 위한 방법으로 앞의 layer들의 가중치를 수정해준다. (역전파)
+5. 이 방법의 반복으로 규칙을 계속 개선한다.
+
+<center><img src="https://mioscode.github.io/assets/images/dl2/flowchart.png" width="50%"></center>
+
+## 1.6. 신경망 3층 구현하기
+```python
+def init_network():
+    network = {}
+    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
+    network['b1'] = np.array([0.1, 0.2, 0.3])
+    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
+    network['b2'] = np.array([0.1, 0.2])
+    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
+    network['b3'] = np.array([0.1, 0.2])
+
+    return network
 
-## 1.2. 신경망의 훈련 순서
-1. 데이터를 입력합니다.
-2. 여러 층을 통해 예상 결과값을 만듭니다. (매핑)
-3. 실제 값과 비교해서 그 차이를 구합니다. (타깃과 손실함수)
-4. 차이를 줄이기 위한 방법으로 앞의 층들의 가중치를 수정해줍니다. (역전파)
-5. 이 방법의 반복으로 규칙을 계속 개선합니다.
+def sigmoid(x):
+    return 1 / (1 + np.exp(-x))
 
-<center><img src="https://mioscode.github.io/assets/images/dl2/flowchart.jpg" width="50%"></center>
+def relu(x):
+    return np.maximum(0, x)
+
+def forward(network, x):
+    W1, W2, W3 = network['W1'], network['W2'], network['W3']
+    b1, b2, b3 = network['b1'], network['b2'], network['b3']
+
+    a1 = np.dot(x, W1) + b1
+    z1 = sigmoid(a1)
+    a2 = np.dot(z1, W2) + b2
+    z2 = sigmoid(a2)
+    a3 = np.dot(z2, W3) + b3
+    y = a3
+
+    return y
+
+def main():
+    network = init_network()
+    x = np.array([1.0, 0.5])
+    y = forward(network, x)
+    print(y)
+
+if __name__ == '__main__':
+    main()
+```
 
 # 2. Loss Function
+> Neural Net을 거쳐서 나온 결과값과 실제 결과 값의 차이를 계산하는 함수 
+
+<center><img src="https://mioscode.github.io/assets/images/dl2/loss_function.png" width="50%"></center>
+
+## 2.1. 손실함수를 왜 사용하는가?
+1. Loss Function이 있어야 학습이 올바르게 진행되는지를 알 수 있다.
+2. Loss function은 연속적으로 변화되는 값을 표시한다.
+  - 정답률을 파라미터로 사용하면,
+  - 100개 중 33개가 정답으로 판명된다면 정답률은 33%이다. 
+  - 만약 정확도를 개선한다 하더라도 33.32%와 값이 연속적인 값으로 변화하지 않는다.
+
+## 2.2. 손실함수 종류
+### 2.2.1. MSE
+
+$$MSE = \frac{1}{n} \sum_{i=1}^N (y_i-\tilde{y}_i)^2$$
+
+### 2.2.2. Cross Function
+
+$$\mathcal{L} (y_i-\tilde{y}_i) = - \sum_{i=1}^N y_i \log \hat{y_i}$$
+
+## 2.3. 손실함수 테스트
+
+1. Mean Squared Error 를 python으로 구현 해보자.
+2. Cross Entropy Error를 python을 구현 해보자.
+3. 실제 테스트를 해보자.
 
 
 # Reference
-- https://subinium.github.io/Keras-1/
+- [[https://subinium.github.io/Keras-1/]]