본문 바로가기

인공지능12

application and tips Learning rate, Data preprocessing, Overfitting [Learning rate] Gradient 데이터를 통해 모델을 만들어갈 때 Learning rate와 Gradient의 연관 관계를 통해 최적의 모델 값을 찾을 수 있다. -> Learning rate는 모델을 만들 때 필요한 설정 값인 hyper-parameter라고 할 수 있다. [Learning rate] Good and Bad Learning rate를 설정하는 값에 따라 학습할 때 다양한 값들이 나오게 된다. 1. Learning rate가 클 경우, Overshooting이 일어날 수 있다. 2. Learning rate가 작을 경우, 너무 많은 시간이 소비된다. 따라서 적절한 값의 Learning rate.. 2023. 8. 6.
Softmax Classifier Lec [Multinomial classification] Binary classification: 두 개의 class를 구분할 수 있음 Multinomial classification: 여러 개의 class를 구분할 수 있음 왼쪽의 데이터를 그래프 상에 나타내면 오른쪽 그래프처럼 나타낼 수 있다. Binary classification만을 가지고도 Multinomial classification 구현이 가능하다. A인지 아닌지, B인지 아닌지, C인지 아닌지 구분하는 세 개의 각각 다른 classification으로 Multinomial classification을 구현하게 된다. 세 개의 각각 다른 classification이 존재하기에 이를 구현하기 위해서 세 개의 독립된 형태의 벡터를 가지고 행렬.. 2023. 8. 6.
logistic_regression Lab [Classification] 0과 1의 두 가지 케이스로 나눠 설명할 수 있다. [Logistic vs Linear] Logistic: 두 가지 케이스로 구분할 수 있는 데이터로 흩어져 있는 모양을 보이고, 셀 수 있다. Linear: 수치형 데이터로 연속인 모양을 보이고, 측정할 수 있다. [Hypothesis Representation] Linear regression을 적용했을 때, 우리가 원하는 Logistic 형태의 데이터를 얻을 수 없다. 따라서 0과 1을 표현할 수 있는 새로운 수식이 필요하다. Y와 x를 토대로 나온 0과 1을 표현할 수 있는 모델을 Hypothesis라고 한다. Hypothesis를 만드는 과정 1. x를 입력 값으로 넣고 Linear function을 적용해서 .. 2023. 8. 6.
Multi variable linear regression Lec [Predicting exam score] One-variable: 한 개의 변수를 사용 Multi-variable: 다수의 변수를 사용 -> 늘어난 변수만큼 가중치를 필요로 한다. [Matrix multiplication] 변수가 많을 때의 복잡한 수식을 간단하게 풀어낼 수 있다. -> Dot Product 계산으로 A 행렬의 첫 번째 행과 B 행렬의 첫 번째 열을 곱하여 얻은 결과로 C 행렬을 구성한다. -> H(X) = XW로 나타낼 수 있다. (X는 Matrix를 의미함) [Hypothesis using matrix] 변수와 데이터가 많은 경우에도 상관없이 H(X) = XW로 간편하게 나타낼 수 있다. Lab [Hypothesis using matrix] 입력 값 x1, x2, x3를 이용.. 2023. 7. 30.
Liner Regression and How to minimize cost Lec [Simplified hypothesis and Cost] b를 생략하여 Hypothesis를 간략화 시킨다. [What cost(W) looks like?] W의 값에 따라 변화하는 cost의 값을 살펴보기 -> W의 값이 1일 때, cost가 0으로 최소화된 모습을 보인다. [Gradient descent algorithm] 경사를 따라 내려가면서 최저점을 찾기 위해 경사 하강 알고리즘을 사용한다. -> 변수의 개수와 상관없이 사용할 수 있는 알고리즘 [How it works? (Gradient descent algorithm의 동작 방식)] 최초의 W, b 값을 정해 최소점에 도달할 때까지 cost가 줄어들 수 있는 방향으로 W, b 값을 지속적으로 업데이트 한다. [Formal defini.. 2023. 7. 30.
Simple Liner Regression Lec [Regression] Regression toward the mean: 전체 평균으로 되돌아간다. -> 크거나 작은 데이터가 나와도 결과적으로 전체 평균으로 되돌아가려는 속성을 가진다는 통계적 원리를 의미한다. [Linear Regression] y = ax + b -> 데이터를 가장 잘 대변하는 직선의 방정식을 찾는 것 (기울기와 y 절편을 구함) [Hypothesis] y = ax + b 대신 H(x) = Wx + b로 직선의 방정식을 나타낸다. [Which hypothesis is better?] 이를 결정하기 위해서는 cost를 생각해야 하는데 이때, Hypothesis를 기반으로 cost를 구한다. [Cost, Cost function] H(x) – y -> 가설과 실제 데이터의 차이 .. 2023. 7. 30.