목록2025/01/13 (4)
우당탕탕 개발일지
💡 다중 회귀여러 개의 특성을 사용한 선형 회귀를 다중 회귀라고 한다.종속변수가 2개, 독립변수가 1개, 총 3개의 변수를 표현하다보니 3차원에 그려지게 되고,특성이 2개면1) 평면을 학습한다.2) 회귀 방정식은 다음과 같다. 💡 다중 회귀 vs 다항 회귀 목적:다중회귀: 여러 독립 변수가 종속 변수에 미치는 영향을 분석.다항회귀: 하나의 독립 변수와 종속 변수 간의 비선형 관계를 설명.변수 형태:다중회귀: 여러 개의 독립 변수다항회귀: 하나의 독립 변수의 여러 거듭제곱 항수식:다중회귀: 선형 조합 다항회귀: 비선형 조합 💡 특성 공학기존의 특성을 사용해 새로운 특성을 뽑아내는 작업파이썬에서는 사이킷런의 변환기 PolynomialFeatures 클래스를 이용해서 변환기를 만들고,변환기로 특성 공..
💡 K-최근접 이웃의 한계K-최근접 이웃 모델은 근처에 있는 샘플값의 평균으로 예측하는 모델인데,새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다는 한계점이 있다.예를 들어 길이가 50cm인 농어의 무게를 예측했을 때, from sklearn.neighbors import KNeighborsRegressorknr = KNeighborsRegressor(n_neighbors = 3)# K-최근접 이웃 회귀 모델 훈련knr.fit(train_input, train_target)# 위 모델을 이용하여 길이기 50cm인 농어의 무게 예측print(knr.predict([[50]]))예측값이 1033.333으로 실제값과 매우 차이가 났다.import matplotlib.pyplot as p..
💡 과대적합 vs 과소적합과대적합(Overfitting): 훈련 세트의 점수 > 테스트 세트의 점수과소적합(Underfitting): 훈련 세트의 점수 과소적합 = 모델이 너무 단순해서 or 훈련 세트의 크기가 너무 작아서 훈련 제대로 못함💡 과소적합을 해결하는 방법: k-최근접 이웃 회귀 모델에서 이웃의 개수 k를 줄여서 모델을 더 복잡하게 만든다.이웃의 개수를 줄이면 훈련 세트에 있는 국지적인 패턴에 민감해져서 모델이 복잡해진다.사이킷런의 k-최근접 이웃 알고리즘의 기본 k값은 5이기 때문에, 아래의 코드를 통해 바꿔주면 된다.knr.n_neighbors = 3결과를 보면 훈련 세트의 점수가 높아지고, 테스트 세트의 점수가 낮아졌다.즉, 과소적합을 해소했다고 볼 수 있다. 💡 확인문제# k-최근..
💡 K-최근접 이웃 회귀k-최근접 이웃 알고리즘을 통해 회귀 문제를 푼다.가장 가까운 이웃 샘플 n개를 찾고, 이 샘플들의 평균으로 예측한다. 💡 회귀란?두 변수 사이의 상관관계를 분석하는 방법종류: 선형 회귀, 다중 회귀, 로지스틱 회귀 등예: 가장 단순한 선형모델 y = a*x + b(x: 길이, y: 무게), 이는 무게와 길이 사이의 상관관계를 분석하는 모델 💡 결정계수(R^2)회귀모델을 평가하는 지표로, 두 변수 사이의 상관계수 r의 제곱이다.여기서 SSE는 (실제값 - 모델이 예측한 값)^2의 합을 뜻하므로, 모델이 예측을 잘 할수록 SSE가 작아지고, R^2이 커진다.결정계수 외에도 모델을 평가할 수 있는 여러 지표들이 있다. 💡 데이터 준비