목록인공지능 (34)
우당탕탕 개발일지

💡 다중 회귀여러 개의 특성을 사용한 선형 회귀를 다중 회귀라고 한다.종속변수가 2개, 독립변수가 1개, 총 3개의 변수를 표현하다보니 3차원에 그려지게 되고,특성이 2개면1) 평면을 학습한다.2) 회귀 방정식은 다음과 같다. 💡 다중 회귀 vs 다항 회귀 목적:다중회귀: 여러 독립 변수가 종속 변수에 미치는 영향을 분석.다항회귀: 하나의 독립 변수와 종속 변수 간의 비선형 관계를 설명.변수 형태:다중회귀: 여러 개의 독립 변수다항회귀: 하나의 독립 변수의 여러 거듭제곱 항수식:다중회귀: 선형 조합 다항회귀: 비선형 조합 💡 특성 공학기존의 특성을 사용해 새로운 특성을 뽑아내는 작업파이썬에서는 사이킷런의 변환기 PolynomialFeatures 클래스를 이용해서 변환기를 만들고,변환기로 특성 공..

💡 K-최근접 이웃의 한계K-최근접 이웃 모델은 근처에 있는 샘플값의 평균으로 예측하는 모델인데,새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다는 한계점이 있다.예를 들어 길이가 50cm인 농어의 무게를 예측했을 때, from sklearn.neighbors import KNeighborsRegressorknr = KNeighborsRegressor(n_neighbors = 3)# K-최근접 이웃 회귀 모델 훈련knr.fit(train_input, train_target)# 위 모델을 이용하여 길이기 50cm인 농어의 무게 예측print(knr.predict([[50]]))예측값이 1033.333으로 실제값과 매우 차이가 났다.import matplotlib.pyplot as p..

💡 과대적합 vs 과소적합과대적합(Overfitting): 훈련 세트의 점수 > 테스트 세트의 점수과소적합(Underfitting): 훈련 세트의 점수 과소적합 = 모델이 너무 단순해서 or 훈련 세트의 크기가 너무 작아서 훈련 제대로 못함💡 과소적합을 해결하는 방법: k-최근접 이웃 회귀 모델에서 이웃의 개수 k를 줄여서 모델을 더 복잡하게 만든다.이웃의 개수를 줄이면 훈련 세트에 있는 국지적인 패턴에 민감해져서 모델이 복잡해진다.사이킷런의 k-최근접 이웃 알고리즘의 기본 k값은 5이기 때문에, 아래의 코드를 통해 바꿔주면 된다.knr.n_neighbors = 3결과를 보면 훈련 세트의 점수가 높아지고, 테스트 세트의 점수가 낮아졌다.즉, 과소적합을 해소했다고 볼 수 있다. 💡 확인문제# k-최근..
💡 K-최근접 이웃 회귀k-최근접 이웃 알고리즘을 통해 회귀 문제를 푼다.가장 가까운 이웃 샘플 n개를 찾고, 이 샘플들의 평균으로 예측한다. 💡 회귀란?두 변수 사이의 상관관계를 분석하는 방법종류: 선형 회귀, 다중 회귀, 로지스틱 회귀 등예: 가장 단순한 선형모델 y = a*x + b(x: 길이, y: 무게), 이는 무게와 길이 사이의 상관관계를 분석하는 모델 💡 결정계수(R^2)회귀모델을 평가하는 지표로, 두 변수 사이의 상관계수 r의 제곱이다.여기서 SSE는 (실제값 - 모델이 예측한 값)^2의 합을 뜻하므로, 모델이 예측을 잘 할수록 SSE가 작아지고, R^2이 커진다.결정계수 외에도 모델을 평가할 수 있는 여러 지표들이 있다. 💡 데이터 준비

💡 데이터 전처리에 활용되는 넘파이 함수column_stack() 함수 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결각 특성값을 담은 두 리스트를 합쳐서 입력 데이터를 만드는 데에 활용concatenate() 함수전달받은 리스트를 옆으로 붙인다. axis = 1으로 하면 열을 기준으로 붙인다.타깃 데이터를 만드는 데에 활용 💡사이킷런으로 훈련 세트와 테스트 세트 나누기train_test_split() 함수비율에 맞게 훈련 세트와 테스트 세트로 나누어 준다.from sklearn.model_selection import train_test_split# train_test_split() 함수를 이용하여 훈련 세트와 테스트 세트 나누기, 매개변수 활용train_input, test_input,..

💡 지도 학습과 비지도 학습쉽게 말하자면, 학습데이터에 정답까지 포함되어 있는 경우 지도 학습, 정답 없이 특성 데이터만 있는 경우 비지도 학습이라고 한다. 💡 학습 데이터의 구성입력 데이터와 타겟 데이터훈련하기 위해 사용하는 데이터는 입력 데이터와 타겟 데이터로 이루어져있다.입력 데이터는 특성들(Features)로 이루어져 있고, 타겟 데이터(Target)는 정답데이터이다.보통 지도학습에서 학습 데이터로 사용하는 데이터는 다음과 같이 테이블 형태로 되어 있다.특성을 나타내는 열들과 정답을 나타내는 하나의 열로 이루어져 있다. 훈련 세트와 테스트 세트훈련 세트는 훈련에 사용되고, 테스트 세트는 모델의 성능을 평가하는 데에 사용된다. 💡 샘플링 편향훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지..