목록인공지능 (34)
우당탕탕 개발일지

💡 서론1~5장에는 타겟 데이터가 제시되어 있는 지도 학습(Supervised Learinng)이었지만 6장에는 비지도 학습(Unsupervised Learning) 내용이 담겨있다. 비지도 학습(Unsupervised Learning)의 특징은 아래와 같다.1. 타겟이 없음. 타겟의 개수도 모름.2. 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습함.비지도 학습 알고리즘에는 차원 축소, 클러스터링 등이 있는데 6-1장에서는 클러스터링, 즉 군집 알고리즘을 다루고 있다. 또한 이전 장과 다르게 이미지 데이터, 즉 비정형 데이터를 다룬다.💡 군집 알고리즘, 클러스터링(Clustering)군집(Clustering): 비슷한 샘플끼리 그룹화하는 작업클러스터(Clutser): 비슷한 샘플끼리의 그룹,..

💡 서론앙상블 학습은 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다.지금까지 K-최근접 이웃 회귀, 선형 회귀, 다항 회귀, 다중 회귀, 릿지/라쏘 회귀, 로지스틱 회귀, 결정 트리 등 다양한 모델 구조를 봤는데, 앙상블 모델이 주로 성능이 가장 좋다.앙상블 모델은 트리 모델을 이리저리 조합해서 만드는 모델이다. 대표적인 앙상블 모델로는1. 랜덤 포레스트(Random Forest)2. 엑스트라 트리(Extra Tree)3. 그레이디언트 부스팅(Gradient Boosting)4. 히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)등이 있다. 이 외에도 그레이디언트 부스팅을 구현한 XGBoost, LightGBM 등의 라이브러리가 있다.이것을..

💡 서론교차 검증(Cross Validation)과 그리드 서치(Grid Search) 모두 결론적으로 예측 모델의 성능을 향상시키기 위함이다.5-2장에서는 검증 세트, 교차 검증, 그리드 서치, 랜덤 서치 등 다양한 개념이 나오는데결론적으로 보면 다 좋은 모델을 만들기 위함이다. 💡 목차1. 검증 세트2. 교차 검증(Cross Validation)3. 하이퍼파라미터 튜닝(Hyperparameter Tuning) 💡 검증 세트검증 세트 이전에는 전체 데이터를 단순히 training set과 test set으로 나누었다. 이렇게 테스트 세트를 사용해 자꾸 성능을 확인하다 보면 점점 테스트 세트에 맞추게 된다. 즉, 일반화가 되지 않고 테스트 세트에만 잘 맞는 모델을 개발하게 되는 문제점이 발생한다.이..

💡 로지스틱 회귀로 와인 분류하기(Logistic Regression)결정트리를 이용하기 전에 먼저 로지스틱 회귀를 이용해서 와인을 분류해본다.로지스틱 회귀 모델에서는 표준화 전처리 잊지 않기!로지스틱 회귀 모델의 단점: 모델이 왜 저러 계수 값을 학습했는지 이해하기 어렵다.print(lr.coef_, lr.intercept_)# 결과: [[ 0.4270427 0.35107217 -4.06298437]] [8.48363274]각 값이 무엇을 의미하는지 설명하기 어렵다. 해결방법: 설명하기 쉬운 결정 트리를 이용한다. 💡 결정 트리(Decision Tree)스무 고개처럼 계속 질문을 추가하며 분류하는 모델로, 설명하기 쉬운 모델에 속한다.사이킷런의 DecisionTreeClassifier 클래스를 ..

💡 확률적 경사 하강법훈련 세트에서 샘플을 하나씩 꺼내 최적의 모델을 찾는 점진적 학습 알고리즘여기서 점진적 학습이란 새로운 데이터에 대해 조금씩 더 훈련하는 방법이다.하나씩 샘플을 꺼내서 훈련하며 경사를 내려가는 과정이다. ⭐ 확률적 경사 하강법 프로세스 1. 훈련 세트에서 하나의 샘플을 랜덤하게 선택2. 가파른 경사를 조금 내려간다. 3. 1, 2 반복하며 전체 샘플을 모두 사용할 때까지 지속 4. 모든 샘플을 사용했는데도 경사를 다 내려오지 못했다면 훈련 세트에 모든 샘플 다시 채워넣기 ⭐ 에포크이 반복하는 과정에서 에포크라는 개념이 등장하는데, 에포크(epoch)는 훈련 세트를 한 번 모두 사용하는 과정이다.일반적으로 경사 하강법은 수십, 수백 번 이상의 에포크를 수행한다.예를 들어 에포..

💡 로지스틱 회귀로지스틱 회귀는 선형 방정식을 사용한 분류 알고리즘으로,'회귀'라는 이름을 갖고 있지만 회귀 모델이 아닌 분류 모델이라는 점에서 주의해야 한다!ⓒ https://medium.com/@praveenraj.gowd/why-is-logistic-regression-called-logistic-regression-and-not-a-logistic-classification-5a418293040dz = a * Weight + b * Length + c * Diagonal + d * Height + e * Width + f이렇게 각 특성값에 가중치를 곱하는 선형 방정식의 형태를 갖지만 분류 모델이다. 💡 로지스틱 회귀를 이용한 이진분류와 다중분류의 차이점이진분류는 이 데이터가 0인지 1인지를 분..