목록분류 전체보기 (221)
우당탕탕 개발일지

💡 서론이전에 k-fold classification이 나왔던 것처럼 이번에는 k-means clustering이다. k개의 그룹으로 만들고, 평균값을 이용해서 클러스터링을 진행한다. 💡 K-Means 클래스sklearn.cluster 모듈 아래에 있는 KMeans 클래스로, k-mean clustering에 필요한 다양한 메서드와 매개변수, 그리고 결과를 나타내는 속성들이 있다.이것들을 이용해서 k-means clustering을 진행하게 된다. 💡 K-Means 클래스k-means clustering 알고리즘이 과정을 계속 반복하는 비교적 단순한 알고리즘이다. 이 알고리즘을 구현하는 클래스가 KMeans 클래스!이렇게 fit 메서드를 이용해서 k-평균 알고리즘으로 클러스터링을 진행하고, 속성들을..

💡 서론1~5장에는 타겟 데이터가 제시되어 있는 지도 학습(Supervised Learinng)이었지만 6장에는 비지도 학습(Unsupervised Learning) 내용이 담겨있다. 비지도 학습(Unsupervised Learning)의 특징은 아래와 같다.1. 타겟이 없음. 타겟의 개수도 모름.2. 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습함.비지도 학습 알고리즘에는 차원 축소, 클러스터링 등이 있는데 6-1장에서는 클러스터링, 즉 군집 알고리즘을 다루고 있다. 또한 이전 장과 다르게 이미지 데이터, 즉 비정형 데이터를 다룬다.💡 군집 알고리즘, 클러스터링(Clustering)군집(Clustering): 비슷한 샘플끼리 그룹화하는 작업클러스터(Clutser): 비슷한 샘플끼리의 그룹,..

💡 서론앙상블 학습은 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다.지금까지 K-최근접 이웃 회귀, 선형 회귀, 다항 회귀, 다중 회귀, 릿지/라쏘 회귀, 로지스틱 회귀, 결정 트리 등 다양한 모델 구조를 봤는데, 앙상블 모델이 주로 성능이 가장 좋다.앙상블 모델은 트리 모델을 이리저리 조합해서 만드는 모델이다. 대표적인 앙상블 모델로는1. 랜덤 포레스트(Random Forest)2. 엑스트라 트리(Extra Tree)3. 그레이디언트 부스팅(Gradient Boosting)4. 히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)등이 있다. 이 외에도 그레이디언트 부스팅을 구현한 XGBoost, LightGBM 등의 라이브러리가 있다.이것을..

💡 서론교차 검증(Cross Validation)과 그리드 서치(Grid Search) 모두 결론적으로 예측 모델의 성능을 향상시키기 위함이다.5-2장에서는 검증 세트, 교차 검증, 그리드 서치, 랜덤 서치 등 다양한 개념이 나오는데결론적으로 보면 다 좋은 모델을 만들기 위함이다. 💡 목차1. 검증 세트2. 교차 검증(Cross Validation)3. 하이퍼파라미터 튜닝(Hyperparameter Tuning) 💡 검증 세트검증 세트 이전에는 전체 데이터를 단순히 training set과 test set으로 나누었다. 이렇게 테스트 세트를 사용해 자꾸 성능을 확인하다 보면 점점 테스트 세트에 맞추게 된다. 즉, 일반화가 되지 않고 테스트 세트에만 잘 맞는 모델을 개발하게 되는 문제점이 발생한다.이..

💡 로지스틱 회귀로 와인 분류하기(Logistic Regression)결정트리를 이용하기 전에 먼저 로지스틱 회귀를 이용해서 와인을 분류해본다.로지스틱 회귀 모델에서는 표준화 전처리 잊지 않기!로지스틱 회귀 모델의 단점: 모델이 왜 저러 계수 값을 학습했는지 이해하기 어렵다.print(lr.coef_, lr.intercept_)# 결과: [[ 0.4270427 0.35107217 -4.06298437]] [8.48363274]각 값이 무엇을 의미하는지 설명하기 어렵다. 해결방법: 설명하기 쉬운 결정 트리를 이용한다. 💡 결정 트리(Decision Tree)스무 고개처럼 계속 질문을 추가하며 분류하는 모델로, 설명하기 쉬운 모델에 속한다.사이킷런의 DecisionTreeClassifier 클래스를 ..

💡 확률적 경사 하강법훈련 세트에서 샘플을 하나씩 꺼내 최적의 모델을 찾는 점진적 학습 알고리즘여기서 점진적 학습이란 새로운 데이터에 대해 조금씩 더 훈련하는 방법이다.하나씩 샘플을 꺼내서 훈련하며 경사를 내려가는 과정이다. ⭐ 확률적 경사 하강법 프로세스 1. 훈련 세트에서 하나의 샘플을 랜덤하게 선택2. 가파른 경사를 조금 내려간다. 3. 1, 2 반복하며 전체 샘플을 모두 사용할 때까지 지속 4. 모든 샘플을 사용했는데도 경사를 다 내려오지 못했다면 훈련 세트에 모든 샘플 다시 채워넣기 ⭐ 에포크이 반복하는 과정에서 에포크라는 개념이 등장하는데, 에포크(epoch)는 훈련 세트를 한 번 모두 사용하는 과정이다.일반적으로 경사 하강법은 수십, 수백 번 이상의 에포크를 수행한다.예를 들어 에포..