목록2025/02/04 (3)
우당탕탕 개발일지

💡 서론지금까지 6장에서 사용한 데이터는 100*100개의 픽셀로 이루어진 이미지 데이터, 즉 10000개의 특성을 가진 데이터였다. 만개는 너무 많기 때문에, 이 중에서 각 이미지를 가장 잘 나타내는 일부 특성을 선택해서 데이터 크기도 줄이고 성능도 향상시키고자 한다. 💡 차원 축소(Dimensionality Reduction)위에서 언급한 방법이 바로 차원 축소(Dimensionality Reduction)이다. 머신러닝에서는 차원 = 특성이라고 봐도 된다.특성의 개수를 줄여서, 즉 차원 축소를 통해 데이터의 크기를 줄이고 모델의 성능도 향상시킨다. 💡 주성분 분석(Principal Component Analysis) 그러면 어떤 특성을 선택하면 좋을까? 물론 데이터를 가장 잘 나타내는 특성을 ..

💡 서론이전에 k-fold classification이 나왔던 것처럼 이번에는 k-means clustering이다. k개의 그룹으로 만들고, 평균값을 이용해서 클러스터링을 진행한다. 💡 K-Means 클래스sklearn.cluster 모듈 아래에 있는 KMeans 클래스로, k-mean clustering에 필요한 다양한 메서드와 매개변수, 그리고 결과를 나타내는 속성들이 있다.이것들을 이용해서 k-means clustering을 진행하게 된다. 💡 K-Means 클래스k-means clustering 알고리즘이 과정을 계속 반복하는 비교적 단순한 알고리즘이다. 이 알고리즘을 구현하는 클래스가 KMeans 클래스!이렇게 fit 메서드를 이용해서 k-평균 알고리즘으로 클러스터링을 진행하고, 속성들을..

💡 서론1~5장에는 타겟 데이터가 제시되어 있는 지도 학습(Supervised Learinng)이었지만 6장에는 비지도 학습(Unsupervised Learning) 내용이 담겨있다. 비지도 학습(Unsupervised Learning)의 특징은 아래와 같다.1. 타겟이 없음. 타겟의 개수도 모름.2. 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습함.비지도 학습 알고리즘에는 차원 축소, 클러스터링 등이 있는데 6-1장에서는 클러스터링, 즉 군집 알고리즘을 다루고 있다. 또한 이전 장과 다르게 이미지 데이터, 즉 비정형 데이터를 다룬다.💡 군집 알고리즘, 클러스터링(Clustering)군집(Clustering): 비슷한 샘플끼리 그룹화하는 작업클러스터(Clutser): 비슷한 샘플끼리의 그룹,..