목록인공지능 (34)
우당탕탕 개발일지

💡 K-최근접 이웃 알고리즘분류 알고리즘으로, 근처에 있는 K개의 데이터를 바탕으로 분류하는 알고리즘K의 값은 매개변수로 직접 설정 가능하다.이 사진의 경우 K = 3으로 설정한 K-최근접 이웃 알고리즘으로, 새로운 값의 가장 근처에 있는 3개의 데이터를 활용한다.3개의 데이터 중 2개는 삼각형, 1개는 사각형이므로 삼각형으로 분류하게 된다.단순한 알고리즘으로, 구현하는 큰 틀만 기억하고 넘어가야겠다. 💡 K-최근접 이웃 알고리즘 라이브러리KNeighborsClassifier 라이브러리를 사용한다.from sklearn.neighbors import KNeighborsClassifier분류기 객체(모델)를 만든 뒤, 데이터를 이용해서 모델을 학습(훈련)하고, 정확도를 계산한다.# 사이킷런 패키지에서..
fe 오늘의 할 일1. xgboost에서 merge_data에서 id넣고 모델 돌려보기(민아) -> id 뺀 거랑 넣은 거랑 별반 차이가 없음 -> 결론: ID를 넣고 돌리자2. 기본 train_data에서 xgboost 돌려보기(화원)-> 아직 못함.3. 데이터 분석 공모전 흐름 파악한 거 공유하기(민아)-> 영상 링크 보냄4. 내일 뭐 질문할지 정하기-> 안하기로함5. shap을 이용해서 xgboost 모델에서 각 특성의 상호작용효과 파악(merge 전의 train_data, test_data 사용)->train_data에서 xgboost모델의 상호작용효과 파6. 특성중요도 시각화7
XGBoost 모델이란?위 영상이 그라디언트 부스팅에 대해 이해하기 쉬워서 좋았다.- 각 이터레이션(반복)에서 맞추지 못한 데이터에 가중치를 부여해서 모델을 학습- 부스팅(Boosting) 계열의 트리 모델- 그라디언트 부스팅 모델에 비해 빠른 속도- 과적합을 막고, 자체 교차 검증 알고리즘과 결측치 처리 기능 보유 XGBoost의 대표적인 파라미터n_estimators (int) : 내부에서 생성할 결정 트리의 개수max_depth (int) : 생성할 결정 트리의 높이learning_rate (float) : 훈련량, 학습 시 모델을 얼마나 업데이트할지 결정하는 값colsample_bytree (float) : 열 샘플링에 사용하는 비율subsample (float) : 행 샘플링에 사용하는 비율re..

히트맵은 matplotlib, seaborn 두 가지 라이브러리를 이용해서 그릴 수 있는데 나는 seaborn을 사용했다.\matplotlib보다 seaborn이 코드도 간결하고 더 예쁘게 나온다. 히트맵 그리는 순서히트맵 그리는 순서는 다음과 같다.1. 히트맵에 사용할 수 있도록 데이터 전처리(나는 groupby로 'year', 'location'별 대기오염물질 농도의 평균값을 구했다.)df_train = df_train.groupby(['year', 'location'])[['no2', 'o3', 'co', 'so2', 'pm10', 'pm2.5']].mean().reset_index()2. 히트맵을 그린다.# 히트맵 그리기plt.figure(figsize=(10, 20))ax = sns.heatma..

꺾은선 그래프 그리는 방법 매번 까먹어서 정리하는 글.groupby 함수로 월별 평균값 정리하기df_train = df_train.groupby(['year', 'month'])[['no2', 'o3', 'co', 'so2', 'pm10', 'pm2.5']].mean().reset_index()이렇게 해서 월별 각 대기오염물질의 평균농도를 담은 데이터프레임 df_train을 생성한다. 꺾은선 그래프 그리는 방법꺾은선 그래프를 그리려면 일단 x값과 y값을 명시해야 한다.내가 그리고자 하는 건 월별 대기오염물질 농도니까 x, y를 다음과 같이 설정한다.x: df_train['month']y: df_train['no2']그 다음에 plot을 그려주면 된다.plt.figure(figsize=(10,6))plt...

데이터 탐색(EDA) - aux_data_MonthlyCara_d_classification 열이 뭘 나타내고 있는지 잘 모르겠다. 데이터 전처리 - aux_data_MonthlyCar불필요한 address 열만 제거했다. 데이터 합치기 - aux_data_DailyRain행정동 단위로 합치고, 겹치는 location 열은 하나 제거해줬다. 다른 데이터에 비해서 결측치도 거의 없고, 깔끔한 데이터라서 편했다!