우당탕탕 개발일지

[대기오염 예측모델 개발] EDA, 데이터 전처리, 데이터 합치기 - aux_data_MonthlyBike 본문

인공지능

[대기오염 예측모델 개발] EDA, 데이터 전처리, 데이터 합치기 - aux_data_MonthlyBike

민아당긴아 2024. 9. 28. 14:00

데이터 탐색(EDA) - aux_data_MonthlyBike

월별 대여소 단위 자전거 이용정보 데이터이다.

 

1. 자치구 단위의 장소 정보

장소정보가 자치구 단위로 되어있다고 생각했지만, 아닌 경우도 있었다.

자치구 단위: ['강남구''강동구''강북구''강서구''관악구''광진구''구로구''금천구''노원구''도봉구''동대문구''동작구''마포구''서대문구''서초구''성동구''성북구''송파구''양천구''영등포구''용산구''은평구''종로구''중구''중랑구'] - 25개

aux_data_MonthlyBike의 location열의 카테고리: ['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구', '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구', '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구', nan, '정비센터', '그룹명 없음'] - 28개

 

2. 결측치 확인

Null값이 너무 많다.

총 118996개의 행 중에서 'rental' 열이 결측치인 행이 9000개, 'return'열이 결측치인 행이 64628개이다. 9000/118996 = 0.076, 64628/118996 = 0.543으로 비율이 꽤 크다.

애초에 연도-월 값이 없는 경우도 있다. 출력값이 각각 다른 걸 보면 특정 월에 측정을 안 했거나, 자전거 대여소가 추가/삭제되었을 것으로 예상한다.

양천구 데이터를 살펴보면, 2023년 12월에는 5개의 대여소 관측값이 있는데

2022년 2월에는 1개의 대어소 관측값만 있다. 심지어 2023년 12월이랑 관측소 위치마저 다르다.

 

3. 대여 횟수와 반납 횟수

대여 횟수와 반납 횟수가 나뉘어져 있어, 이를 어떻게 "자전거 이용 횟수"라는 하나의 특성으로 합칠지가 관건이다.

 


 

데이터 전처리 - aux_data_MonthlyBike

1. 자치구 단위의 장소 정보

nan, '정비센터', '그룹명 없음' 은 그냥 행을 없애버렸다.

해당 열을 삭제하고 나니 결측치의 개수가 조금 줄어들었다.

대여 횟수의 결측치는 9000 -> 7470, 반납 횟수의 결측치는 64628 -> 64440 로 줄어들었다.

 

2. 결측치 처리

일단 보류하고 그냥 했다..대여 횟수의 결측치 비율은 0.063으로 반납 횟수의 결측치 비율보다 상대적으로 적다. 따라서 대여 횟수 특성만 보는 것도 하나의 방법이 될 수 있다.

 

3. 대여 횟수와 반납 횟수

그냥 일단 각각을 별개의 특성으로 본다.

 


 

데이터 합치기 - aux_data_MonthlyBike

기존 train_data의 'gu'열이 df_monthlybike의 'location' 열과 같으면 합친다.