우당탕탕 개발일지
[대기오염 예측모델 개발] EDA, 데이터 전처리, 데이터 합치기 - aux_data_DailyRain 본문
데이터 탐색(EDA) - aux_data_DailyRain
1. train_data는 월별인데, aux_data_DailyRain는 일별이다. 따라서 aux_data_DailyRain를 전처리할 필요가 있다.
2. rain_gauge, rain_day, date는 월별 데이터를 구하는 데에 있어서 불필요한 열이다.
데이터 전처리 - aux_data_DailyRain
groupby 함수를 사용해서 연도와 월로 묶은 다음에, rain_month의 최댓값을 나타내도록 바꿔야겠다.
df_dailyrain.drop(columns = ['rain_gauge', 'rain_day', 'date']) # 불필요한 열 삭제
df_dailyrain = df_dailyrain.groupby(['gu', 'year', 'month'])['rain_month'].max().reset_index() # 월별 데이터로 변환
df_dailyrain.head(24)
전처리한 결과는 다음과 같다. 결과를 보니 결측치가 군데군데 있다. 예를 들어 강남구는 2019년 1월 데이터가 없다.
데이터 탐색 - aux_data_DailyRain(결측치 확인)
월별 데이터로 전처리한 이후에 결측값이 있는 행을 확인해봤다.
월별 강수량 측정값이 없는 경우는 다음과 같다. 이거는 강수량이 0이라는 뜻이 아니라 아예 해당 행이 없는 경우를 의미한다. 예를 들어 "2020년 3월 중랑구: 0"이면 2020년 3월 중랑구의 강수량이 0이라는 게 아니라 2023년 3월 중랑구에 해당하는 행이 없다는 뜻이다.
측정값이 없는 행의 목록이다.
2019 년 1 월 강남구 : 0
2019 년 1 월 강동구 : 0
2019 년 2 월 강동구 : 0
2019 년 1 월 강북구 : 0
2019 년 1 월 강서구 : 0
2019 년 2 월 강서구 : 0
2019 년 3 월 강서구 : 0
2019 년 12 월 강서구 : 0
2020 년 3 월 강서구 : 0
2019 년 12 월 관악구 : 0
2019 년 1 월 광진구 : 0
2019 년 12 월 광진구 : 0
2019 년 1 월 구로구 : 0
2019 년 1 월 금천구 : 0
2019 년 1 월 도봉구 : 0
2019 년 1 월 동대문구 : 0
2019 년 1 월 동작구 : 0
2019 년 1 월 마포구 : 0
2019 년 1 월 서대문구 : 0
2019 년 1 월 서초구 : 0
2019 년 1 월 성동구 : 0
2020 년 3 월 성동구 : 0
2019 년 1 월 성북구 : 0
2019 년 1 월 송파구 : 0
2019 년 1 월 양천구 : 0
2022 년 1 월 영등포구 : 0
2019 년 1 월 용산구 : 0
2019 년 1 월 종로구 : 0
2019 년 1 월 중구 : 0
2019 년 1 월 중랑구 : 0
2020 년 2 월 중랑구 : 0
2020 년 3 월 중랑구 : 0
데이터 합치기 - aux_data_DailyRain
새로운 열 train_data.gu랑 aux _data_DailyRain.gu가 같은 것끼리 합쳐준다.
merged_df = pd.merge(df_train, df_dailyrain, how = 'left', on = 'gu')
merged_df.head()
left merge를 통해 df_train에 있는 'gu' 값이 df_dailyrain의 'gu'값으로 없으면 그냥 NaN으로 비워두게 만들었다. 즉, 경기도의 경우 강수량 값이 없다.
위에서 결측값이 총 32개 있는데, 이에 따라 합친 데이터프레임에서도 NaN값이 나온다.
예를 들어 2023년 3월 중랑구에 강수량이 NaN값으로 나온다.
정리하자면, 강수량이 NaN값으로 나오는 경우는 다음과 같다.
1. gu가 "과천시 자하동길", "김포시 고촌읍"인 경우(즉 location이 "관악산", "행주"인 경우)
2. 강수량 측정값이 없는 경우
'인공지능' 카테고리의 다른 글
[대기오염 예측모델 개발] EDA, 데이터 전처리, 데이터 합치기 - aux_data_MonthlyCar (0) | 2024.09.28 |
---|---|
[대기오염 예측모델 개발] EDA, 데이터 전처리, 데이터 합치기 - aux_data_MonthlyBike (0) | 2024.09.28 |
[대기오염 예측모델 개발] EDA, 보조데이터 전처리하기(장소 특성 통일) (1) | 2024.09.28 |
[대기오염 예측모델 개발] 머신러닝 모델의 종류 (0) | 2024.09.28 |
[데이터 분석 경진대회] 대기오염 데이터 분석을 통한 예측모델 개발 및 대기질 지수 산정예측 (1) | 2024.09.28 |