목록2024/09 (14)
우당탕탕 개발일지

데이터 탐색(EDA) - aux_data_DailyRain1. train_data는 월별인데, aux_data_DailyRain는 일별이다. 따라서 aux_data_DailyRain를 전처리할 필요가 있다.2. rain_gauge, rain_day, date는 월별 데이터를 구하는 데에 있어서 불필요한 열이다. 데이터 전처리 - aux_data_DailyRaingroupby 함수를 사용해서 연도와 월로 묶은 다음에, rain_month의 최댓값을 나타내도록 바꿔야겠다.df_dailyrain.drop(columns = ['rain_gauge', 'rain_day', 'date']) # 불필요한 열 삭제df_dailyrain = df_dailyrain.groupby(['gu', 'year', 'month']..

이전 글에 이어서 진행.장소 데이터에 대한 문제각 데이터에서 장소를 나타내는 방식이 다 제각각이다.데이터명설명train_data월별/장소별 대기오염 정도를 나타내는 데이터test_data월별/장소별 대기오염 정도를 나타내는 데이터aux_data_DailyPopulation월별 행정동 단위 서울 생활인구 정보(성별 및 연령대별 인구수)aux_data_DailyRain일별 자치구 단위 강수량 정보aux_data_MonthlyBike월별 행정동 단위 대여소 단위 자전거 이용정보aux_data_MonthlyCar월별 행정동 단위 자동차 등록정보aux_data_YearlyMountainFire연도별 자치구 단위 임야화재 발생 면적, 건수aux_data_StationLocation행정동 단위 대기 관측소 위도/경도..

학과에서 주관하는 데이터 분석 경진대회를 참가하여 대기오염 예측모델을 개발하고있다.머신러닝 분류모델 - 결정 트리머신러닝 분류모델로 가장 유명한 거는 아무래도 결정 트리(DecisionTree)이다.특성공학 없이, 단순히 6가지의 대기오염물질 농도로 결정 트리 모델을 만들어보았을 때 다음과 같았다.결정 트리 모델에 하이퍼파라미터 튜닝을 진행해서 모델 성능을 높일 수도 있겠다.그래서 일단 DecionTree 라이브러리를 사용해서 모델을 돌려보았다.decision_tree = DecisionTreeClassifier(random_state=42) # 모델 생성decision_tree.fit(X_train, y_train) # 모델 학습y_pred = decision_tree.predict(X_test) # ..

통계학과에서 주관하는 데이터 분석 경진대회에 나가게 되었다.주제는 대기오염 데이터 분석을 통한 예측모델 개발 및 대기질 지수 산정예측 그런데 "데이터 분석" 경진대회의 탈을 쓴 "인공지능" 경진대회, 자세히 말하면 예측모델을 개발하는 공모전이었다.그래서 요즘 강제로 인공지능 공부하는중제공되는 데이터일단 주어진 데이터는 다음과 같다.데이터명설명train_data 월별/장소별 대기오염 정도를 나타내는 데이터 test_data 월별/장소별 대기오염 정도를 나타내는 데이터 aux_data_DailyPopulation 월별 행정동 단위 서울 생활인구 정보(성별 및 연령대별 인구수) aux_data_DailyRain 일별 자치구 단위 강수량 정보 aux_data_MonthlyBike 월별 행정동 단위 대여소..

💡문제 링크 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr 💡SQL 코드 설계나는 계속 행을 조작할 생각을 했는데, chatGPT가 열을 조작하는 방법을 알려줬다. 가장 까다로웠던 건 할인율을 어떻게 처리할지의 문제1. history와 car 테이블을 합쳐 '트럭'인 행만 남긴다.2. history와 plan 테이블을 합쳐 할인정책을 적용한 대여 비용을 추출한다. - 이게 어렵다.일단 history와 car 테이블을 join해서 합친 모습은 대충 이런 모양이었다.history_idcar_idcar_typedaily_feestart_dateend_date..
💡문제 링크 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr 💡문제 분석 요약던전이 여러 개가 있음(1~8개)던전에 대한 정보는 [a, b]로 주어지는데, a는 최소 필요 피로도이고 b는 소모 피로도이다.이 던전을 통과하려면 현재 피로도가 a 이상이어야 하고, 이 던전을 통과하면 피로도가 b만큼 깎인다.던전들에 대한 정보가 리스트로 주어졌을 때, 그리고 현재 피로도가 정수로 주어졌을 때던전의 순서를 잘 조합해서 통과할 수 있는 던전 개수의 최댓값을 구하는 문제 💡알고리즘 설계그냥 무지성 순열 돌리기from itertools import permuta..