목록데이터 분석 (5)
내가 하고싶은 건 다 하는 공간
groupby 함수df_new = df.groupby(by = [그룹화기준열]).집계함수.reset_index()- 집계함수: sum(), mean()- reset_index(): 그룹화에서 사용된 열들을 인덱스 > 열로 바꾼다.df3 = df2.groupby("예보 등급")["count"].count().reset_index() .startswith(특정문자)특정문자로 시작하는 것들만 뽑아낸다.[ x for x in house_year.columns if x.startswith('p') ]
💡 모두 같은 값이 들어가는 새로운 열 만들기df2["새로운열이름"] = "새로운값"df2["예보 등급"] = "좋음" weather["avg_t_minmax"] = (weather.max_t + weather.min_t) / 2.0weathersum(axis = 1)을 해줘야 열의 값을 더한다.weather["avg_t_minmix_2"] = weather[ ["max_t", "min_t"] ].sum(axis=1) /2.0weather 💡 열의 조건에 따라 다른 값이 나오도록 열 만들기# "예보 등급" 열 추가level = []for i in df2.index: p = df2.loc[i, "pm2_5"] if p >= 76: level.append("매우 나쁨") elif p >..
엑셀 파일 불러오기encoding은 파일의 언어형식을 저장하는 선택 명령이다.cp949, utf-8, utf-8-sig 중 하나를 하면 주로 해결 가능df = pd.read_csv("data.csv", encoding = "cp949")df.head()를 통해 첫 5개의 행을 확인해보는 게 국룰df.head() 데이터프레임의 행 정렬sort_values(by = "정렬기준열")house.sort_values(by = '행정구역별(읍면동)')기준열이 두 개 이상이면 리스트를 써준다.house.sort_values(by = [ '행정구역별(읍면동)', '시점'])선택함수 1: ascending = True(기본값)ascending = False를 써주면 내림차순 정렬로 바뀐다.선택함수 2: inplace =..
데이터 직무 과제테스트 준비하느라 데이터프레임 문법 복습하기..데이터프레임 정의df = pd.DataFrame( {딕셔너리}) 간단하게 df.info(), df.describe() 함수를 통해 데이터프레임에 대한 요약본을 볼 수 있다. 슬라이싱슬라이싱을 통해 열 또는 행의 일부를 선택해서 추출한다.열 선택 df[선택할 열] 선택할 열이 두 개 이상인 경우 리스트 형식으로 써주기df['name']df[['name', 'height']]행 선택df[비교 연산자를 이용한 조건 표현식]# 예df[ df['sex'] == 'M' ]df[ df['age'].isin([25,33]) ]df[ (df['sex'] == 'M') & (df['height'] >= 160.0) ]df[ (df['age'] 행과 열 선택df..

9월에 BDA 7기 데이터분석 중급반을 시작했다. 통계는 싫지만 그래도 데이터분석은 알고있어야 하니.. 매주 일요일 오후 8시부터 1시간동안 온라인으로 수업이 진행되고, 조별활동을 통해 복습하는 형태이다. 매주 복습과제도 있다. 지금 3주차인데, 2주차부터 복습이 밀렸으니 얼른 복습하고, 복습과제도 제출해야겠다. 일단 2주차 과제는 다음과 같다. 필수과제 1 : 타이타닉 데이터로 진행 (seaborn 패키지 사용) 필수과제2 : salary_class.csv - 컬럼 설명 : class 0,1 이진분류 - 연봉과 관련된 다양한 변수들 - 변수명만 봐도 이해할 수 있는 것들이라 추가 설명 생략 일단 2주차 복습먼저 해야지!