목록전체 글 (221)
우당탕탕 개발일지
💡문제 링크 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr 💡SQL 코드 설계보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다.1. 단순히 GROUP BY HOUR(DATETIME)으로 하면 안된다. DATETIME은 모든 시간대를 다루지 않기 때문이다.실제로 결과괎을 보면 7시부터 19시까지만 HOUR(DATETIME)에 값이 있다. 0~6시, 20~23시는 아예 값이 없는 것이다.2. 따라서 이 문제를 해결하기 위해 0, 1, .....
💡문제 링크 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr 💡SQL 코드 설계USER_INFO 테이블과 ONLINE_SALE 테이블에서 년, 월, 성별 별로 상품을 구매한 회원수를 집계하는 SQL문을 작성해주세요. 결과는 년, 월, 성별을 기준으로 오름차순 정렬해주세요. 이때, 성별 정보가 없는 경우 결과에서 제외해주세요.1. 년, 월 열을 새로 만든다.2. 년, 월, 성별 기준으로 GROUP BY 진행3. 년, 월, 성별 기준으로 USER_ID의 개수를 중복을 제외하고 세는 USERS 열 추가 💡SQL 코드SELECT YEAR(SALES_DATE) AS YEAR, MONTH(SALES_DATE)..

💡 데이터 전처리에 활용되는 넘파이 함수column_stack() 함수 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결각 특성값을 담은 두 리스트를 합쳐서 입력 데이터를 만드는 데에 활용concatenate() 함수전달받은 리스트를 옆으로 붙인다. axis = 1으로 하면 열을 기준으로 붙인다.타깃 데이터를 만드는 데에 활용 💡사이킷런으로 훈련 세트와 테스트 세트 나누기train_test_split() 함수비율에 맞게 훈련 세트와 테스트 세트로 나누어 준다.from sklearn.model_selection import train_test_split# train_test_split() 함수를 이용하여 훈련 세트와 테스트 세트 나누기, 매개변수 활용train_input, test_input,..

💡 지도 학습과 비지도 학습쉽게 말하자면, 학습데이터에 정답까지 포함되어 있는 경우 지도 학습, 정답 없이 특성 데이터만 있는 경우 비지도 학습이라고 한다. 💡 학습 데이터의 구성입력 데이터와 타겟 데이터훈련하기 위해 사용하는 데이터는 입력 데이터와 타겟 데이터로 이루어져있다.입력 데이터는 특성들(Features)로 이루어져 있고, 타겟 데이터(Target)는 정답데이터이다.보통 지도학습에서 학습 데이터로 사용하는 데이터는 다음과 같이 테이블 형태로 되어 있다.특성을 나타내는 열들과 정답을 나타내는 하나의 열로 이루어져 있다. 훈련 세트와 테스트 세트훈련 세트는 훈련에 사용되고, 테스트 세트는 모델의 성능을 평가하는 데에 사용된다. 💡 샘플링 편향훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지..

💡 K-최근접 이웃 알고리즘분류 알고리즘으로, 근처에 있는 K개의 데이터를 바탕으로 분류하는 알고리즘K의 값은 매개변수로 직접 설정 가능하다.이 사진의 경우 K = 3으로 설정한 K-최근접 이웃 알고리즘으로, 새로운 값의 가장 근처에 있는 3개의 데이터를 활용한다.3개의 데이터 중 2개는 삼각형, 1개는 사각형이므로 삼각형으로 분류하게 된다.단순한 알고리즘으로, 구현하는 큰 틀만 기억하고 넘어가야겠다. 💡 K-최근접 이웃 알고리즘 라이브러리KNeighborsClassifier 라이브러리를 사용한다.from sklearn.neighbors import KNeighborsClassifier분류기 객체(모델)를 만든 뒤, 데이터를 이용해서 모델을 학습(훈련)하고, 정확도를 계산한다.# 사이킷런 패키지에서..
groupby 함수df_new = df.groupby(by = [그룹화기준열]).집계함수.reset_index()- 집계함수: sum(), mean()- reset_index(): 그룹화에서 사용된 열들을 인덱스 > 열로 바꾼다.df3 = df2.groupby("예보 등급")["count"].count().reset_index() .startswith(특정문자)특정문자로 시작하는 것들만 뽑아낸다.[ x for x in house_year.columns if x.startswith('p') ]