본문 바로가기

분류 전체보기170

[파이썬] 판다스: 날짜데이터, np.datetime64 , to_datetime, to_timedelta, DatetimeIndex, date_range, timedelta_range 파이썬에서 날짜데이터를 다루려면 기본적으로 datetime과 dateutil 라이브러리를 활용해야한다. from datetime import datetime from dateutil.parser import parse 만약 날짜로 이루어진 문자열들이 리스트안에 들어있는데 그것을 날짜 형식으로 바꿔주려면 in: date_str_list = ['2022-05-11' , '2022-06-10','2022-07-03'] for data in date_str_list: print(parse(data)) out: 2022-05-11 00:00:00 2022-06-10 00:00:00 2022-07-03 00:00:00 이와같은 날짜관련 함수들의 활용법을 아래 3개의 링크를 통해 참고해보자: strftime sect.. 2022. 5. 4.
[파이썬] 데이터 분석 실습: 범죄현황 + 구글 맵 API (Geocoding), gmaps.geocode 서울시 구별 범죄 발생과 검거율 데이터 분석 '서울시 관서별 5대 범죄 발생 검거 현황' 파일을 가지고 분석한다. 실습 1. crime_in_Seoul.csv 파일을 pandas 로 읽어오세요. 실습 2. 경찰서들은 하나의 구에 여러개가 있을 수 있습니다. 따라서 구 단위로 데이터를 통합하세요. 구글 맵 API 를 이용해서, 경찰서가 무슨 구에 있는지 확인하기 위해 아나콘다 프롬프트웨어 다음을 실행. (pip install googlemaps) import googlemaps # 아나콘다 기준으로 아나콘다 프롬프트를 실행하여 pip install googlemaps 입력 구글 클라우드의 MAPS API 페이지로 이동하여, API 키를 생성합니다. https://cloud.google.com/maps-pl.. 2022. 5. 4.
[파이썬] 데이터 분석 실습: CCTV설치 실습 1. CCTV_in_Seoul.csv 파일을 pandas 로 읽어오세요. 실습 2. 컬럼 중 "기관명" 컬럼명을 "구별" 로 이름을 바꾸세요. 실습 3. population_in_Seoul.xls 파일을 읽으세요. # header 파라미터로 컬럼명을 엑셀에서 몇번째 열에 위치한 컬럼들로 할지 설정할수있다. # usecols으로 사용할 컬럼들만 엑셀에서 가져올수있다. 실습 4. pop_Seoul 의 컬럼명을 모두 출력하세요. 실습 5. 컬럼명을 다음처럼 바꿉니다. (0번째는 '구별' , 1번째는 '인구수', 2번쨰는 '한국인', 3번째는 '외국인', 4번째는 '고령자' 로 rename) pop_Seoul.rename(columns={'자치구':'구별','계':'인구수','계.1':'한국인','계.2'.. 2022. 5. 4.
[파이썬] 데이터 분석 실습: 인구조사 https://mois.go.kr에서, 연령별 인구현황 통계표를 csv로 다운로드 한다. (남녀구문을 uncheck, 연령1세단위, 0~100, 전체읍면동현황) pd.read_csv로 해당 파일을 가져오면 숫자로 된 str데이터가 포함되는데 이는 1000 단위마다 쉼표를 넣어 구분하는 표시때문에 문자열로 인식하게 된다. 그러므로 thousand 파라미터를 사용해서 문자열을 숫자형식으로 불러와야 한다. df = pd.read_csv('data/age.csv',encoding='cp949', thousands=',') 실습 1. '삼청동' 의 인구 구조를, 0세부터 100세 까지 나이대 별로 몇명이 있는지 시각화 하세요. (가로축은 나이, 세로축은 인구수) 실습 2. '종로구' 의 인구 구조를, 0세부터 1.. 2022. 5. 4.
[파이썬] 데이터 분석 실습: 대중교통 subwayfee.csv 파일을 통한 지하철 유무임별 이용현황 데이터 분석 (자료출처 : t-money.co.kr) 실습 0. 유임승차, 유임하차, 무임승차, 무임하차 4가지 별로, 각각 가장 많은 역을 찾아보세요. 실습 1. 무임승차 대비 유임승차 비율이 가장 높은 역은 어디입니까? # 무임승차 컬럼에 0값을 가진 데이터가 있어 그대로 나누어주면 inf나온다 # 그러므로 0을 제외하고 나누어 주도록하자 실습 2. 전체승차인원(유임+무임)이 만명이상인 역 중, 유임승차 비율이 가장 높은 역은 어디입니까? 실습 3. 모든 역의 유임승차, 유임하차, 무임승차, 무임하차, 총 4개를, 파이차트로 나타내세요. 먼저 첫번째와 두번쨰 행에 있는 서울역과 시청의 승하차현황을 나타내보면서 어떻게 코드를 짜야할지 생각하.. 2022. 5. 4.
[파이썬] 데이터 분석 실습: 기온데이터분석 기온데이터는 아래와 같다. 실습 1. 가장 더운날은 언제입니까? 실습 2. 최고기온을 히스토그램으로 나타내되, bin의 범위를 4도로 만들어서, 히스토그램으로 보여주세요. 실습 3. 위에서는 모든 날짜에 대한 데이터 입니다. 그러면! 2014년도 부터의 데이터를 기준으로, bin의 범위를 4도로 만들어서, 히스토그램으로 보여주세요. 내가 한 방법: 실습 4. 2017-08-01 ~ 2017-08-15 사이의 날짜별 x축, 최고기온을 y축으로 스케터로 나타내세요. 2022. 5. 3.
[파이썬] 맷플롯립 (Matplotlib) matplotlib을 사용해서 차트를 통해 데이터를 분석할수 있다. import matplotlib.pyplot as plt import seaborn as sb # 이후에 seaborn도 사용하니 미리 임포트 하자 가장 기본적인 차트인 플롯차트 (선형 그래프)를 만들어보자 in: x = np.arange(0,10) y = x plt.plot(x,y) plt.show() out: # x와 y를 정하고 plot함수를 통해 플롯차트를 만들었다. # show 함수로 사용자에게 차트를 보여준다. 이렇게 만들어진 차트는 savefig를 통해 파일로 저장할수있다. plt.savefig('test1.jpg') countplot 함수를 이용하여 바 차트 (막대그래프)를 만들수 있다. in: sb.countplot(da.. 2022. 5. 2.
[파이썬] 판다스: concat, merge, pivot_table concat 함수를 통해 두개 이상의 데이터프레임을 합칠수있다. df_Engineering_dept = df_Finance_dept = 위의 데이터프레임들을 하나로 합쳐보자 in: df_all = pd.concat([df_Engineering_dept,df_Finance_dept]) df_all out: # 하나의 새로운 데이터프레임으로 다시 만들고 싶다면 인덱스명에 주의하자 # reset_index함수로 인덱스를 재설정하여 0부터 오름차순으로 바꿔줄수있다. merge 함수를 사용해 연봉 데이터가 들어있는 데이터프레임을 이전의 합쳐진 부서데이터에 넣어보자 in: pd.merge(df_all,df_salary,on = 'Employee ID') out: # on 파라미터로 연결되는 컬럼의 이름을 입력해 데.. 2022. 5. 2.