본문 바로가기

분류 전체보기170

[파이썬] 판다스: 조건과 정렬 데이터프레임에서 조건에 만족하는 데이터들만 가져올수 있다. 경력이 3년 이상인 사람의 데이터를 가져오고 싶을때 먼저 조건문을 적용시킨후: in: df['Years of Experience'] >= 3 out: 0 True 1 True 2 True 3 False Name: Years of Experience, dtype: bool loc함수를 이용하여 데이터를 가져온다. in: df.loc[df['Years of Experience'] >= 3,] out: # 컬럼에 해당되는 파라미터 자리를 비워두면 모든 컬럼이 포함된 데이터를 가져오게 된다. 경력이 3년이상인 사람의 이름과 시급정보를 가져오려고 한다면 in: df.loc[df['Years of Experience'] >= 3,['Employee Name.. 2022. 5. 2.
[파이썬] 판다스: 카테고리컬 데이터 (categorical data) 카테고리컬 데이터는 반복되어 사용되어지는 데이터이다. 개수가 정해져 있고 정해진 데이터들을 이용해서 데이터를 채운다. 반복되는 데이터가 들어있는 데이터프레임이 있다. unique 함수를 통해 특정 열 안에서 중복 제거된 유니크한 데이터를 구해보자 in: df['Year'].unique() out: array([1990, 1991, 1992], dtype=int64) # nunique 함수를 사용하면 유니크한 데이터의 개수를 알수있다. 전체 데이터프레임에 describe 함수를 적용하면 수치 데이터가 포함된 컬럼에 해당되는 전체적인 분석을 볼수있다. in: df.describe() out: 만약 문자 데이터의 열을 describe 하면 조금 다른 형태의 분석이 나온다. in: df['Name'].descr.. 2022. 5. 1.
[파이썬] 판다스: NaN 데이터 프레임 속 NaN 이 얼마나 있는지 파악하자 in: df.isna() out: # isna를 사용하여 False와 True로 NaN의 여부를 확인할 수 있다. sum함수를 활용해 컬럼별로 Nan의 개수를 알 수 있다. in: df.isna().sum() out: bikes 0 pants 0 watches 0 shirts 1 shoes 0 suits 1 glasses 1 dtype: int64 전체 Nan의 개수를 알고 싶으면 sum을 한 번 더 사용하면 된다. in: df.isna().sum().sum() out: 3 NaN을 처리하는 방법은 여러 가지가 있다. 1. 삭제한다. in: df.dropna() out: # dropna를 통해 Nan이 들어갔던 행들이 모두 삭제됐다. 2. 특정값으로 채.. 2022. 4. 29.
[파이썬] 판다스: 2차 배열, DataFrame 판다스는 2차배열을 DataFrame 함수를 통해 만들수 있다. DataFrame을 만들기전 먼저 딕셔너리 형태로 판다스 1차배열인 Serise들을 묶어 변수로 지정해주면 2차 배열인 데이터프레임을 쉽게 만들수 있다. in: # We create a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} df = pd.DataFrame(data=items) df out: # 왼쪽 진한글자는 인.. 2022. 4. 28.
[파이썬] 판다스: 1차 배열, Series Pandas 의 장점 열과 행을 위한 라벨이 허용된다. 기본적인 통계데이터가 제공된다. NaN values 를 알아서 처리한다. 숫자 문자열을 알아서 로드한다. 데이터셋들을 merge 할 수 있음. NumPy 와 Matplotlib를 아우른다. 판다스를 쓰기위해 우선 pandas를 import한다. import pandas as pd 판다스에서 1차원 데이터를 시리즈라고 한다. Series함수를 사용해 시리즈를 생성해보자. in: my_data = [30, 6, 'Yes', 'No'] x = pd.Series(data= my_data) x out: 0 30 1 6 2 Yes 3 No dtype: object # Series 함수에 data= 파라미터를 사용해 시리즈를 생성할수있다. # 시리즈 왼쪽의 숫자.. 2022. 4. 28.
[파이썬] 넘파이: 인덱스, 슬라이싱, delete, append, insert, copy, unique 4행 5열인 2차원 배열 X에 70보다 큰 데이터가 몇개있는지 확인하자. 70보다 큰 데이터는 True가, 아닌것은 False가 나오는걸 볼수있다. in: X > 70 out: array([[ True, True, False, False, True], [False, False, False, False, False], [False, False, False, False, False], [ True, False, False, False, False]]) sum함수를 이용하여 70보다 큰 데이터의 개수를 확인할수 있다. in: (X > 70).sum() out: 4 # True는 1, False는 0인 성질을 이용해 셀수있다. X 중 70보다 큰 데이터만 가져온다고 한다면 in: X[X > 70] out: ar.. 2022. 4. 28.
[파이썬] 넘파이: array, size, shape, dtype, save, load, zeros, ones, full, arange, linspace, reshape, ndim, argmax NUMPY BASICS NumPy는 다차원 배열을 처리할 수 있는 선형대수학(Linear Algebra) 라이브러리다. 먼저 넘파이 활용을 위해 numpy를 임포트하자. 또한 numpy를 as문을 이용하여 np로 축약해 편하게 사용하도록 해보자. import numpy as np # 이제 넘파이 함수를 np로 불러올수 있다. 리스트를 하나 만들어보자 a = [1,2,3,4,5] 그리고 이 리스트를 array함수를 사용해 1차원 배열로 만들수 있다. in: b = np.array(a) b out: array([1, 2, 3, 4, 5]) 넘파이는 리스트와 달리 mean 함수를 통해 바로 평균을 구할수 있다. in: b.mean() out: 3.0 size 함수로 배열의 개수를 띄워보자 in: b.size .. 2022. 4. 27.
[파이썬] 라이브러리: datetime, weekday, isoformat, strftime, parse, relativedelta 날짜와 시간과 관련된 라이브러리와 함수들을 알아보자 날짜와 시간에 관한 편집을 하려면 먼저 datetime 라이브러리를 활용해야 한다. from datetime import date 파이썬이 처리할수 있는 날짜를 만들어 보자 in: some_day = date(2022,5,8) 해당 날짜가 저장된 변수에 year, month 등의 함수들을 이용해 날짜정보를 불러올수 있다. 연도 불러오기: in: some_day.year out: 2022 월 불러오기: in: some_day.month out: 5 일자 불러오기: in: some_day.day out: 8 요일 불러오기: in: some_day.weekday() out: 6 # 월요일 0번부터 일요일 6번까지 설정되어 있다. isoformat함수를 이용하.. 2022. 4. 27.