[파이썬] 영화 추천 시스템 실습: Item-based Collaborative Filtering, pivot_table, corrwith
추천시스템은 영화나 노래등을 추천하는데 사용되며, 주로 관심사나 이용 내역을 기반으로 추천한다. movie_titles_df= movies_rating_df= 실습 1. 두개의 데이터프레임을 합치시오. in: movie = pd.merge(movies_rating_df,movie_titles_df, on = 'item_id') out: 실습 2. timestamp 컬럼은 필요없으니, movies_rating_df 에서 아예 제거하시오. in: movie.drop('timestamp',axis=1,inplace=True) movie out: 실습 3. 각 영화별 별점의 평균을 구하고, 이를 ratings_df_mean 에 저장하시오. 또, 각 영화별로 몇개의 데이터가 있는지 구하고, 이를 ratings_d..
2022. 5. 12.
[파이썬] Alexa 리뷰 실습: Word Cloud, STOPWORDS
리뷰로부터 인사이트를 얻고, 감성분석을 한다. 데이터셋은 아마존의 알렉사 제품에 대한, 3000개의 리뷰로 되어있다. 컬럼은 rating, date, variation(제품모델), verified_reviews, feedback Dataset: www.kaggle.com/sid321axn/amazon-alexa-reviews 실습 1. 패키지 설치 프로젝트를 위해, 아나콘다 프롬프트를 실행하고, 다음을 인스톨 하세요. conda install -c conda-forge wordcloud 실습 2. pandas로 파일 읽기 - 탭으로 되어 있는 tsv 파일 읽기 df = pd.read_csv('data/amazon_alexa.tsv',sep="\t") # 혹은 read_table활용 실습 3. verifi..
2022. 5. 10.
[파이썬] 데이터 분석 실습: 인구조사
https://mois.go.kr에서, 연령별 인구현황 통계표를 csv로 다운로드 한다. (남녀구문을 uncheck, 연령1세단위, 0~100, 전체읍면동현황) pd.read_csv로 해당 파일을 가져오면 숫자로 된 str데이터가 포함되는데 이는 1000 단위마다 쉼표를 넣어 구분하는 표시때문에 문자열로 인식하게 된다. 그러므로 thousand 파라미터를 사용해서 문자열을 숫자형식으로 불러와야 한다. df = pd.read_csv('data/age.csv',encoding='cp949', thousands=',') 실습 1. '삼청동' 의 인구 구조를, 0세부터 100세 까지 나이대 별로 몇명이 있는지 시각화 하세요. (가로축은 나이, 세로축은 인구수) 실습 2. '종로구' 의 인구 구조를, 0세부터 1..
2022. 5. 4.
[파이썬] 데이터 분석 실습: 대중교통
subwayfee.csv 파일을 통한 지하철 유무임별 이용현황 데이터 분석 (자료출처 : t-money.co.kr) 실습 0. 유임승차, 유임하차, 무임승차, 무임하차 4가지 별로, 각각 가장 많은 역을 찾아보세요. 실습 1. 무임승차 대비 유임승차 비율이 가장 높은 역은 어디입니까? # 무임승차 컬럼에 0값을 가진 데이터가 있어 그대로 나누어주면 inf나온다 # 그러므로 0을 제외하고 나누어 주도록하자 실습 2. 전체승차인원(유임+무임)이 만명이상인 역 중, 유임승차 비율이 가장 높은 역은 어디입니까? 실습 3. 모든 역의 유임승차, 유임하차, 무임승차, 무임하차, 총 4개를, 파이차트로 나타내세요. 먼저 첫번째와 두번쨰 행에 있는 서울역과 시청의 승하차현황을 나타내보면서 어떻게 코드를 짜야할지 생각하..
2022. 5. 4.