Today i learned & Week i learned/파이썬 관련

[스파르타코딩클럽] 직장인을 위한 실전 데이터분석 _ 3-6

데분조 2023. 12. 26. 12:09
반응형

이전 내용

 

[스파르타코딩클럽] 직장인을 위한 실전 데이터분석 _ 3-5

제품 수요가 많은 지역을 찾아라! _ 라인 그래프 그리기 import pandas as pd # 판다스 라이브러리를 가져오는데 pd라고 부르겠다. import matplotlib.pyplot as plt # 맷플롯립 라이브러리를 가져오는데 plt라고

datanaly.tistory.com


4) 필요한 데이터만 볼수 있게 테이블 가공하기

area_info=sparta_data[['area','latitude','longitude']]
# 새로운 테이블을 만들고자 할 땐 기존의 테이블에서 필요한 "열의 이름"을 대괄호에 넣어 변수에 지정해 주면 됩니다
# sparta_data에서 'area','latitude','longitude'열의 데이터를 가져와서 
# area_info라는 새로운 데이터 프레임을 만들거야.

area_info.head()
# area_info 상위 5개 열 확인

 

출력 결과


area_info=area_info.drop_duplicates(['area'])
# drop_duplicates()을 이용하면, area(지역) 컬럼의 중복 데이터를 처리 할 수 있습니다. :)

area_info
# area_info 확인!

 

출력 결과


area_info= area_info.reset_index()
# reset_index() 메서드를 이용하여 area_info의 인덱스를 재정렬한다.

area_info
# area_info 확인!

 

출력 결과


area_info = area_info.sort_values(by=["area"], ascending=[True])
# .sort_values() -> 지정 값으로 레이블을 정렬할 것이다.
# (by=["area"], ascending=[True]) -> area열 기준 오름차순으로 정렬하겠다.

area_info
# area_info 확인!

 

출력 결과


number_of_students = pd.DataFrame(sparta_data.groupby('area')['user_id'].count())
# area열 기준으로 그룹화를 하여 area 열 데이터 그룹별 'user_id'의 개수가 있는 
# 데이터프레임 number_of_students 만들거야!

number_of_students
# number_of_students 확인!

 

출력 결과


result = pd.merge(area_info, number_of_students, on="area")
# area열 기준으로 area_info 데이터 프레임, number_of_students 데이터프레임을 합칠거야.

result
# result 확인

 

출력 결과


5) 그래프로 시각화 하기

import matplotlib.pyplot as plt
# matplotlib.pyplot 라이브러리를 가져오고 plt라고 할거야.

import numpy as np
# numpy 라이브러리를 가져오고 np라고 할거야.

plt.rc('font', family='NanumBarunGothic') 
#plt의 글꼴을 설정할건데.'NanumBarunGothic'로 할거야.

plt.figure(figsize=(10,5))
#가로 10, 세로 5인 크래프를 만들거야.


plt.plot(result['area'], result['user_id'])
# 그래프의 x값은 result 데이터 프레임의 area 값으로 할거야.
# 그래프의 y값은 result 데이터 프레임의 user_id 값으로 할거야.


plt.title('지역별 사용자 수')
# 상단 그래프 명은 지역별 사용자 수라고 할거야.


plt.xlabel('지역')
#그래프 x축 명은 지역이라고 할거야.


plt.ylabel('사용자(명)')
#그래프 y축 명은 사용자(명)라고 할거야.


plt.xticks(np.arange(13))
# x축 눈금 수는 12개로 할거야.


plt.show()
#그래프 출력

 

출력 결과


 

반응형