5.2.1 Seaborn과 장난감 데이터셋 (Toy Dataset)

앞서 5.1장에서 도화지(Matplotlib)의 기초적인 사용법을 배웠습니다. 이번 장부터는 강력하고 화려한 통계 시각화 템플릿인 Seaborn을 본격적으로 다룹니다.

그래프를 그리기 위해서는 언제나 분석할 표(DataFrame) 데이터가 필요합니다. 매번 인터넷에서 CSV 파일을 구해서 로딩하는 것은 실습에 번거롭습니다.

파이썬에는 데이터 분석 연습을 위해 전 세계적으로 통용되는 유명한 샘플 데이터(장난감 데이터)를 파이썬 패키지 안에 내장해 놓은 두 가지 아주 훌륭한 방법이 있습니다.

데이터셋 로딩 개념도

방법 1: pydataset 패키지 활용

우리가 이전 장에서 설치했던 패키지입니다. pydataset은 R이라는 통계 언어에서 사용되던 750개가 넘는 방대한 연습용 데이터셋을 파이썬으로 옮겨놓은 창고입니다.

from pydataset import data

# pydataset 안에 여러 데이터가 있습니다.
# mpg (자동차 연비 데이터)
df_mpg = data('mpg')

방법 2: seaborn 내장 데이터셋 활용 (★가장 추천)

Seaborn 패키지를 설치하면, 시각화에 특화된 가장 유명하고 품질이 뛰어난 “데이터 4대장”이 내장되어 있습니다. 추가적인 설치 없이 곧바로 불러올 수 있어 전 세계 모든 실습 강의에서 기본으로 쓰입니다.

[실전 꿀팁]: 데이터 분석계의 “국민 데이터셋 4대장”

  • iris (붓꽃): 꽃잎/꽃받침 길이 데이터 (머신러닝 분류 연습용)
  • titanic (타이타닉): 1912년 타이타닉호 승객의 생존 여부 (조건 통계/상관분석 연습용)
  • tips (식당 팁): 레스토랑 손님들의 식사 결제와 팁 데이터 (막대그래프/시각화 기초 연습용)
  • penguins (펭귄): 펭귄의 부리 길이와 몸무게 데이터 (산점도/분류 연습용)
import seaborn as sns

# 인터넷 연결이 끊겨 있어도 seaborn 라이브러리 안에 내장되어 즉시 불러와집니다!
df_titanic = sns.load_dataset('titanic')
df_tips = sns.load_dataset('tips')

다음 장에서는 이 데이터를 바탕으로, 그래프 그리기 전 필수 의식과도 같은 탐색적 데이터 분석(EDA)을 수행하는 방법을 배웁니다.

서브목차