5.2.3 pydataset 주요 자료 가져오기

① 주요 자료 titanic 가져오기

[실전 꿀팁]: 연습할 때 단골로 등장하는 “국민 데이터셋 4대장”

  • iris: 붓꽃의 꽃잎/꽃받침 길이 데이터 (분류 알고리즘 연습용)
  • mtcars: 1974년 자동차 디자인/성능 데이터 (회귀 분석 연습용)
  • titanic: 타이타닉호 승객 생존 여부 (분류/상관분석 연습용)
  • tips: 식당에서의 팁(Tip) 결제 데이터 (시각화/그룹분석 연습용)

데이터에 대한 정보를 모를 때 편리하게 사용할 수 있다. 타이타닉 데이터셋은 1912년 영국에서 미국으로의 처녀 출항에 침몰한 타이타닉 배의 생존자와 사망자 정보 데이터셋이다.

df = data('titanic', show_doc=True)

다음 df = data('dataset_id')는 ‘dataset_id’의 데이터셋을 가져올 수 있다. 다음은 유명한 타이타닉 데이터셋을 가져오는 코드이다.

df = data('titanic')
print(df)

출력:

          class     age    sex survived
1     1st class  adults    man      yes
2     1st class  adults    man      yes
3     1st class  adults    man      yes
4     1st class  adults    man      yes
5     1st class  adults    man      yes
...         ...     ...    ...      ...
1312  3rd class   child  women       no
1313  3rd class   child  women       no
1314  3rd class   child  women       no
1315  3rd class   child  women       no
1316  3rd class   child  women       no

[1316 rows x 4 columns]

다음으로 타이타닉 데이터셋 정보를 볼 수 있다.

df.info()

다음으로 타이타닉 데이터셋의 열 정보를 볼 수 있다.

df.describe()

출력:

            class     age    sex survived
count        1316    1316   1316     1316
unique          3       2      2        2
top     3rd class  adults    man       no
freq          706    1207    869      817

다음은 좌석 등급인 열 ‘class’의 종류와 빈도 수이다.

df['class'].value_counts()
# 5.2.3 rd class    706
# 5.2.3 st class    325
# 5.2.3 nd class    285
# 5.2.3 Name: class, dtype: int64

다음은 열 ‘age’의 종류와 빈도 수이다.

df.age.value_counts()
# 5.2.3 adults    1207
# 5.2.3 child      109
# 5.2.3 Name: age, dtype: int64

다음은 열 ‘sex’의 종류와 빈도 수이다.

df.sex.value_counts()
# 5.2.3 man      869
# 5.2.3 women    447
# 5.2.3 Name: sex, dtype: int64

다음은 생존자 정보인 열 ‘survived’의 종류와 빈도 수이다.

df.survived.value_counts()
# 5.2.3 no     817
# 5.2.3 yes    499
# 5.2.3 Name: survived, dtype: int64

다음은 데이터프레임에서 모든 열의 종류와 빈도 수이다.

df.value_counts()

② 자동차 연비 자료 mpg 가져오기

다음으로 데이터프레임 all_data에서 열 title이 문자열 ‘car’를 포함한 행을 알아볼 수 있다. 데이터셋 id로 mpg가 보인다. 데이터셋 mpg(miles per gallon)는 1999년과 2008년의 인기 차종 38개에 대한 연비 데이터이다.

all_data[all_data.title.str.contains('car')]

위에서 찾은 연비 데이터 mpg로 데이터를 가져오자.

df_mpg = data('mpg')
print(df_mpg)

미국 자동차 연비 데이터인 mpg의 요약 정보는 다음과 같다.

data('mpg', show_doc=True)

데이터프레임 df_mpg의 정보는 다음과 같다.

df_mpg.info()

연비 데이터의 데이터프레임 값이 수인 열의 주요 통계 정보는 다음과 같다.

df_mpg.describe()

연비 데이터의 모델인 열 model의 종류는 다음과 같다.

df_mpg.model.value_counts()

연비 데이터의 실린더 수인 열 cyl의 종류는 다음과 같다.

df_mpg.cyl.value_counts()

연비 데이터의 자동차 회사 정보인 열 manufacturer의 빈도는 다음과 같다.

df_mpg.manufacturer.value_counts()
서브목차