1.5.1 개요 및 도입

학습목표

본 장에서는 범주형 데이터의 핵심 축인 명목형(Nominal) 데이터와 서열형(Ordinal) 데이터를 명확히 구분하고 이해합니다. 숫자로 단지 ‘기호’만 부여한 명목형과, ‘순서’는 존재하지만 그 간격이 일정치 않은 서열형 데이터의 특성을 파악하여 데이터 전처리 시 발생할 수 있는 치명적인 수치 연산 오류를 사전에 방지하는 역량을 기릅니다.

주의! 명목형 숫자는 계산하면 안 돼요

데이터 분석 초보자들이 가장 많이 하는 실수가 바로 이 명목형 숫자를 더하거나 평균을 내버리는 것입니다.

서울(1번), 대전(2번), 부산(3번)이라는 번호표를 보고, (1+2)/2= 1.5번(경기도?) 라는 말도 안 되는 평균값을 도출하면 치명적인 오류가 발생하게 됩니다.

명목 데이터

범주형 데이터 2: 서열형(Ordinal)

두 번째 범주형은 순서나 ‘서열(Hierarchy)’이 명확하게 존재하는 카테고리인 서열형(Ordinal) 데이터입니다.

수능 등급 (1등급, 2등급, 3등급)
설문조사 만족도 (아주 불만=1, 불만=2, 보통=3, 만족=4, 아주 만족=5)

데이터 개념

서열형 데이터의 간격은 다를 수 있다

1등급이 3등급보다 공부를 더 잘한다는 ‘순위’는 명확하지만, 그 ‘간격(차이)’이 숫자의 차이와 같지 않습니다.

예를 들어 육상 달리기에서 1등이 10초 만에 들어오고, 2등은 15초, 3등은 30초 만에 들어올 수 있습니다. 순위(1, 2, 3)는 정해졌지만 그들의 실력 차이를 완벽히 비례해서 계산할 수는 없는 데이터입니다.

서열 데이터

정리

명목형(Nominal) 데이터와 서열형(Ordinal) 데이터는 모두 컴퓨터가 처리하기 위해 임의의 ‘숫자표(라벨링)’를 달아놓았을 뿐, 실제 우리가 아는 그 숫자의 크기와 양을 대변하지 않습니다.

명목형 숫자: 단순한 이름표이므로 더하거나 뺄 수 없습니다. (혈액형, 남녀 구분 등)
서열형 숫자: 순위는 알려주지만, 숫자 사이의 크기 차이를 일정하게 나눈 비율이 아니기 때문에 비례 계산을 해서는 안 됩니다. (수능 등급, 달리기 순위 등)

이러한 범주형 데이터들을 머신러닝 모델에 학습시키기 위해서는 숫자의 크기가 학습에 혼선을 주지 않도록 원-핫 인코딩(One-Hot Encoding)과 같은 별도의 특수한 데이터 전처리 기법을 거쳐야만 합니다. 데이터의 성질을 완벽히 꿰뚫는 것이 정확한 분석의 첫 단추입니다.

서브목차