1.4.3 좋은 지혜는 좋은 데이터에서 출발한다
학습목표
본 장에서는 기반암이 곧대해야 훌륭한 성이 지어지듯, 데이터 분석의 뼈대가 되는 데이터의 기본 성질을 학습합니다. 특히 기계가 쉽게 연산할 수 있는 ‘정량적(Quantitative) 데이터’와 문맥과 사람의 감정이 섞인 ‘정성적(Qualitative) 데이터’를 명확히 구분할 수 있는 안목을 기릅니다.
좋은 데이터
건축을 할 때 바닥의 기반암이 약하면 꼭대기의 성은 무너지고 맙니다. DIKW 피라미드도 마찬가지입니다.
처음에 수집한 데이터(Data)가 쓰레기이거나 거짓말투성이라면, 아무리 뛰어난 기술로 가공해도 꼭대기의 지혜(Wisdom)는 무너진 오답이 되고 맙니다. (Garbage In, Garbage Out)

데이터종류
데이터는 크게 숫자로 깔끔하게 나타낼 수 있는 ‘정량적(Quantitative) 데이터’와 문장이나 느낌처럼 숫자로 표현하기 힘든 ‘정성적(Qualitative) 데이터’ 두 가지로 쪼개집니다.
이 두 가지를 구분할 줄 아는 것이 분석의 첫걸음입니다.

정량적(Quantitative) 데이터란?
‘얼마나(How much/many)?’에 해당하는 데이터입니다. 자나 저울로 잴 수 있는 명확한 숫자를 말합니다.
- 내 키는 173.5cm이다.
- 이번 달 핸드폰 요금은 65,000원이다.
- 우리 반 학생 수는 총 30명이다. 이런 데이터들은 파이썬이나 엑셀이 계산하기 매우 쉽습니다.

정성적(Qualitative) 데이터란?
숫자가 아니라 텍스트, 소리, 질감, 감정 등 상태나 특성을 문자와 형태로 묘사하는 데이터입니다.
- 이 커피는 맛이 씁쓸하고 향이 고소하다.
- 고객 리뷰: “배송이 너무 늦어서 짜증났어요. 다신 안 삼!”
- 이번 시즌 트렌드 색상은 차분한 베이지색이다.

정리
“좋은 데이터가 좋은 지혜(Wisdom)를 낳는다(GIGO).” 분석의 세계에서 절대 변하지 않는 대원칙입니다.
- 분석의 첫걸음: 우리가 수집한 데이터가 자로 잴 수 있는 정량적 데이터(숫자, 금액, 개수)인지, 문자와 감정이 섞인 정성적 데이터(리뷰, 색상, 맛)인지 감별해 내는 것이 모든 데이터 분석의 가장 중요한 첫 단추입니다.
- 분석 도구의 선택: 정량적 데이터는 엑셀이나 파이썬의 기본 통계 공식만으로도 쉽게 분석하지만, 정성적 데이터는 앞으로 배울 자연어 처리(NLP)나 AI 텍스트 마이닝 같은 보다 복잡한 기술을 적용해야 합니다.
무작정 숫자만 들여다보는 것이 아니라, 이 데이터가 말하고자 하는 고유한 ‘성질’을 파악하는 순간 비로소 여러분은 훌륭한 데이터 분석가로 한 걸음 내딛게 됩니다.
서브목차