1.7 데이터 분석의 과정 (6단계) 및 로드맵
학습목표
본 장에서는 흩어져 있는 원시 데이터를 비즈니스의 최종적인 의사결정(Action)으로 탈바꿈시키는 ‘데이터 분석의 최적화된 6단계 파이프라인’을 뼈대부터 학습합니다. 분석의 80%를 차지하는 전처리(Cleaning)의 고충부터, 화려한 결과를 뽑아내는 모델링과 시각적 스토리텔링까지 전체 흐름을 완벽하게 조망합니다.
목차
이 장에서는 다음의 주제들을 학습합니다:
1.7.1 개요 및 도입
데이터를 모으기 전 반드시 가장 먼저 세워야 할 ‘명확한 문제 정의(가설)’의 중요성과 기획 단계의 철학을 짚어봅니다.
1.7.2 전처리: 데이터 분석가의 80% 시간
수집된 쓰레기 데이터(결측치/이상치)를 닦아내고 정제하는 고난의 전처리 과정과, 데이터의 특징을 훑어보는 탐색적 데이터 분석(EDA)을 이해합니다.
1.7.3 5단계: 결과 시각화 및 리포팅 (Delivery)
복잡한 알고리즘 결과를 누구나 이해하기 쉬운 차트로 그려내고(시각화), 사람의 마음을 움직여 실제 비즈니스 행동(Action)을 이끌어 내는 스토리텔링의 힘을 배웁니다.
정리
데이터 분석은 단 한 번의 마법 같은 코딩으로 끝나는 것이 아닙니다. 기획부터 시작해 쓰레기를 치우는 전처리, 기계를 부리는 머신러닝 모델링, 그리고 경영진을 설득하는 최종 시각화와 스토리텔링까지 하나로 매끄럽게 물고 물리는 거대한 6단계의 파이프라인입니다.
이 거시적인 톱니바퀴의 흐름을 먼저 머릿속에 장착해야만, 앞으로 실습하게 될 수많은 파이썬 문법들이 각 단계에서 무슨 역할을 하는지 길을 잃지 않고 정확하게 찾아갈 수 있습니다.
서브목차