PyData 실전 데이터 분석 커리큘럼
Pandas와 Seaborn을 활용하여 30개의 인기 있는 데이터 셋을 직접 분석하고 시각화하는 실무 중심의 실습 공간입니다. 데이터 사이언스 역량은 코드(Pandas), 시각화(Seaborn), 그리고 통계적 직관(Statistics)이라는 3가지 축이 맞물려야 완성됩니다. 아래의 커리큘럼 맵을 통해 단계별 학습 목표를 확인하세요.
🗺️ 파이데이터 30개 모듈 커리큘럼 맵
| 모듈 번호 & 데이터 셋 | 데이터 분석 테마 | Pandas / 분석 스킬 | 시각화 (Seaborn) | 핵심 통계 개념 (수학적 직관) |
|---|---|---|---|---|
| 00. intro | 오리엔테이션 | PyData 생태계 개요 | 데이터 시각화의 목적 | 통계 분석 워크플로우 기초 |
| 01. titanic | 생존자 예측 | 결측치 처리 (fillna) |
barplot, countplot |
확률과 생존율 (Probability) |
| 02. iris | 품종 분류 | 기술통계 (describe) |
pairplot, scatterplot |
다차원 데이터와 클래스 분류 |
| 03. tips | 팁 분석 | 그룹화 (groupby) |
lmplot, boxplot |
선형 회귀 (Linear Regression) |
| 04. penguins | 생물학적 특징 | 결측치 제거 (dropna) |
histplot, kdeplot |
정규 분포와 확률 밀도 |
| 05. flights | 시계열 기초 | 피벗 테이블 (pivot) |
lineplot, heatmap |
시계열 데이터의 계절성(Seasonality) |
| 06. diamonds | 가격 예측 | 범주형 데이터 변환 | violinplot, boxenplot |
데이터 분포와 중앙값(Median) |
| 07. mpg | 연비 분석 | 불리언 인덱싱 | regplot, jointplot |
다중 회귀 분석 기초 |
| 08. anscombe | 통계의 함정 | 통계 함수 (mean, var) |
서브플롯 (FacetGrid) |
평균, 분산, 표준편차의 직관 |
| 09~11. 기타 | 우주/뇌과학/택시 | 데이터 병합 (merge) |
다차원 시각화 | 샘플링과 모집단 |
| 12. geyser | 지구과학 분석 | 밀도 추정 | kdeplot 2D |
바이모달(이항) 분포 |
| 13. car_crashes | 사고 요인 분석 | 상관 행렬 (corr) |
heatmap |
피어슨 상관계수 (Correlation) |
| 14~20. 기타 | 금융/환경/시계열 | 이동 평균 (rolling) |
시계열 트렌드 뷰 | 시계열의 노이즈와 트렌드 |
| 21. wine | 품질 예측 | 외부 파일 로드 (read_csv) |
다중 boxplot |
타겟 변수와의 상관관계 |
| 22. bike | 수요 예측 | 시계열 추출 (dt.month) |
pointplot |
독립변수와 종속변수 |
| 23. housing | 집값 지리 분석 | 필터링 (loc) |
지리적 산점도 (hue, size) |
IQR과 이상치(Outlier) 울타리 |
| 24. cancer | 유방암 진단 | 데이터 정규화 (scale) |
violinplot 밀도 |
Z-Score 표준화와 분별력 |
| 25. student | 성적 예측 | 데이터 누수(Leakage) 인지 | 오버레이 플롯 | 요인별 가중치와 랭킹 |
| 26. heart | 심장 질환 | 비닝/범주화 (pd.cut) |
클래스 불균형 비교 | 다중 변수의 상호작용 |
| 27. adult | 소득 예측 | 위장 결측치(?) 필터링 |
교차 분석 (hue) |
정규 분포와 왜도(Skewness) |
| 28. marketing | 영업 전환율 | 비율 계산 (value_counts) |
stripplot, pie |
극단적 불균형(Imbalance) 통계 |
| 29. ecommerce | 매출 트렌드 | 피처 엔지니어링 (파생 변수) | pivot_table, heatmap |
코호트 분석 기초 |
| 30. superstore | 마트 KPI | 부서별 요약 통계 | scatterplot, barplot |
손익분기점과 미끼상품(Loss Leader) |
🎯 학습 가이드 (어떻게 공부해야 하나요?)
- 초급자: 1번
titanic부터 10번 모듈까지 순서대로 진행하며 Pandas 코딩과 Seaborn 그래프 그리기에 익숙해집니다. - 중급자: 21번
wine부터 시작하는 Phase 3 (실전 CSV) 파트를 집중적으로 공략하여, 실제 기업에서 다루는 실무 분석 워크플로우를 체화합니다. - 통계 집중: 표의 맨 우측 열인 ‘핵심 통계 개념’이 굵은 글씨로 표시된 모듈(
tips,anscombe,car_crashes,housing,cancer,adult)을 중점적으로 학습하세요. 수포자를 위한 친절한 비유와 수식이 포함되어 있습니다.
서브목차