6.1.3 데이터프레임 개요
[비유로 이해하기: 엑셀 시트 그 자체] 데이터프레임(DataFrame)은 우리가 일상적으로 보는 컬럼(열)과 인덱스(행)가 있는 2차원 표(Table) 형태입니다. 사실상 여러 개의 시리즈(Series)들이 나란히 모여서 2차원의 표를 구성한 구조라고 생각하면 가장 이해하기 쉽습니다.
판다스의 데이터프레임은 2차원 데이터 구조로, 레이블이 지정된 축(rows and columns)이 있는 이종 테이블 형식 데이터 구조이다. 데이터프레임은 데이터, 행(인덱스), 열(컬럼 라벨)의 세 가지 구성 요소로 구성된다. 데이터프레임은 스프레드시트나 SQL 테이블 또는 Series 개체의 사전처럼 생각하면 쉽다.

데이터프레임은 행과 열에 이름을 붙일 수 있다. 따로 붙이지 않으면 RangeIndex라는 0으로 시작하는 정수 시퀀스(sequences)가 붙는다. 데이터프레임의 행과 열에 따로 붙이는 이름을 행과 열 레이블(label)이라 하며 각각 index와 columns에 저장한다. 행과 열의 레이블이 붙여져도 0부터 시작되는 정수 시퀀스는 사용이 가능하다.

데이터프레임의 주요 기능은 다음과 같다.
- DataFrame은 명명된 행 및 열을 지원한다(행에 인덱스를 제공할 수도 있음).
- 이기종 데이터 컬렉션을 지원한다.
- DataFrame 레이블이 지정된 축을 따라 정렬된다.
- 행과 열에 대해 산술 연산을 수행할 수 있다.
- CSV, Excel, JSON과 같은 플랫 파일 읽기를 지원하고 SQL 테이블도 읽는다.
- 누락된 데이터를 처리한다.
데이터프레임 학습은 다음을 주로 다룬다.
- 표 형태의 데이터를 다룰 수 있는 데이터프레임(DataFrame)
- 엑셀, CSV 등 다양한 형식 지원
- 결측값(missing value) 다루기
- 데이터 형태 바꾸기
- 행과 열 삭제, 추가
- 그룹화, 정렬, 결합
- 시계열 데이터
- 문자열 및 날짜/시간 지원
서브목차