6.1.1 pandas 개요
6.1.1 판다스 소개
① 판다스 개요
판다스(pandas)는 표 형식의 데이터나 다양한 테이블 데이터를 처리하기 위한 파이썬 라이브러리 패키지이다. 2010년부터, 약 800여명의 기여자가 활동해 개발하고 있다. 판다스의 주 자료 구조는 시리즈(Series)와 데이터프레임(DataFrame)이다. 판다스는 NumPy 라이브러리를 기반으로 구축되었으며 Python, Cython 및 C와 같은 언어로 개발되었다.
[비유로 이해하기: 판다스 vs 데이터베이스]
- 데이터베이스 (RDBMS): 회사 데이터가 영구 보관되는 거대한 도서관 서고입니다. (안정성 중시)
- 판다스 (Pandas): 서고에서 필요한 책만 꺼내서 이리저리 펼쳐놓고 분석하는 내 책상 위(RAM 메모리)입니다. (분석/가공 특화, 메모리가 버티는 한 초고속 연산 처리)
Pandas에서 사용되는 대표적인 데이터 오브젝트
| 시리즈 (Series) | 데이터프레임 (DataFrame) |
|---|---|
| 1차원 배열의 형태를 갖는다. 인덱스(노란색)라는 한 가지 기준에 의하여 데이터가 저장된다. | 2차원 배열의 형태를 갖는다. 인덱스(노란색)와 컬럼(파란색)이라는 두 가지 기준에 의하여 표 형태처럼 데이터가 저장된다. |

활용하면 일반적으로 엑셀에서 하는 것과 비슷한 작업을 더 큰 규모에서, 효율적으로 할 수 있다. 현재 판다스는 파이썬 데이터 분석에서 표준적인 도구로 쓰이고 있다.

판다스는 중국의 팬더 곰과는 전혀 상관이 없고, panel data analysis에서 나온 말이다. 판다스의 홈페이지는 pandas.pydata.org로 다음의 다양한 자료와 함께 API 레퍼런스를 제공한다.
- User guide
- API reference
- Contributing to pandas
- Release notes
파이썬의 현재 버전은 2.1.4이다.

② 10 minutes to pandas
특히, User Guide의 ‘10 minutes to pandas’를 살펴보면 150여 개의 판다스 코드로 판다스를 이해할 수 있도록 구성해 놓았다. 학습에 활용하면 매우 유용하다.

서브목차