6.1.1 pandas 개요

6.1.1 판다스 소개

① 판다스 개요

판다스(pandas)는 표 형식의 데이터나 다양한 테이블 데이터를 처리하기 위한 파이썬 라이브러리 패키지이다. 2010년부터, 약 800여명의 기여자가 활동해 개발하고 있다. 판다스의 주 자료 구조는 시리즈(Series)와 데이터프레임(DataFrame)이다. 판다스는 NumPy 라이브러리를 기반으로 구축되었으며 Python, Cython 및 C와 같은 언어로 개발되었다.

[비유로 이해하기: 판다스 vs 데이터베이스]

  • 데이터베이스 (RDBMS): 회사 데이터가 영구 보관되는 거대한 도서관 서고입니다. (안정성 중시)
  • 판다스 (Pandas): 서고에서 필요한 책만 꺼내서 이리저리 펼쳐놓고 분석하는 내 책상 위(RAM 메모리)입니다. (분석/가공 특화, 메모리가 버티는 한 초고속 연산 처리)

Pandas에서 사용되는 대표적인 데이터 오브젝트

시리즈 (Series) 데이터프레임 (DataFrame)
1차원 배열의 형태를 갖는다. 인덱스(노란색)라는 한 가지 기준에 의하여 데이터가 저장된다. 2차원 배열의 형태를 갖는다. 인덱스(노란색)와 컬럼(파란색)이라는 두 가지 기준에 의하여 표 형태처럼 데이터가 저장된다.

판다스의 주요 자료 구조

활용하면 일반적으로 엑셀에서 하는 것과 비슷한 작업을 더 큰 규모에서, 효율적으로 할 수 있다. 현재 판다스는 파이썬 데이터 분석에서 표준적인 도구로 쓰이고 있다.

엑셀 데이터 구조

판다스는 중국의 팬더 곰과는 전혀 상관이 없고, panel data analysis에서 나온 말이다. 판다스의 홈페이지는 pandas.pydata.org로 다음의 다양한 자료와 함께 API 레퍼런스를 제공한다.

  • User guide
  • API reference
  • Contributing to pandas
  • Release notes

파이썬의 현재 버전은 2.1.4이다.

판다스 홈페이지

② 10 minutes to pandas

특히, User Guide의 ‘10 minutes to pandas’를 살펴보면 150여 개의 판다스 코드로 판다스를 이해할 수 있도록 구성해 놓았다. 학습에 활용하면 매우 유용하다.

Ten minutes to pandas

서브목차