5.0.1 패키지 판다스와 시각화 라이브러리 설치

패키지 판다스 개요와 설치

파이썬에서 패키지(package)는 관련 여러 모듈(module)들의 모임을 말한다. 보통 디렉토리 구조로 이루어져 있으며, 하위 디렉토리에는 모듈들이 위치한다. 패키지 판다스(pandas)는 파이썬에서 테이블 형태의 데이터를 조작하고 분석하기 위한 강력한 라이브러리이다. 특히, 판다스는 데이터프레임(DataFrame)과 시리즈(Series)라는 두 가지 핵심 데이터 구조를 제공한다. 시리즈는 1차원 배열과 유사하며 데이터프레임은 2차원 테이블 형태의 자료구조이다.

만일 배포판인 아나콘다(Anaconda)를 사용한다면 판다스는 이미 설치되어 있다. 그러나 표준 파이썬을 사용한다면 패키지 판다스를 다음 pip로 설치해야 한다. 먼저 표준 파이썬이 설치되어 있는 폴더 하부 Scripts에서 명령 프롬프트를 하나 실행한다.

  • C:\Users\PC\AppData\Local\Programs\Python\Python312\Scripts

명령 프롬프트에서 먼저 명령 pip show pandas로 판다스 설치 유무를 확인하자.

pip show pandas

명령 프롬프트 pip show pandas

이제 다음 명령 pip install pandas로 판다스를 설치한다.

pip install pandas

명령 프롬프트 pip install pandas

패키지 numpy 개요

넘파이라 부르는 numpy는 파이썬에서 수치 계산을 빠르게 수행하는 고성능 배열과 행렬 연산을 위한 과학용 컴퓨팅 라이브러리(library)이다. 판다스를 설치하면 넘파이는 함께 설치된다. 명령 프롬프트에서 먼저 명령 pip show numpy로 넘파이 설치 유무를 확인하자.

pip show numpy

다음은 numpy의 주요 특징과 기능에 대한 간략한 설명이다.

  • 다차원 배열(multidimensional arrays): numpy의 핵심 기능은 다차원 배열 또는 ndarray이다. 이 배열은 동일한 데이터 타입의 요소들로 이루어진 다차원 배열이며, 벡터 및 행렬 연산과 관련된 다양한 함수를 제공한다.
  • 브로드캐스팅(Broadcasting): numpy는 서로 다른 모양이면서 확장이 가능한 배열 간에도 연산이 가능하게 한다. 이는 배열 간의 크기나 차원이 다를 때, 자동으로 배열을 확장하여 연산이 가능하도록 한다.
  • 유니버설 함수(Universal Functions): numpy는 유니버설 함수를 제공하여 배열의 각 요소에 대한 연산을 효율적으로 수행할 수 있다. 이러한 함수는 간단한 산술 연산부터 삼각 함수, 통계 함수까지 다양하다.
  • 선형 대수(Linear Algebra): numpy는 선형 대수 연산을 지원한다. 행렬 곱셈, 행렬 분해, 역행렬 등 다양한 선형 대수 연산이 가능하다.
  • 난수 생성(Random): 난수 생성을 위한 다양한 함수들이 포함되어 있다. 이는 시뮬레이션 및 테스트용으로 유용하다.
  • 인덱싱과 슬라이싱: numpy 배열은 효과적인 인덱싱과 슬라이싱을 지원하며, 데이터의 부분집합에 쉽게 접근할 수 있다.
  • C, C++, 포트란 코드 통합: numpy는 C, C++, 포트란과의 통합이 용이하며, 기존의 고성능 코드를 쉽게 통합하여 사용할 수 있다.
서브목차