1.1.2 데이터의 형태와 필요성
학습목표
데이터는 어떤 형태를 하고 있을까?
데이터는 엑셀처럼 표로 예쁘게 정리된 것도 있지만, 유튜브 영상 댓글이나 카카오톡 대화방 텍스트처럼 형태가 없는 것들도 굉장히 많습니다.
이렇게 모양이 없는 비정형 데이터를 가공하는 것이 현대 데이터 분석의 가장 중요한 관건 중 하나입니다.

[!NOTE] 정형 데이터(Structured Data) vs 비정형 데이터(Unstructured Data)
- 정형 데이터: 엑셀의 행과 열이나 관계형 데이터베이스처럼 일정한 규칙과 구조(Schema)에 맞춰 정해진 칸에 저장된 데이터입니다. (예: 엑셀 주소록, 은행 계좌 거래 내역, 쇼핑몰 가입자 나이 등)
- 비정형 데이터: 정해진 형태나 구조 없이 자유롭게 생성된 데이터 덩어리입니다. (예: 인스타그램 사진, 유튜브 동영상, 카카오톡 텍스트 대화, 음성 녹음 등)
오늘날 전 세계에 존재하는 데이터의 80% 이상이 ‘비정형 데이터’로 추정되며, 이렇게 형태가 없는 문장이나 영상을 AI와 자연어 처리(NLP) 기술 등을 통해 컴퓨터가 분석할 수 있는 형태로 정제해 내는 것이 현대 데이터 과학의 핵심 과제입니다.
개발자만 데이터를 알아야 할까요?
보통 사람들은 “파이썬 코딩, 데이터 분석은 컴퓨터 공학과 전공자들이나 천재 해커들만 하는 거 아니야?”라고 생각하기 마련입니다.
하지만 이는 완전히 잘못된 편견입니다.
이제 데이터 분석은 전문직만의 전유물이 아니라 ‘모두를 위한 필수 교양’이 되었습니다.

문과생, 기획자에게 데이터가 필요한 이유
이제 개발 실력보다 더 중요한 것은 데이터를 읽고 해석하는 능력입니다.
새로운 핸드폰 요금제를 기획하는 기획자라고 생각해 봅시다.
고객들이 한 달에 유튜브를 얼마나 보는지, 밤 몇 시에 전화를 많이 하는지 모른 채 무작정 요금제를 만들 수 있을까요? 문과생 출신의 기획자일수록 데이터를 완벽하게 해석해 내는 능력이 가장 무서운 무기가 됩니다.

영업 및 마케터에게 데이터가 필요한 이유
마케터는 어떨까요?
인스타그램 페이스북 에 광고비 1,000만 원을 썼을 때, 어떤 연령대의 사람들이 광고를 많이 클릭했는지, 누가 실제로 지갑을 열고 물건을 샀는지 파악해야 다음 1,000만 원을 날리지 않습니다.
이를 ‘퍼포먼스 마케팅’이라고 부릅니다

인사(HR) 담당자와 데이터
심지어 회사 내 직원의 복지를 책임지는 인사(HR) 부서에서도 데이터는 필수로 쓰입니다.
“최근 야근 시간이 주 50시간을 넘긴 3년 차 대리들의 퇴사 확률이 85%다”라는 팩트를 데이터로 찾아내면, 사전에 직원 혜택을 늘려 우수한 인재가 나가는 것을 미리 막아낼 수 있습니다.