EDA & 데이터 분석/데이터분석

데이터 전처리 & 시각화 2주차

edcrfv458 2024. 12. 31. 14:45

데이터 전처리

  • 내가 원하는 데이터를 보기 위해 하는 모든 활동

 

데이터 형태

  • 정형 데이터
    • 엑셀 시트, 표와 같이 행과 열이 명확한 데이터
  • 비정형 데이터
    • 이미지, 비디오 등 정형화 되지 않은 데이터

 

데이터 전처리는 왜?

  • 방대한 양의 데이터에 불규칙한 규칙이 존재

 

데이터 전처리는 어떻게?

  • 일정한 규칙을 적용해 통일
  • 따라서 데이터 전달의 목적성과 효과성이 중요

 

Pandas VS Excel

  • 자동화와 프로그래밍 가능
  • 대용량 데이터 처리
  • 복잡한 데이터 처리 및 분석
  • 확장성과 유연성
  • 버전 관리

 

Pandas 구조

  • 시리즈(Series)
    • 1차원 배열의 형태를 갖는다
    • 인덱스에는 한 가지 기준에 의해 데이터가 저장
  • 데이터 프레임(DataFrame)
    • 2차원 배열의 형태를 갖는다
    • 인덱스와 컬럼이라는 두 가지 기준에 의해 데이터가 저장