EDA & 데이터 분석/데이터분석
데이터 전처리 & 시각화 2주차
edcrfv458
2024. 12. 31. 14:45
데이터 전처리
- 내가 원하는 데이터를 보기 위해 하는 모든 활동
데이터 형태
- 정형 데이터
- 엑셀 시트, 표와 같이 행과 열이 명확한 데이터
- 비정형 데이터
- 이미지, 비디오 등 정형화 되지 않은 데이터
데이터 전처리는 왜?
- 방대한 양의 데이터에 불규칙한 규칙이 존재
데이터 전처리는 어떻게?
- 일정한 규칙을 적용해 통일
- 따라서 데이터 전달의 목적성과 효과성이 중요
Pandas VS Excel
- 자동화와 프로그래밍 가능
- 대용량 데이터 처리
- 복잡한 데이터 처리 및 분석
- 확장성과 유연성
- 버전 관리
Pandas 구조
- 시리즈(Series)
- 1차원 배열의 형태를 갖는다
- 인덱스에는 한 가지 기준에 의해 데이터가 저장
- 데이터 프레임(DataFrame)
- 2차원 배열의 형태를 갖는다
- 인덱스와 컬럼이라는 두 가지 기준에 의해 데이터가 저장