데이터 전처리 & 시각화 3주차(데이터프레임 다루기)

EDA & 데이터 분석/데이터분석

데이터 전처리 & 시각화 3주차(데이터프레임 다루기)

edcrfv458 2025. 1. 2. 14:26

Pandas

데이터 저장, 호출

seaborn 라이브러리에 존재하는 데이터 불러와 csv파일로 저장
index 파라미터는 데이터의 인덱스 저장 여부를 결정

또는 데이터 호출 시 인덱스 부분을 제거하고 가져오는 방식도 있음

엑셀 파일의 경우는 pd.to_excel 사용

인덱스 미지정

인덱스 지정

인덱스 정렬 함수: sort_index()

컬럼을 인덱스로 사용: set_index()

인덱스의 정보와 타입을 확인: index
인덱스 변경: index

인덱스를 기존 값으로 설정: rest_index()
기존 인덱스 열 누락 여부 결정위한 drop 파라미터

컬럼

데이터 프레임 생성

컬럼 호출(시리즈 형태)

컬럼명 정보: columns

컬럼명 변경

특정 컬럼명만 변경: rename

컬럼 추가

컬럼 제거: del

데이터 확인

df.head() ➡️ 데이터의 첫 행부터 몇 개만 가져옴

df.tail() ➡️ 데이터의 마지막 행부터 몇 개만 가져옴

df.info() ➡️ 데이터에 대한 정보(컬럼명, 결측치의 수, 데이터 타입)를 알 수 있음

df.describe() ➡️ count, mean, std, min, max, 4분위 값을 알 수 이음

구체적인 널값을 확인: df.isna()

컬럼을 지정해서 확인

데이터 타입

df.info() 방법도 있지만 df.dtypes도 가능하다
- 한 개의 컬럼만 보기 위해서는 df['tip'].dtype 사용

데이터 타입을 변경

데이터 선택

.iloc ➡️ 컬럼에 대한 번호로 호출

.loc ➡️ 인덱스와 컬럼명으로 슬라이싱

loc를 사용하기 위해서는 인덱스가 있어야 함

데이터 슬라이싱

순서 변경도 가능

불리언 인덱싱

값에 해당하는 데이터만 가져옴 ➡️ isin()

변수에 담아 사용 가능

데이터 추가하기

object 타입의 날짜 데이터를 datetime 타입으로 변경

실수 타입 두 개의 컬럼을 합쳐 새로운 컬럼 생성

데이터 병합

두 데이터 프레임을 합치는 것 ➡️ concat

데이터가 없는 경우에는 null 값으로 채워짐

위 아래로 병합

옆으로 병합

특정 컬럼을 고려해 결합 ➡️ merge

on은 어떤 컬럼을 기준으로 할지 결정

병합하는 방식이 여러가지가 있음 how='inner'가 기본값
- 겹치는 값들을 가져옴

how='outer'
- 다 가져옴

how='left'
- 왼쪽이 기준

how='right'
- 오른쪽이 기준

데이터 집계

groupby ➡️ 특정 기준에 따라 그룹 나누고 이를 기반으로 집계, 변환, 필터링 등 가능

실습

agg 이용해 각 원하는 것을 지정

Pivot table

값이 없으면 null로 출력

정렬

팁 변수를 기준으로 정렬
- 기본 값은 오름차순
- 내림차순으로 정렬하려면 ascending=False 추가

total_bill 기준으로 오름차순 정렬 후 tip 기준으로 내림차순 정렬

인덱스도 내림차순 정렬이 가능

'EDA & 데이터 분석 > 데이터분석' 카테고리의 다른 글

엔진 센서 데이터 기반 결함 예측 및 품질관리 분석(1) (0)	2025.02.24
데이터 전처리 & 시각화 4주차(시각화) (0)	2025.01.03
데이터 전처리 & 시각화 2주차 (0)	2024.12.31
데이터 전처리 & 시각화 1주차 (0)	2024.12.31
데이터 리터러시 (4)	2024.12.30

현재글데이터 전처리 & 시각화 3주차(데이터프레임 다루기)

edcrfv458 님의 블로그

edcrfv458 님의 블로그 입니다.

데이터사이언티스트, 데이터전처리, 데이터베이스, 코호트, 데이터시각화, 프로그래머스, 커리어스터디, 머신러닝, 아티클스터디, SQL, 파이썬, qaqc, 직무스터디, 데이터분석가, 통계, 문자데이터가공, 유의성검정, 데이터분석, 스마트팩토리, 데이터리터러시,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

edcrfv458 님의 블로그