EDA & 데이터 분석/BI

실습으로 배우는 태블로 3주차(데이터 시각화, 선그래프, 막대그래프, 맵차트, 파이차트, 트리맵차트)

edcrfv458 2025. 2. 14. 20:00

학습 목표

  • Tableau 활용해 다양한 그래프 시각화
  • 이론 & 실습

데이터 시각화

  • 데이터를 그래프 형식으로 나타내어 직관적으로 이해하기 쉽게 만듦
  • 데이터의 추세, 분포, 상관 관계 등을 시각적으로 표현

 

차트 고르는 방법

  • 비교, 관계, 분포, 구성 & 데이터의 형태에 따라 구분

 

Tableau 차트 소개

  • 표현 방식: Tableau 오른쪽 화면의 표현 방식 기능은 데이터에 적합한 대표적으로 24개의 그래프를 활용
  • 종류: 텍스트 테이블, 히트맵, 맵 차트, 파이 차트, 막대 차트, 트리맵, 라인 차트, 영역 차트, 분산형 차트, 박스 플랏

 

데이터 시각화의 장점

  • 데이터를 빠르게 이해하고 의사결정 가능
  • 협업할 때, 효과적인 커뮤니케이션 가능
  • 직관적인 데이터의 이해를 통해 인사이트 도출 가능

 

실습 데이터 소개

  • listings
    • Id: 고유 아이디
    • Host Id: 호스트 아이디
    • Host Name: 호스트 이름
    • Host is Superhost: 슈퍼 호스트 여부
    • Host Since: 호스트 시작 날짜
    • Neighbourhood: 보스턴 동네 구역
    • Price: 숙소 가격
    • Property Type: 숙박 시설 유형
    • Room Type: 방 유형
    • Review Scores Rating: 숙소 리뷰 평점

기본 그래프

 

선 그래프(Line Plot)

  • 간단하고 사용하기 쉬움
  • 시계열 데이터를 시각화할 경우, 변화량과 트렌드  한눈에 보기 용이
  • 연속적인 데이터에 사용하기 적합
  • 실습: 에어비앤비 호스트 수 추이(2008~2016년의 연도별 호스트 수 증가 추이 시각화
    • 열: Host Since
    • 행: Host Id (카운트(고유))
    • 마크 레이블: 표시
    • 색상: 그래프의 색 자유롭게 변경
    • 경로: 라인 패턴 유형을 2번째 선(--)

실습(색상, 레이블, 경로, 너비)

 

막대 그래프(Bar Plot)

  • 간단하고 사용하기 쉬움
  • 범주 간의 차이나 분포를 시각적으로 이해하기 쉬움
  • 범주형 데이터에 사용하기 적합함
  • 실습: 동네별 숙소 평균 가격
    • 색상: 그래프의 색상과 테두리 색상 자유롭게 변경
    • 측정값: 평균(Price)
    • 정렬: 필드 평균(Price) 내림차순 기준 정렬
    • 화면 맞춤: 높이 맞추기

실습(내림차순, 평균)

 

맵 차트(Map Chart)

  • 지도를 활용해 지리적 위치를 살펴볼 수 있음
  • 각 지역별 데이터의 분포 및 비중을 한눈에 확인할때 주로 사용
  • 기능
    • 뷰 툴바: 지도를 확대/축소 가능
    • 백그라운드 레이어: 투명도 설정, 해안선, 건물 표시 등 지도 배경에 대한 다양한 기능
  • 실습: zipcode별 숙소 리뷰 평균 평점 분포(보스턴 지역에서 어느 구역이 숙소 리뷰 평균 평점이 가장 높은지)
    • 세부정보: Zipcode
    • 색상: 평균(Review Scores), 색상은 자유롭게 변경
    • 레이블: Neighbourhood Cleansed ➡️ 폰트 볼드 처리, 폰트 크기(10pt), 평균 ➡️ Review Scores
    • 백그라운드 레이어: 투명도 100%
    • 도구 설명 표시: 마우스 오버

실습(백그라운드 레이어 투명도)

 

파이 차트(Pie Chart)

  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해 가능
  • 데이터의 구성 비율과 분포를 한눈에 파악 가능
  • 다양한 변수를 다루기에는 적합하지 않을 수 있으며 변수가 적을 때 직관적으로 사용하기 용이
  • 실습: 룸 타입별 비중
    • 색상: Room Type 색상표에서 연한 번개 선택
    • 각도: 카운트(고유)(Id)의 큌테이블 구성 비율
    • 측정값: 카운트(고유)(Id)
    • 레이블: Room, Type, 측정값 순서대로 표시
      • Room Type ➡️ 폰트 볼드 처리, 폰트 크기(12pt), 사용자 지정 색상(#4B89DC)
      • 측정값 ➡️ 폰트 볼드 처리, 폰트 크기(10pt)
    • 화면 맞춤: 전체 보기

실습(전체 보기)

 

트리맵 차트(Treemap Chart)

  • 데이터를 계층적으로 표현하는데 사용
  • 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악 가능
  • 실습: 가장 많이 리스트된 호스트 이름(숙소 가격 합계가 큰 순서대로 색상 표시)
    • 열: 합계(Host Listings Count)
    • 행: Host Name
    • 레이블: Host Name, 평균(Price)
    • 색상: 합계(Price), 색상 파란색-녹색 단일

실습(표현방식 ➡️ 트리맵차트)


심화 그래프

 

도넛 차트(Donut Chart)

  • 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우
  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해 가능
  • 태블로에서는 대시보드의 KPI 카드로 많이 활용

 

히트맵 차트(Heatmap Chart)

  • 색상을 활용해 데이터 값을 시각적으로 강조
  • 색상의 그라데이션을 통해 측정값들을 한눈에 비교 가능
  • 하이라이트 테이블이라고도 함

 

영역 차트(Area Chart)

  • 선 아래 영역을 채워 데이터의 영역 크기를 파악 가능
  • 시간에 따라 데이터의 추이를 시각적으로 나타내므로 데이터의 변화 및 흐름을 쉽게 파악 가능

 

스택 플락(Stacked Plot)

  • 상대적인 비율을 직관적으로 시각화 가능
  • 시간에 따라 데이터가 어떻게 변하는지 시각적으로 확인 가능
  • 단순 누적 그래프: 기준선이 일정하지 않기 때문에 비교하기가 어려움
  • 100% 누적 그래프: 기준을 비교하기 쉬움
  • 실습: 일반호스트와 슈퍼 호스트의 응답 시간별 비중 비교(Host Response Time별(1시간내 응답, 몇시간내 응답 등) 슈퍼 호스트와 일반 호스트 수를 단순 누적 그래프로 시각화
    • 색상: 슈퍼 호스트와 일반 호스트 수의 색상을 다르게 표현, 색상표에서 여름을 선택
    • 레이블: 마이크 레이블 표시
    • 축: 행 머리글 숨기기
    • 범례: 표시
    • 화면 맞춤: 너비 맞추기


시각화 심화

 

이중 축(콤보 차트)

  • 하나의 차원을 두 개 이상의 측정값으로 동시에 파악하고 싶은 경우 활용
  • 이중 축 차트 사용하면 두 가지 서로 다른 데이터 집합을 한번에 비교 가능
  • 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼때 한눈에 알아보기 어려움

 

평균선/참조선

  • 분석 패널에서 평균선라인 / 상수라인 / 참조선을 추가해 의사결정을 빠르게 가능

데이터 분석

 

박스 플랏(Box Plot)

  • 데이터의 분포와 이상치를 시각적으로 파악할때 사용
  • 실습: 숙박 시설 유형별 가격 분포(property type에는 House, Guesthouse, Villa 등이 존재할 때 타입별 가격 분포를 시각화)
    • 색상: 자유롭게 변경
    • 마크: 모양으로 변경
    • 축 편집: y축의 눈금성을 고정으로 변경
    • 화면 맞춤: 전체 보기

실습(행을 합계가 아닌 차원으로)

 

파레토 차트(Pareto Chart)

  • 파레토 법칙: 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
  • 다수의 결과는 소수의 원인에 의해 생겨난다
    • ex) 매출의 80%가 고객의 상위 20%에 의해 발생한다고 의사 결정을 효율적으로 할 수 있음

 

상관 관계(Scatter Plot)

  • 지표간 어떤 선형적인 관계가 있는지 알아보기 위해 활용

 

시계열 예측

  • 태블로에서는 지수 평활법(exponential smoothing)을 활용해 예측 모델링을 수행
  • 과거 데이터에 기반해 미래를 예측하는 시계열 예측
  • 실습: 일별 에어비엔비 매출 예측
    • 표현 방식: 라인 그래프
    • 예측: 예측 표시
    • 색상: 색상표에서 천사의 돌
    • 레이블: 선 끝 레이블 지정
    • 범례: 숨기기
    • 워크시트 서식: 채우기 색상을 자유롭게 변경

실습(우클릭 ➡️ 예측)