학습 목표
- Tableau 활용해 다양한 그래프 시각화
- 이론 & 실습
데이터 시각화
- 데이터를 그래프 형식으로 나타내어 직관적으로 이해하기 쉽게 만듦
- 데이터의 추세, 분포, 상관 관계 등을 시각적으로 표현
차트 고르는 방법
- 비교, 관계, 분포, 구성 & 데이터의 형태에 따라 구분
Tableau 차트 소개
- 표현 방식: Tableau 오른쪽 화면의 표현 방식 기능은 데이터에 적합한 대표적으로 24개의 그래프를 활용
- 종류: 텍스트 테이블, 히트맵, 맵 차트, 파이 차트, 막대 차트, 트리맵, 라인 차트, 영역 차트, 분산형 차트, 박스 플랏
데이터 시각화의 장점
- 데이터를 빠르게 이해하고 의사결정 가능
- 협업할 때, 효과적인 커뮤니케이션 가능
- 직관적인 데이터의 이해를 통해 인사이트 도출 가능
실습 데이터 소개
- listings
- Id: 고유 아이디
- Host Id: 호스트 아이디
- Host Name: 호스트 이름
- Host is Superhost: 슈퍼 호스트 여부
- Host Since: 호스트 시작 날짜
- Neighbourhood: 보스턴 동네 구역
- Price: 숙소 가격
- Property Type: 숙박 시설 유형
- Room Type: 방 유형
- Review Scores Rating: 숙소 리뷰 평점
기본 그래프
선 그래프(Line Plot)
- 간단하고 사용하기 쉬움
- 시계열 데이터를 시각화할 경우, 변화량과 트렌드 한눈에 보기 용이
- 연속적인 데이터에 사용하기 적합
- 실습: 에어비앤비 호스트 수 추이(2008~2016년의 연도별 호스트 수 증가 추이 시각화
- 열: Host Since
- 행: Host Id (카운트(고유))
- 마크 레이블: 표시
- 색상: 그래프의 색 자유롭게 변경
- 경로: 라인 패턴 유형을 2번째 선(--)
막대 그래프(Bar Plot)
- 간단하고 사용하기 쉬움
- 범주 간의 차이나 분포를 시각적으로 이해하기 쉬움
- 범주형 데이터에 사용하기 적합함
- 실습: 동네별 숙소 평균 가격
- 색상: 그래프의 색상과 테두리 색상 자유롭게 변경
- 측정값: 평균(Price)
- 정렬: 필드 평균(Price) 내림차순 기준 정렬
- 화면 맞춤: 높이 맞추기
맵 차트(Map Chart)
- 지도를 활용해 지리적 위치를 살펴볼 수 있음
- 각 지역별 데이터의 분포 및 비중을 한눈에 확인할때 주로 사용
- 기능
- 뷰 툴바: 지도를 확대/축소 가능
- 백그라운드 레이어: 투명도 설정, 해안선, 건물 표시 등 지도 배경에 대한 다양한 기능
- 실습: zipcode별 숙소 리뷰 평균 평점 분포(보스턴 지역에서 어느 구역이 숙소 리뷰 평균 평점이 가장 높은지)
- 세부정보: Zipcode
- 색상: 평균(Review Scores), 색상은 자유롭게 변경
- 레이블: Neighbourhood Cleansed ➡️ 폰트 볼드 처리, 폰트 크기(10pt), 평균 ➡️ Review Scores
- 백그라운드 레이어: 투명도 100%
- 도구 설명 표시: 마우스 오버
파이 차트(Pie Chart)
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해 가능
- 데이터의 구성 비율과 분포를 한눈에 파악 가능
- 다양한 변수를 다루기에는 적합하지 않을 수 있으며 변수가 적을 때 직관적으로 사용하기 용이
- 실습: 룸 타입별 비중
- 색상: Room Type 색상표에서 연한 번개 선택
- 각도: 카운트(고유)(Id)의 큌테이블 구성 비율
- 측정값: 카운트(고유)(Id)
- 레이블: Room, Type, 측정값 순서대로 표시
- Room Type ➡️ 폰트 볼드 처리, 폰트 크기(12pt), 사용자 지정 색상(#4B89DC)
- 측정값 ➡️ 폰트 볼드 처리, 폰트 크기(10pt)
- 화면 맞춤: 전체 보기
트리맵 차트(Treemap Chart)
- 데이터를 계층적으로 표현하는데 사용
- 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악 가능
- 실습: 가장 많이 리스트된 호스트 이름(숙소 가격 합계가 큰 순서대로 색상 표시)
- 열: 합계(Host Listings Count)
- 행: Host Name
- 레이블: Host Name, 평균(Price)
- 색상: 합계(Price), 색상 파란색-녹색 단일
심화 그래프
도넛 차트(Donut Chart)
- 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해 가능
- 태블로에서는 대시보드의 KPI 카드로 많이 활용
히트맵 차트(Heatmap Chart)
- 색상을 활용해 데이터 값을 시각적으로 강조
- 색상의 그라데이션을 통해 측정값들을 한눈에 비교 가능
- 하이라이트 테이블이라고도 함
영역 차트(Area Chart)
- 선 아래 영역을 채워 데이터의 영역 크기를 파악 가능
- 시간에 따라 데이터의 추이를 시각적으로 나타내므로 데이터의 변화 및 흐름을 쉽게 파악 가능
스택 플락(Stacked Plot)
- 상대적인 비율을 직관적으로 시각화 가능
- 시간에 따라 데이터가 어떻게 변하는지 시각적으로 확인 가능
- 단순 누적 그래프: 기준선이 일정하지 않기 때문에 비교하기가 어려움
- 100% 누적 그래프: 기준을 비교하기 쉬움
- 실습: 일반호스트와 슈퍼 호스트의 응답 시간별 비중 비교(Host Response Time별(1시간내 응답, 몇시간내 응답 등) 슈퍼 호스트와 일반 호스트 수를 단순 누적 그래프로 시각화
- 색상: 슈퍼 호스트와 일반 호스트 수의 색상을 다르게 표현, 색상표에서 여름을 선택
- 레이블: 마이크 레이블 표시
- 축: 행 머리글 숨기기
- 범례: 표시
- 화면 맞춤: 너비 맞추기
시각화 심화
이중 축(콤보 차트)
- 하나의 차원을 두 개 이상의 측정값으로 동시에 파악하고 싶은 경우 활용
- 이중 축 차트 사용하면 두 가지 서로 다른 데이터 집합을 한번에 비교 가능
- 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼때 한눈에 알아보기 어려움
평균선/참조선
- 분석 패널에서 평균선라인 / 상수라인 / 참조선을 추가해 의사결정을 빠르게 가능
데이터 분석
박스 플랏(Box Plot)
- 데이터의 분포와 이상치를 시각적으로 파악할때 사용
- 실습: 숙박 시설 유형별 가격 분포(property type에는 House, Guesthouse, Villa 등이 존재할 때 타입별 가격 분포를 시각화)
- 색상: 자유롭게 변경
- 마크: 모양으로 변경
- 축 편집: y축의 눈금성을 고정으로 변경
- 화면 맞춤: 전체 보기
파레토 차트(Pareto Chart)
- 파레토 법칙: 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
- 다수의 결과는 소수의 원인에 의해 생겨난다
- ex) 매출의 80%가 고객의 상위 20%에 의해 발생한다고 의사 결정을 효율적으로 할 수 있음
상관 관계(Scatter Plot)
- 지표간 어떤 선형적인 관계가 있는지 알아보기 위해 활용
시계열 예측
- 태블로에서는 지수 평활법(exponential smoothing)을 활용해 예측 모델링을 수행
- 과거 데이터에 기반해 미래를 예측하는 시계열 예측
- 실습: 일별 에어비엔비 매출 예측
- 표현 방식: 라인 그래프
- 예측: 예측 표시
- 색상: 색상표에서 천사의 돌
- 레이블: 선 끝 레이블 지정
- 범례: 숨기기
- 워크시트 서식: 채우기 색상을 자유롭게 변경
'EDA & 데이터 분석 > BI' 카테고리의 다른 글
실습으로 배우는 태블로 실습문제 (0) | 2025.02.19 |
---|---|
실습으로 배우는 태블로 4주차 - 3 (대시보드 만들기) (0) | 2025.02.18 |
실습으로 배우는 태블로 4주차 - 2 (대시보드 설계와 구성) (0) | 2025.02.18 |
실습으로 배우는 태블로 4주차 - 1 (계산식 활용하기) (0) | 2025.02.17 |
실습으로 배우는 태블로 2주차(Tableau 설명, 실습) (0) | 2025.02.12 |