EDA & 데이터 분석/데이터분석

엔진 센서 데이터 기반 결함 예측 및 품질관리 분석(1)

edcrfv458 2025. 2. 24. 15:49

엔진 센서 데이터 기반으로 정상(0)/불량(유형 1, 2, 3) 분류

 

변수

  • MAP: 흡기 매니폴드 절대압, 대략 0~5 kPa
  • TPS: 스로틀 개도율
  • Force: 엔진에서 측정된 힘, 대략 0~400 N
  • Power: 엔진에서 발휘되는 출력, 0~35 kW
  • RPM: 엔진 회전수, 대략 1000~4000 RPM
  • Consumption L/H: 시간단 연료 소묘율, 0~10 I/h
  • Consumption L/100km: 주행거리당 연료 소비랑
  • Speed: 차량 속도
  • CO: 배기가스 중 일산화탄소 비율
  • HC: 배기가스 중 탄화수소 농도
  • CO2: 배기가스 중 이산화탄소 비율
  • O2: 배기가스 중 산소 비율
  • Lambda: 공기-연료비 이론치에 대한 실제값의 비율
  • AFR: 실제 공기-연료비
  • Fault: 엔진 결함 상태

기본 정보 확인

통계 정보
결측치
중복값


결함 유형(1, 2, 3)과 정상 데이터 분류 예측(1)

 

결함 유형 1, 2, 3을 1로 만들고 정상 0과 각 변수 분포 확인

  • 확실히 정상/불량일 때 변수 간의 차이가 보임

 

XGBoost 모델

 

테스트 데이터 평가

 

 

학습 데이터 평가

 

변수 중요도

 

검정

데이터가 정규성 만족하지 못함

 

정규성 따르지 않으므로 mannwhitneyu 검정

 

  • 정상과 불량은 잘 분류해 냄
  • 그렇다면 불량의 유형도 잘 분류할까

결함 유형(1, 2, 3)과 정상 데이터 분류 예측(2)

 

결함의 갹 유형과 정상 데이터 분포 확인

  • 여러 변수에서 차이가 보이긴 하지만 4개가 겹쳐있어 확인이 어려움

hist plot

 

box plot

 

heat map

 

pair plot

 

  • RPM과 Speed, Lambda와 AFR의 상관 계수가 1이고, 다른 변수들 간의 상관 계수를 보았을 때 다중 공선성 문제가 발생할 가능성이 있는 것으로 보인다.

Random Forest 모델

 

테스트 데이터 평가

 

 

학습 데이터 평가

 

변수 중요도

 

XGBoost 모델

 

테스트 데이터 평가

 

 

학습 데이터 평가

 

변수 중요도

 

검정

데이터가 정규성 만족 못함

 

따라서 Kruskal 검정 이용

 

  • 랜덤 포레스트와 XGBoost 같은 트리 기반 모델은 변수 간의 독립성을 가정하지 않으며, 다중 공선성이 존재해도 트리가 분할할 변수를 자동으로 선택하기 때문에 영향이 적음
  • 하지만 비선형 모델에서도 다중 공선성이 문제가 될 수 있는 경우가 존재
    • 불필요한 변수가 많아져 과적합 발생 가능성
    • 모델 해석이 왜곡될 가능성
    • 학습 데이터 효율성 저하
  • 불량 2유형과 3유형을 잘 구별하지 못함

불량 2유형과 3유형을 확인

hist plot

 

heat map