2025/03 19

실무에 쓰는 머신러닝 기초 1주차 (비지도 학습 & 클러스터링)

목표비지도 학습 개념군집 분석의 기본 원리와 활용 알고리즘군집 분석 평가 방법 1. 비지도 학습 개요정답 값 없이 데이터에서 패턴이나 구조를 찾는 머신러닝 기법 활용 영역데이터의 군집화(Clustering)차원 축소(Dimensionality Reduction)이상치 탐지(Anomlay Detection) 지도 학습과의 비교비지도 학습에서는 라벨 대신 데이터 자체의 유사성과 패턴에 집중 2. 군집 분석의 개념비슷한 특성을 가진 데이터들을 묶어 각 그룹 내 데이터들끼리의 유사도를 최대화하고, 다른 그룹과의 차이는 최대화하는 기법 목적데이터의 구조 파악: 정답 없이 데이터의 자연스러운 분포를 확인세분화(Segmentation): 마케팅에서는 고객 세분화를, 제조업에서는 센서 데이터로 기계 작동 패턴 분류 등..

AI/머신러닝 2025.03.19

센서 데이터와 이상 탐지 2일차 (이상치 탐지 유형, 감지 시스템, 이상치 모델)

1. 이상치 탐지 유형센서 데이터에 많이 활용통계로 이상치 잡는 것은 정규분포인 경우에만 사용 Point Anomalies (포인트 이상치)단일 센서 값 또는 측정 값이 다른 정상 데이터와 비교했을 때 급격히 벗어난 경우예시온도 센서가 갑자기 비정상적으로 높은 값을 기록(정상 범위가 20~50 인데 100이 기록)특정 부품의 길이, 무게, 두께 등의 측정값이 허용 공차를 초과로봇 공정에서 하나의 동작 시간이 갑자기 너무 길거나 짧음 Contextual Anomalies (문맥적 이상치)값 자체는 정상 범위에 있지만 특정 조건이나 문맥에서 비정상적인 경우즉, 데이터의 맥락을 고려했을 때 이상이 생긴 것예시온도 센서 데이터: 일반적으로 밤에는 온도가 낮아야 하는데 특정 공장에서 높은 온도 기록진동 데이터: ..

AI/머신러닝 2025.03.18

이미지 데이터와 불량 검출 2일차 (이미지 분류, 전이 학습, 데이터 증강)

목표전이학습 (VGG16)image classification Image Classification이미지에 뭐가 있는지 맞추는 것Segmantic Segmentation: 픽셀 단위로 객체 분류Classfication + Localization: 물체의 위치도 맞춤 Object Detection: 객체 탐지Instance Segmentation: 같은 클래스여도 다른 객체로 분류 전이 학습이미 학습된 모델의 지식을 새로운 문제에 적용해 성능 향상시키는 기법 기본 개념대규모 데이터로 사전 학습된 모델(ex. ImageNet)의 가중치를 그대로 가져와 새로운 문제에 적용사전 학습된 모델의 지식을 새로운 문제에 전이시켜 초기 학습 시간을 단축하고, 더 좋은 성능 이끌어냄 장점처음부터 모든 데이터 학습하는 것보..

AI/딥러닝 2025.03.18

실무에 쓰는 머신러닝 기초 1주차 (앙상블)

목표앙상블 기법(배깅, 부스팅)의 원리와 장단점 이해과적합과 과소적합을 구별하고 해결 방안 학습하이퍼 파라미터 튜닝을 통한 모델 최적화 방법 습득 1. 앙상블 기법여러 개의 모델을 조합해 더 좋은 예측 성능을 내는 방법 사용 이유서로 다른 관점(모델)을 결합함으로써 오류를 줄일 수 있음개별 모델의 편향(bias)과 분산(variance)을 상호 보완 배깅(Bagging, Bootstrap Aggregating)원리학습 데이터를 무작위로 여러 부분 샘플(부트스트랩)로 나누어 각각 독립적으로 모델 학습예측 시에는 여러 모델의 결과를 평균(회귀) 혹은 다수결(분류)로 결정예시랜덤 포레스트 - 분류, 회귀 모두 가능결정 트리 여러 개 만들 때 각 트리에 사용하는 피처와 데이터 샘플을 무작위로 선택 (피처 샘플링..

AI/머신러닝 2025.03.17

실무에 쓰는 머신러닝 기초 1주차 (분류)

목표분류 모델의 개념다양한 산업 분야 적용 사례분류 모델 평가 지표 1. 분류 모델 개요 지도학습입력 데이터와 정답이 주어졌을 때 모델이 정답을 예측하도록 학습하는 방식범주를 예측하는 것 분류데이터가 어느 범주(클래스)에 속하는지 예측분로 모델 해결 위한 알고리즘: Logistic Regression, SVM 사용 이유이진 분류(양성/음성, 합격/불합격, 정상/불량 등)는 직관적이고 다양한 산업에서 활용데이터 분석에서 가장 먼저 접하는 모델 중 하나 2. 주요 분류 모델 로지스틱 회귀(Logistic Regression)선형회귀처럼 입력값의 선형 결합을 취하지만, 결과를 0~1 사이의 확률로 변환하기 위해 로지스틱 함수(시그모이드 함수) 사용장점계산이 빠르고 구현이 간단결과 해석이 용이회귀 계수로 각 변..

AI/머신러닝 2025.03.14

실무에 쓰는 머신러닝 기초 1주차 (회귀)

목표휘귀분석 개념규제(Regularization) 기법회귀 모델 평가 지표 1. 회귀 분석 개요 회귀 분석종속 변수(Y)와 하나 이상의 독립 변수(X) 간의 관계를 추정하여, 연속형 종속 변수를 예측하는 통계/머신러닝 기법공부한 시간(X)에 따라 시험 점수(y)가 어떻게 변하는 가를 예측지도 학습에서 분류와 회귀 차이분류: 결과값이 이산형(클래스 라벨)회귀: 결과값이 연속형(숫자 값)사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념 사용 이유미래 값 예측: 판매가, 주가, 온도 등 실수값 예측에 사용인과 관계 해석(통계 관점): 특정 독립변수가 종속변수에 미치는 영향력을 해석하기 위해데이터 기반 의사결정: 추세(trend) 파악, 자원 배분 등 대표적 활용 사례경제: 주식 가격 예측, 판매량..

AI/머신러닝 2025.03.13

이미지 데이터와 불량 검출 1일차

머신러닝 vs 딥러닝인공지능 > 머신러닝 > 딥러닝 > 생성형 AI머신러닝: 주어진 데이터를 인간이 처리, 사람이 먼저 컴퓨터에 특정 패턴 추출하는 방법 지시하고, 그 이후 컴퓨터가 스스로 데이터의 특징 분석하고 축적딥러닝: 컴퓨터가 스스로 데이터를 기반으로 학습할 수 있도록 정해진 신경망을 컴퓨터에게 주고, 경험 중심으로 학습을 수행생성형 AI: 이용자의 특정 요구에 따라 결과를 생성해 내는 인공지능 (LLM, GAN, VAE 등) 퍼셉트론뉴런 작동 방식에서 착안한 가장 기초적인 형태의 인공 신경망 모델구성요소: 인풋, 가중치, 편향, 합, 활성화함수MLP(multi layer Perceptron)신경망 구성 요소활성화 함수: 기울기 소실 문제 해결뉴런의 출력값 결정하고 다음 층으로 전달할 값 지정신경..

AI/딥러닝 2025.03.13

실무에 쓰는 머신러닝 기초 1주차 (전처리)

목표데이터 전처리의 필요성과 핵심 방법불균형 데이터 문제 해결범주형 데이터 인코딩 기법피처 엔지니어링 기법실습 1. 데이터 전처리원시(raw) 데이터에서 불필요하거나 손실(noise)이 있는 부분을 처리하고 분석 목적에 맞는 형태로 만드는 과정 필요성모델 정확도 및 신뢰도 향상이상치나 결측치가 많은 상태로 학습하면 예측 성능이 떨어짐효율적인 데이터 분석과 모델 훈련을 위해 필수 제조업 사례센서가 간헐적으로 측정에 실패(결측값)센서 오작동으로 인해 극단적으로 큰 값이 기록(이상치)정상 제품과 불량 제품의 데이터 분포가 매우 다름(불균형) 금융 사례증권사나 은행에서 고객 정보가 유실되거나 특정 시점의 주가나 거래량 데이터가 취합되지 않은 경우(결측값)특정 종목에 대해 드물게 발생하는 급등라그 단일 대량 거래..

AI/머신러닝 2025.03.12

실무에 쓰는 머신러닝 기초 1주차 (머신러닝)

목표머신러닝의 개념과 데이터 분석에서의 역할을 이해머신러닝 모델링 프로세스의 각 단계 파악머신러닝, 딥러닝, AI의 관계 및 차이를 알기 1. 머신러닝인간의 개입을 최소한으로 하여 컴퓨터가 데이터를 학습해 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술 3대 요소데이터: 양질의 정보알고리즘: 문제 해결 위해 순서대로 처리하는 방법 또는 규칙컴퓨팅 파워: 컴퓨터가 얼마나 빠르고 많은 연산을 할 수 있는지 나타내는 능력치, GPU 머신러닝, AI, 딥러닝 관계인공지능: 사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념머신러닝: AI 실현하기 위한 방법 중 하나데이터로부터 특징이나 규칙을 찾아내서 학습하는 것딥러닝: 머신러닝의 하위 분야사람의 뇌신경을 본떠 만든 인공신경망으로..

AI/머신러닝 2025.03.12