공부/MLops

MLops

edcrfv458 2025. 4. 24. 15:42

Silo Effect

  • 조직 내 부서나 팀들이 서로 고립되어 정보와 자원을 공유하지 않고 독립적으로 운영되는 상황
  • 문제
    • 커뮤니케이션 부족
    • 중복 작업
    • 비효율적 자원 활용
    • 혁신 저해
    • 전체 목표 달성 어려움
  • 또 다른 표현으로 '조직 이기주의'

 

발생 이유

  • 서비스의 규모가 작을 때는 개발팀과 운영팀 사이의 구분이 별로 없음
  • 서비스의 규모가 커질 수록 개발팀과 운영팀이 나뉘게 되고 소통의 물리적 한계가 옴
  • 다른 팀과 미팅을 할 때 팀 전체가 아닌 팀장, 책임자, 소수의 시니어들만 참가
    • 이러한 상황으로 인해 소통의 부재가 생김
  • 원인
    • 부서나 팀 단위로 분리된 소직적 조직의 구조
    • 커뮤니케이션 부족/기술 장벽/성과 평가/리더십 부재 등

 

DevOps

  • 위의 문제를 해결하기 위해 등장
  • Development + Operations: 개발과 운영의 합성어
    • SW 개발과 IT 운영을 통합
  • 특징
    • 개발팀과 운영팀 간의 협업 강화
    • SW 제공 과정의 자동화
    • 빠른 피드백과 지속적 개선
    • 안정적인 SW 배포
  • 목표
    • 개발 주기 단축
    • 배포 빈도 증가
    • 안정적인 릴리즈
    • 비즈니스 목표와 연계

 

MLOps

  • Machine Learning + Operations
    • 머신러닝 개발과 운영 시스템 통합
  • 머신러닝 코드는 시스템의 작은 부분에 불과하고, 서라운딩 인프라 스트럭처가 더 큰 비중을 차지
    • 즉, 머신러닝 코드는 일부분이고 이것을 구성하는 인프라가 훨씬 더 많이 차지
    • MLops 구성에 아주 큰 영향을 미침
  • 목표
    • 개발-배포의 자동화 및 최적화
    • 머신러닝으로 이루어진 모델이 결국에 서비스로 제공
    • 서비스로 제공된 모델이 계속해서 자동으로 최적화
  • 개발과 배포의 자동화를 위해 DevOps에 있었던 CI/CD의 개념을 사용
    • CI (Continous Intergration): 지속적 통합
      • 코드의 변경사항을 지속적 통합 + 데이터, 모델
    • CD (Continous Delivery or Deployment): 지속적 배포
      • 검증된 변경사항을 지속적 배포
  • DevOps의 CI/CD보다는 조금 복잡하지만 얻는 점
    • 안정성
    • 확장성
    • 지속적 개선
  • 핵심 
    • AI 모델 개발, AI 모델 최적화, AI 서비스 운영을 자동화로 처리
    • 최적의 모델을 유지할 수 있게 함
    • 추가적으로 데이터 파이프라인 관리, 인프라/컴퓨팅 리소스 관리