데이터 드리프트 (Data Drift)
용어 이름 복사
mlops약 1분 읽기
AI 모델을 학습시킬 때 사용한 데이터의 통계적 특성과 실제 운영 단계에서 입력되는 데이터의 분포가 달라져 모델의 예측 성능이 저하되는 현상을 뜻합니다.
다른 이름
concept driftmodel decay
상세 설명
데이터 드리프트는 시간의 흐름이나 외부 환경 변화에 따라 실제 운영 환경으로 유입되는 데이터의 성격이 변하는 현상입니다. 예를 들어, 소비자 선호도 변화나 계절성 요인으로 인해 과거 학습 데이터와 현재 입력 데이터 사이의 괴리가 발생하면 모델의 정확도는 급격히 떨어집니다. AI 도구를 선택할 때는 이러한 변화를 실시간으로 탐지하고, 성능 저하 발생 시 관리자에게 즉시 알림을 보내며, 신속한 재학습(Retraining)을 지원하는 모니터링 기능이 포함되어 있는지 확인하는 것이 필수적입니다.
도구 선택에서 중요한 이유
AI 모델은 배포 후 시간이 지날수록 성능이 퇴화하는 경향이 있습니다. 드리프트를 감지하지 못하는 도구는 잘못된 예측 결과를 방치하여 비즈니스 의사결정에 리스크를 초래합니다. 유지보수 비용을 절감하고 모델의 신뢰성을 지속하려면 자동화된 드리프트 분석 기능이 내장된 솔루션을 선택해야 합니다.
확인할 점
- 학습 데이터와 운영 데이터의 통계적 분포 차이를 수치로 시각화해 주는가?
- 성능 저하 임계치 설정 및 실시간 알림 시스템을 지원하는가?
- 드리프트 발생 시 즉각적인 재학습(Retraining) 파이프라인 연동이 용이한가?
예시
패션 이커머스 추천 AI가 과거 겨울 의류 데이터를 바탕으로 학습되었으나, 봄이 되어 가벼운 외투 주문이 급증할 때 발생하는 입력 데이터의 분포 변화가 대표적인 예입니다.
관련 용어
concept-driftMLOps
머신러닝 모델의 생애주기를 자동화하고 관리하는 체계로, 소프트웨어 공학의 CI/CD에 '지속적 학습(CT)'을 결합하여 프로덕션 환경에서 모델의 성능과 안정성을 유지하는 DevOps의 확장판입니다.
model-monitoring