데이터 드리프트 (Data Drift)
용어 이름 복사
mlops약 1분 읽기
AI 모델을 학습시킬 때 사용한 데이터의 통계적 특성과 실제 운영 단계에서 입력되는 데이터의 분포가 달라져 모델의 예측 성능이 저하되는 현상을 뜻합니다.
다른 이름
concept driftmodel decay
상세 설명
데이터 드리프트는 시간의 흐름이나 외부 환경 변화에 따라 실제 운영 환경으로 유입되는 데이터의 성격이 변하는 현상입니다. 예를 들어, 소비자 선호도 변화나 계절성 요인으로 인해 과거 학습 데이터와 현재 입력 데이터 사이의 괴리가 발생하면 모델의 정확도는 급격히 떨어집니다. AI 도구를 선택할 때는 이러한 변화를 실시간으로 탐지하고, 성능 저하 발생 시 관리자에게 즉시 알림을 보내며, 신속한 재학습(Retraining)을 지원하는 모니터링 기능이 포함되어 있는지 확인하는 것이 필수적입니다.
도구 선택에서 중요한 이유
AI 모델은 배포 후 시간이 지날수록 성능이 퇴화하는 경향이 있습니다. 드리프트를 감지하지 못하는 도구는 잘못된 예측 결과를 방치하여 비즈니스 의사결정에 리스크를 초래합니다. 유지보수 비용을 절감하고 모델의 신뢰성을 지속하려면 자동화된 드리프트 분석 기능이 내장된 솔루션을 선택해야 합니다.
확인할 점
- 학습 데이터와 운영 데이터의 통계적 분포 차이를 수치로 시각화해 주는가?
- 성능 저하 임계치 설정 및 실시간 알림 시스템을 지원하는가?
- 드리프트 발생 시 즉각적인 재학습(Retraining) 파이프라인 연동이 용이한가?
예시
패션 이커머스 추천 AI가 과거 겨울 의류 데이터를 바탕으로 학습되었으나, 봄이 되어 가벼운 외투 주문이 급증할 때 발생하는 입력 데이터의 분포 변화가 대표적인 예입니다.
데이터 드리프트와 컨셉 드리프트
데이터 드리프트
입력 데이터의 분포 자체가 시간이 지나며 변하는 현상입니다. 예: 신규 사용자층 유입으로 입력 패턴이 달라짐.
컨셉 드리프트
입력과 정답 사이의 관계가 변하는 현상입니다. 예: 같은 행동이라도 정상·이상의 기준이 바뀌어 모델 판단이 어긋남.
관련 용어
MLOps
머신러닝 모델의 생애주기를 자동화하고 관리하는 체계로, 소프트웨어 공학의 CI/CD에 '지속적 학습(CT)'을 결합하여 프로덕션 환경에서 모델의 성능과 안정성을 유지하는 DevOps의 확장판입니다.
머신러닝데이터를 통해 스스로 학습하고 패턴을 발견하여 최적의 예측이나 의사결정을 수행하는 AI의 핵심 기술입니다. 명시적인 프로그래밍 없이도 방대한 데이터에서 통계적 법칙을 추출하며, 현대 인공지능이 복잡한 문제를 해결하는...
파인튜닝사전 학습된 인공지능 모델에 특정 데이터셋을 추가 학습시켜 특정 작업이나 도메인에 맞게 최적화하는 과정입니다. 범용 모델의 일반 지식을 유지하면서 특정 목적에 필요한 전문성이나 응답 스타일을 정교하게 조정할 때 사용...
파이프라인데이터의 수집, 가공, 모델 학습, 배포에 이르는 일련의 처리 과정을 자동화된 흐름으로 연결한 시스템입니다. 데이터 정합성 유지와 재현 가능한 실험 환경 구축을 통해 운영 효율성을 높입니다.