합성 데이터 (Synthetic Data)
용어 이름 복사
데이터약 1분 읽기
AI 알고리즘이나 통계적 모델을 통해 실제 세계의 측정값이 아닌 인위적으로 생성된 데이터로, 원본 데이터의 통계적 특성과 패턴을 유지하여 분석 및 모델 학습에 활용됩니다.
다른 이름
인공 데이터시뮬레이션 데이터가상 데이터
상세 설명
실제 사건이나 인물로부터 직접 수집하지 않고 수학적 알고리즘을 통해 생성한 가공의 데이터입니다. 원본 데이터의 수치적 분포와 변수 간 상관관계 등 통계적 구조를 정밀하게 모방하여 생성되므로 실제 데이터와 유사한 분석 결과를 도출할 수 있습니다. 개인 식별 정보(PII)를 포함하지 않아 GDPR이나 HIPAA 등 엄격한 개인정보 규제에서 자유로우며, 의료나 금융처럼 데이터 접근이 제한된 분야에서 학습 자원을 확보하는 데 필수적입니다. GAN(생성적 적대 신경망)이나 VAE(변이형 오토인코더) 등의 생성형 AI 기술을 활용해 현실에서 수집하기 어려운 희귀 사례(Edge Case)를 대량으로 생성함으로써 모델의 견고성을 높일 수 있습니다. 가트너(Gartner)는 2026년까지 AI 모델 학습 데이터의 약 75%가 합성 데이터로 구성될 것으로 전망하고 있습니다.
도구 선택에서 중요한 이유
데이터 확보가 어려운 초기 모델 개발 단계나 개인정보 보호가 최우선인 엔터프라이즈 환경에서 핵심적인 역할을 합니다. 합성 데이터 생성 도구를 선택할 때는 단순히 데이터를 만드는 기능을 넘어, 생성된 데이터가 원본의 통계적 특성을 얼마나 잘 유지하는지(Fidelity)와 원본 데이터가 역추적되지 않도록 보장하는 보안 기술(Differential Privacy 등)이 탑재되었는지를 확인해야 합니다.
확인할 점
- 충실도(Fidelity): 합성 데이터가 실제 데이터의 통계적 상관관계를 얼마나 정확히 유지하는가?
- 유용성(Utility): 합성 데이터로 학습한 모델이 실제 환경에서도 높은 성능을 발휘하는가?
- 개인정보 보호(Privacy): 차분 프라이버시(Differential Privacy) 적용으로 원본 재식별을 방지하는가?
- 편향성 관리(Bias mitigation): 원본에 포함된 편향을 제거하거나 특정 데이터군을 강화할 수 있는가?
예시
자율주행 AI 학습을 위해 실제 도로에서 촬영하기 어려운 극단적인 기상 상황(폭설, 폭풍우)이나 야간 보행자 돌발 출현 시나리오를 가상 이미지로 생성하여 학습시킬 수 있습니다. 또한, 실제 암 환자의 개인정보를 노출하지 않으면서도 수만 명의 가상 환자 임상 데이터를 생성하여 신약 개발 예측 모델을 학습시키는 데 활용됩니다.
관련 용어
생성형 AI
대규모 데이터를 학습하여 데이터의 패턴과 구조를 이해하고, 이를 바탕으로 텍스트, 이미지, 오디오, 코드 등 독창적인 새로운 콘텐츠를 생성하는 인공지능 기술입니다.
privacy-preserving-mldifferential-privacydata-augmentation