GAN

AI 개념

약 1분 읽기

생성자와 판별자가 경쟁하며 실사 같은 데이터를 생성하는 딥러닝 아키텍처입니다. 디퓨전 모델보다 생성 속도가 월등히 빨라 실시간 영상 변환, 고해상도 복원 등에 주로 활용됩니다.

다른 이름

생성적 적대 신경망Generative Adversarial Network

상세 설명

2014년 이안 굿펠로우(Ian Goodfellow)가 제안한 GAN은 생성자(Generator)와 판별자(Discriminator)라는 두 신경망이 서로 속이고 잡아내는 과정을 통해 데이터의 정교함을 높이는 기술입니다. 생성자는 실제와 가까운 가짜 데이터를 만들고, 판별자는 이를 감별하며 학습합니다. 최근 텍스트-이미지 생성 분야는 디퓨전 모델이 주도하고 있으나, GAN은 한 번의 연산으로 결과를 내는 빠른 추론 속도 덕분에 실시간 페이스 필터, 가상 인간 제작, 초해상도(Super Resolution), unpaired 데이터 변환(CycleGAN) 분야에서 여전히 핵심적인 위치를 차지합니다. 다만, 학습 과정에서 다양성을 잃는 '모드 붕괴(Mode Collapse)' 현상을 관리하는 것이 도구 선택 및 활용의 주요 기준이 됩니다.

도구 선택에서 중요한 이유

사용자가 '실시간성'과 '낮은 연산 비용'을 중시한다면 GAN 기반 도구를 선택해야 합니다. 최신 디퓨전 모델은 품질은 높지만 생성에 수 초에서 수십 초가 걸리는 반면, GAN은 밀리초(ms) 단위의 추론이 가능해 모바일 앱의 실시간 필터나 인터랙티브 서비스에 적합합니다.

확인할 점

실시간 생성(Low Latency)이 필요한 환경인가?
학습 데이터가 부족하거나 쌍(Pair)이 없는 데이터 간 변환(예: 말 사진을 얼룩말 사진으로)이 필요한가?
생성 도구가 모드 붕괴(특정 이미지만 반복 생성)를 방지하는 알고리즘을 갖추었는가?

예시

스노우(SNOW)나 틱톡의 실시간 얼굴 변환 필터, 저해상도 CCTV 영상을 4K로 업스케일링하는 보안 솔루션, 존재하지 않는 고해상도 인물 사진을 생성하는 가상 인간 솔루션 등이 대표적입니다.

헷갈리기 쉬운 용어

Diffusion Model

노이즈를 단계적으로 제거하며 생성합니다. GAN보다 생성 속도는 느리지만 품질과 다양성이 훨씬 뛰어납니다.

VAE (Variational Autoencoder)

데이터의 특징을 압축했다가 복원하는 방식으로 생성합니다. GAN보다 구조가 안정적이지만 결과물이 다소 흐릿(Blurry)한 경향이 있습니다.

참고 링크

전체 용어 목록

GAN