MoE (Mixture of Experts)

기술 용어
1분 읽기

모델의 전체 파라미터 중 입력 토큰 처리에 필요한 일부 '전문가' 서브넷만 선택적으로 활성화하여, 거대 모델의 지식 용량과 효율적인 연산 속도를 동시에 확보하는 신경망 아키텍처입니다.

다른 이름
Sparse MoESMoE조건부 연산(Conditional Computation)

상세 설명

MoE는 전체 파라미터 중 소수만을 계산에 활용하는 '희소 활성화(Sparse Activation)' 방식의 구조입니다. 신경망의 피드포워드(FFN) 층을 다수의 전문가(Expert) 서브넷으로 분할하고, 라우터(Router)가 각 토큰의 특성에 맞춰 가장 적합한 전문가를 실시간으로 선택해 작업을 배분합니다. 이 방식을 통해 모델의 전체 지식 용량(Total Parameters)은 비약적으로 키우면서도, 실제 추론 시 발생하는 연산량(FLOPs)과 지연 시간(Latency)은 낮은 수준으로 억제할 수 있습니다. 다만, 활성화되지 않은 전문가를 포함한 전체 파라미터를 메모리에 상주시켜야 하므로 모델 규모에 비례하는 높은 VRAM 용량이 요구됩니다. 최근 Mixtral 8x7B, DeepSeek-V3 등 고성능 오픈 소스 및 상용 LLM의 핵심 아키텍처로 채택되고 있습니다.

도구 선택에서 중요한 이유

MoE 모델은 '동급 성능의 Dense 모델보다 빠르고, 동급 연산 비용의 모델보다 똑똑하다'는 특징이 있습니다. API 비용이나 추론 서버 운영비를 절감하면서도 최상위권의 추론 성능을 얻고자 할 때 반드시 고려해야 할 아키텍처입니다. 특히 파라미터 수 대비 활성 파라미터(Active Parameters)가 적을수록 가성비가 높습니다.

확인할 점

  • 총 파라미터 대비 활성 파라미터(Active Params) 수: 실제 추론 속도를 결정하는 지표
  • VRAM 요구 사양: 추론 속도는 빨라도 총 파라미터가 크면 고사양 GPU(H100 등)가 대량 필요함
  • 라우팅 안정성: 특정 전문가에게 부하가 쏠리지 않고 지식이 고르게 학습되었는지 여부

대표 사례

Mixtral 8x7B 모델은 총 46.7B의 파라미터를 가지지만, 추론 시 토큰당 약 12.9B의 파라미터만 활성화합니다. 이를 통해 70B 규모의 Llama 2와 대등한 성능을 내면서도 추론 속도는 약 6배 더 빠릅니다.

관련 용어

트랜스포머LLMinference-optimizationvram