양자화

AI 개념

약 1분 읽기

AI 모델의 고정밀도 파라미터를 낮은 비트 수(INT8, INT4 등)로 변환하여 모델 크기를 줄이고 추론 속도를 높이는 최적화 기술입니다. 연산 자원이 제한된 환경에서도 대규모 언어 모델(LLM)을 효율적으로 구동하기 위한 필수적인 경량화 기법입니다.

다른 이름

Quantization모델 양자화

상세 설명

양자화(Quantization)는 AI 모델의 가중치와 활성화 값을 FP32(32비트 부동소수점)와 같은 고정밀도에서 INT8, INT4 또는 NF4와 같은 저정밀도 형식으로 변환하는 과정입니다. 이를 통해 모델 용량을 50~80% 이상 절감하고 메모리 대역폭 병목을 해소하여 추론 속도를 가속합니다. 최근 LLM 분야에서는 AWQ, GPTQ 등 오차를 최소화하는 알고리즘이 발전하여, 4비트 양자화 시에도 성능 저하를 체감하기 어려운 수준에 도달했습니다. 특히 소비자용 GPU나 온디바이스 환경에서 수십억 개의 파라미터를 가진 모델을 실행하는 데 핵심적인 역할을 합니다.

도구 선택에서 중요한 이유

사용자가 보유한 하드웨어(VRAM) 용량에 맞춰 적절한 양자화 모델을 선택해야 합니다. 예를 들어, 70B 규모의 모델은 원본(FP16) 상태로 구동하려면 약 140GB의 VRAM이 필요하지만, 4비트 양자화 버전을 사용하면 약 40GB 수준으로 낮아져 고성능 소비자용 GPU 환경에서도 구동이 가능해집니다.

확인할 점

포맷 호환성: GPU 사용 시 AWQ/GPTQ, CPU/Apple Silicon 사용 시 GGUF 형식이 유리합니다.
성능 손실(Perplexity): 4비트까지는 손실이 적으나, 3비트 이하부터는 지능 저하가 뚜렷해질 수 있습니다.
하드웨어 가속: 사용하는 가속기(NVIDIA Tensor Core 등)가 해당 정수 연산을 지원하는지 확인해야 합니다.

예시

Llama 3 8B 모델을 4비트(INT4)로 양자화하면 모델 파일 크기가 약 15GB에서 5GB 내외로 줄어들어, 메모리가 적은 노트북이나 모바일 기기에서도 원활하게 실행할 수 있습니다.

헷갈리기 쉬운 용어

가지치기(Pruning)

중요도가 낮은 뉴런이나 연결 자체를 제거하는 방식 (양자화는 값의 정밀도만 수정)

지식 증류(Distillation)

큰 모델(Teacher)의 지식을 작은 모델(Student)로 학습시켜 이전하는 방식

참고 링크

전체 용어 목록

양자화