GPU

인프라

약 1분 읽기

수천 개의 코어를 통한 병렬 연산에 특화된 프로세서로, AI 모델의 학습과 추론 성능을 결정짓는 핵심 인프라입니다. 그래픽 처리를 넘어 딥러닝 행렬 연산에 최적화되어 있으며, 최근에는 고대역폭 메모리(HBM)를 결합하여 초거대 언어 모델(LLM) 구동의 표준으로 부상했습니다.

다른 이름

Graphics Processing Unit그래픽 처리 장치

상세 설명

GPU(Graphics Processing Unit)는 수많은 단순 연산을 동시에 처리하는 병렬 구조 덕분에 AI 모델의 학습과 추론을 CPU보다 수십 배 이상 빠르게 수행합니다. 현재 NVIDIA의 Hopper(H100, H200) 및 차세대 Blackwell(B200) 아키텍처가 시장을 선도하며, AMD의 Instinct MI300 시리즈가 유력한 대항마로 꼽힙니다. 현대의 AI 워크로드에서는 단순 연산 속도(FLOPS) 못지않게 비디오 램(VRAM) 용량과 메모리 대역폭이 중요합니다. VRAM이 부족하면 모델을 로드할 수 없고, 대역폭이 낮으면 추론 속도(Token/s)가 떨어지기 때문입니다. 사용자는 모델 크기와 예산에 맞춰 온프레미스 구축 또는 전문 GPU 클라우드(Lambda, RunPod 등) 서비스를 선택해야 합니다.

도구 선택에서 중요한 이유

GPU는 AI 성능의 병목 현상이 발생하는 가장 큰 지점입니다. 선택한 GPU의 VRAM 용량에 따라 구동 가능한 모델의 파라미터 수가 결정되며, 메모리 대역폭에 따라 사용자 응답 속도가 달라집니다. 특히 Blackwell과 같은 최신 공정은 이전 세대 대비 전력 효율이 뛰어나 운영 비용(TCO) 절감에 결정적인 역할을 합니다.

GPU 선택 시 확인해야 할 4가지

VRAM 용량: 모델의 크기(예: Llama-3 70B)를 한 장의 GPU에 담을 수 있는가?
메모리 대역폭(HBM3e 등): 초당 토큰 생성 속도가 서비스 요구 사항을 충족하는가?
상호 연결 기술(NVLink): 여러 장의 GPU를 연결했을 때 데이터 손실 없이 확장이 가능한가?
소프트웨어 생태계: CUDA 환경에서 라이브러리 지원이 원활한가?

용도별 최적 GPU 예시

LLM 학습 및 대규모 추론에는 NVIDIA H200(141GB) 또는 B200(192GB)이 표준입니다. 중소규모 모델의 가성비 서버 구축에는 L40S나 A6000 Ada가 선호되며, 로컬 개발 환경에서는 RTX 4090이나 5090 같은 소비자용 플래그십 GPU가 널리 사용됩니다.

헷갈리기 쉬운 용어

TPU (Tensor Processing Unit)

구글이 텐서플로우/JAX 연산에 최적화하여 만든 전용 가속기로, 구글 클라우드에서만 사용 가능합니다.

NPU (Neural Processing Unit)

스마트폰이나 노트북 등 엣지 기기에서 AI 연산을 효율적으로 처리하기 위해 설계된 저전력 프로세서입니다.

참고 링크

전체 용어 목록

GPU