AI 가속기
용어 이름 복사
인프라약 1분 읽기
인공지능 모델의 대규모 행렬 연산을 빠르게 처리하기 위해 설계된 전용 하드웨어로, CPU보다 병렬 연산과 전력 효율에 초점을 둔 처리 장치입니다.
다른 이름
AI AcceleratorNPU신경망 처리 장치
상세 설명
AI 가속기는 딥러닝과 머신러닝 아키텍처에 필요한 행렬 곱셈 및 병렬 연산을 최적화해 처리하는 특수 반도체입니다. 일반적인 연산을 수행하는 CPU와 달리 많은 연산을 동시에 처리하는 구조를 갖춰 모델 학습 및 추론 시간을 줄이는 데 쓰입니다. 범용 그래픽 처리 장치(GPU)에서 시작해, 현재는 구글의 TPU나 아마존의 Inferentia 같은 주문형 반도체(ASIC), 모바일 및 PC 내 저전력 연산을 위한 NPU(Neural Processing Unit) 등으로 나뉩니다. AI 도구 사용자 입장에서 가속기는 서비스의 응답 지연 시간(Latency), 처리 가능한 요청량, 대규모 모델 운영 비용에 직접 영향을 주는 인프라 요소입니다.
도구 선택에서 중요한 이유
AI 가속기의 성능과 공급 상황은 서비스의 응답 속도와 가격 구조에 영향을 줍니다. 텍스트나 이미지를 생성하는 AI 도구의 대기 시간은 사용 중인 가속기의 메모리 대역폭, 연산 성능, 배치 처리 방식에 따라 달라질 수 있습니다. 또한 같은 모델이라도 더 효율적인 가속기를 쓰면 운영 비용을 낮추고 API 단가나 사용량 제한을 조정할 여지가 생깁니다.
확인할 점
- 온디바이스 AI를 고려한다면 기기의 NPU 탑재 여부와 연산 성능(TOPS)을 확인합니다.
- 대규모 모델 구동 시 가속기의 고대역폭 메모리(HBM) 용량과 모델 크기가 맞는지 확인합니다.
- 특정 하드웨어(예: TPU)에 최적화된 프레임워크와 배포 환경을 지원하는지 확인합니다.
예시
엔비디아 H100은 데이터센터에서 LLM 학습과 추론에 널리 쓰이는 가속기입니다. 애플 실리콘의 뉴럴 엔진은 맥북과 아이폰에서 사진 보정, 음성 인식, 일부 온디바이스 AI 기능을 처리하는 전용 연산 장치로 볼 수 있습니다.