그록

Groq

자체 개발한 LPU를 통해 오픈소스 모델을 압도적인 속도로 구동하는 초고속 AI 추론 플랫폼

부분 무료WebCLIAPILLM 기반멀티모달

웹사이트 방문하기groq.com

레플리케이트와(과) 비교하기

소개

Groq는 독자적인 LPU(Language Processing Unit) 하드웨어를 통해 세계 최고 수준의 AI 추론 속도를 제공하는 플랫폼입니다. OpenAI 호환 API를 지원하여 기존 코드를 거의 수정하지 않고도 초당 수백 토큰의 압도적인 처리량과 밀리초 단위의 지연 시간을 구현하며, Llama 3.3 및 Whisper Large V3 Turbo와 같은 최신 오픈 모델을 최적화된 성능으로 실행합니다.

활용 워크플로우

입력

OpenAI 호환 API 요청 및 REST 엔드포인트GroqCloud Playground 실험 및 설정 데이터Python/TypeScript SDK 기반 모델 통합 코드멀티모달 입력 (이미지 및 오디오 바이너리 스트림)

그록

LPU(Language Processing Unit) 전용 컴파일러 최적화SRAM 기반의 고대역폭 데이터 텐서 스트리밍 (TSP 아키텍처)확정적(Deterministic) 하드웨어 스케줄링 및 병렬 연산실시간 토큰 디코딩 및 스트리밍 엔진 처리

출력

초당 500+ 토큰(TPS) 기반의 실시간 텍스트 응답JSON Mode를 통한 구조화된 데이터 객체Whisper 기반 초고속 오디오 전사 및 번역 결과물Groq Compound 기반 멀티 툴 호출(Tool Use) 인스트럭션

실시간 음성 에이전트 워크플로우

Whisper Large V3 Turbo를 활용해 수 초 분량의 오디오를 밀리초 단위로 텍스트화하여 즉각적인 대화형 AI 서비스 구현

대규모 지식 베이스 RAG 최적화

Llama 3.3 70B 모델의 높은 처리량을 이용해 방대한 컨텍스트 내에서 필요한 정보를 지연 시간 없이 추출 및 요약

에이전틱 워크플로우 통합

Groq Compound 시스템을 통해 웹 검색, 코드 실행 등 외부 도구를 자동 선택하고 병렬로 처리하는 복합 추론 경로

핵심 차별점: 전용 LPU 칩과 SRAM 기반 아키텍처로 메모리 병목을 제거하여, 기존 GPU 대비 수십 배 빠른 토큰 생성 속도와 일정한 지연 시간을 보장합니다.

주요 기능

LPU 기반의 결정론적(Deterministic) 추론 아키텍처
초당 최대 500+ 토큰의 실시간 텍스트 생성 속도
Whisper Large V3 Turbo를 이용한 초고속 음성 전사
Groq Compound 시스템을 통한 멀티 모델 툴 사용(Tool Use) 지원
OpenAI GPT-OSS 등 다양한 오픈 모델 지원

장점 & 단점

웹검색을 통해 수집된 사용자 피드백 정보입니다

장점

장기적인 운영 비용(토큰당 비용) 절감 효과
경쟁사 GPU 대비 압도적으로 빠른 LLM 추론 속도
예측 가능한 성능을 보장하는 결정론적(Deterministic) 아키텍처
기존 GPU 솔루션 대비 우수한 에너지 효율성
실시간 음성 및 대화형 AI 서비스에 최적화된 초저지연 성능
OpenAI API와 호환되는 사용하기 쉬운 클라우드 API 제공

단점

AI 모델 학습(Training)이 아닌 추론(Inference)에만 특화됨
GPU 대비 범용성이 떨어져 다양한 연산 작업에는 부적합
칩당 메모리 용량이 적어 대형 모델 구동 시 많은 칩 연결 필요
Nvidia CUDA 생태계에 비해 상대적으로 작은 개발자 커뮤니티
무료 티어 사용량 제한 및 고급 기능의 학습 곡선 존재

가격 정보

부분 무료시작 가격: $0.05 (100만 토큰당, Llama 3.1 8B 기준)

GroqCloud를 통해 무료 티어와 사용량에 따라 과금되는 종량제(Pay-as-you-go) API를 제공합니다. 일반 사용자를 위한 Groq Plus 플랜은 월 $19.99로 더 높은 속도와 우선 접근권을 제공합니다. 개발자용 API는 모델 크기에 따라 토큰당 매우 저렴한 가격으로 책정되어 있습니다.

가격표 확인하기

활용 사례

실시간 대화형 AI 에이전트 구축
대규모 문서 데이터 실시간 배치 분석
지연 시간에 민감한 금융/법률 데이터 처리
실시간 음성 인식 및 번역 서비스

대상 사용자

AI 애플리케이션 개발자데이터 과학자실시간 추론 성능이 필요한 엔지니어LLM 인프라 관리자

연동 서비스

LlamaMixtralGemmaWhisper

Groq는 AI 추론(Inference) 속도를 극대화하기 위해 설계된 전용 하드웨어인 LPU(Language Processing Unit)를 개발하는 AI 인프라 기업입니다. 전 Google TPU 설계자인 Jonathan Ross가 창업했으며, 기존 GPU 대비 압도적으로 빠른 토큰 생성 속도와 낮은 지연 시간(latency)을 제공하여 실시간 AI 애플리케이션에 최적화된 솔루션을 제공합니다. 2025년 12월 Nvidia와 약 200억 달러 규모의 기술 라이선스 및 자산 인수 계약을 맺었으나 독립적인 운영을 지속하고 있습니다.

개발 활동

1.5K

Stars

461

Forks

2024. 12. 23.

최근 커밋

링크