세레브라스

Cerebras

세계 최대 크기의 AI 전용 칩으로 기존 GPU보다 수십 배 빠른 초고속 LLM 추론 환경을 제공하는 API 플랫폼

부분 무료WebAPILLM 기반멀티모달

웹사이트 방문하기cerebras.ai

레플리케이트와(과) 비교하기

소개

세레브라스는 세계 최대 AI 프로세서인 WSE-3 기반 CS-3 시스템을 통해 초고속 AI 추론을 제공합니다. Llama 4, Qwen 3, DeepSeek R1 등 최신 모델을 지원하며, 특히 AWS와의 협력을 통해 Prefill과 Decode 단계를 최적화한 분산 추론 기술로 세계 최고 수준의 성능을 자랑합니다.

활용 워크플로우

입력

OpenAI 호환 API 요청 (Chat/Completions)LangChain/LlamaIndex 기반 RAG 컨텍스트Batch API용 대규모 비동기 데이터셋커스텀 모델 가중치 및 파인튜닝 데이터

세레브라스

AWS Trainium 기반 프롬프트 Prefill 처리WSE-3(Wafer Scale Engine) 하드웨어 가속CS-3 시스템 기반 전용 디코딩(Decoding) 수행병렬 도구 호출(Parallel Tool Calling) 및 제약된 디코딩

출력

초당 2,000~3,000 토큰의 초고속 스트리밍구조화된 JSON 및 타입 세이프 데이터실시간 음성 상호작용을 위한 저지연 응답Prometheus 호환 추론 메트릭 리포트

AWS Bedrock 분산 추론

AWS Trainium과 Cerebras CS-3를 결합하여 Prefill과 Decode를 분리 처리하는 엔터프라이즈 경로

에이전틱 워크플로우

CrewAI, AutoGen 등과 연동하여 복잡한 멀티 에이전트 작업을 지연 없이 수행

배치 비동기 처리

최대 50,000개의 요청을 한 번에 처리하며 50%의 비용을 절감하는 대량 연산 경로

핵심 차별점: 세계 최대의 WSE-3 칩을 통해 메모리 병목을 제거하여, Llama 4 및 DeepSeek 모델에서 GPU 대비 최대 20배 빠른 초당 3,000 토큰급 추론을 실현합니다.

주요 기능

초당 2,000~3,000 토큰의 세계 최고속 추론
AWS Bedrock 기반 불연속 추론(Disaggregated Inference) 지원
병렬 도구 호출 및 제약된 디코딩(Constrained Decoding)
OpenAI API 완전 호환성

가격 정보

부분 무료시작 가격: $10

추론 서비스(Inference)는 무료 티어를 제공하며, 개발자용 유료 서비스는 $10부터 시작하는 크레딧 충전 방식(Pay-per-token)으로 운영됩니다. Llama 3.1 8B 모델 기준 100만 토큰당 $0.10의 매우 저렴한 가격으로 초고속 추론을 지원합니다. 기업용 및 전용 코드 생성 플랜은 별도의 구독료가 발생할 수 있습니다.

가격표 확인하기

활용 사례

실시간 음성 AI 및 대화형 에이전트
에이전틱 코딩 및 자율 연구 자동화
대규모 고성능 RAG 시스템 구축
복잡한 추론 모델(Reasoning Models) 가속화

대상 사용자

개발자기업

연동 서비스

Hugging FaceLlamaMistralQwen

Cerebras Inference는 종량제(Pay-per-token) 모델을 사용하며, 무료 티어는 하루에 100만 토큰을 제공합니다. 유료 서비스는 백만 토큰당 $0.10(Llama 3.1 8B)에서 $1.20(Qwen3 235B 출력) 사이의 요금이 부과됩니다. 또한 고성능 코드 생성을 위한 Cerebras Code Pro($50/월) 및 Max($200/월) 구독 플랜과 맞춤형 기업용 플랜도 제공합니다.

AI 웨이퍼 스케일 칩 개발사. 세계 최대 AI 칩, 고성능 학습/추론

개발 활동

Stars

Forks

2026. 1. 21.

최근 커밋

링크