
레이 서브
Ray Serve
분산 컴퓨팅 프레임워크 Ray 기반의 고성능 모델 서빙 라이브러리
소개
활용 워크플로우
입력
레이 서브
출력
LLM 멀티플렉싱 (Multiplexing)
수천 개의 미세 조정된 LoRA 어댑터를 공유 베이스 모델 위에서 동적으로 로드하여 GPU 메모리 효율을 극대화하는 경로
복합 추론 그래프 (Model Composition)
전처리, 다중 모델 앙상블, 후처리를 하나의 파이썬 클래스 내에서 체이닝하여 복잡한 비즈니스 로직을 구현하는 경로
서버리스 스타일 배포 (KubeRay)
Kubernetes 환경에서 트래픽에 따라 노드와 복제본을 제로(0)까지 스케일링하는 클라우드 네이티브 서빙 경로
핵심 차별점: 별도의 인프라 코드 없이 파이썬 데코레이터만으로 단일 클러스터에서 수만 개의 모델을 동적으로 관리하고 오토스케일링할 수 있는 유연성
주요 기능
가격 정보
Ray Serve는 오픈 소스 프레임워크로 무료로 사용할 수 있습니다. 다만, 이를 관리형으로 제공하는 Anyscale 플랫폼을 이용할 경우 사용한 리소스(CPU, GPU 등)에 따라 비용이 발생하는 종량제(Pay-as-you-go) 방식이 적용됩니다. Anyscale은 신규 사용자에게 $100의 무료 크레딧을 제공하여 초기 테스트를 지원합니다.
활용 사례
- 대규모 멀티 테넌트 LLM 플랫폼
- 실시간 고성능 추천 엔진
- 복합 AI 에이전트 워크플로우 서빙
- 비용 최적화된 대규모 모델 배포
대상 사용자
연동 서비스
태그
최근 소식
- 버전 업데이트Anyscale, Ray Serve 대규모 성능 개선 발표
Anyscale이 Ray Serve 온라인 추론 지연을 88% 낮추고 처리량을 11.1배 높이는 대규모 성능 개선을 발표했습니다.
근거: Anyscale이 2026년 3월 24일 HAProxy 인그레스를 도입한 Ray Serve 대규모 성능 개선을 발표했으며, Ray 2.55+에서 환경변수로 활성화되고 100 동시 사용자 기준 처리량 2배·P99 지연 25% 감소를 달성했다고 밝혔습니다.
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안


