레이 서브

레이 서브

Ray Serve

분산 컴퓨팅 프레임워크 Ray 기반의 고성능 모델 서빙 라이브러리

무료WebAPICLI오픈소스멀티모달
웹사이트 방문하기docs.ray.io

검증된 사실

라이브 가격
Try Ray with credit — Start now · $100 2026-06-20 확인
GitHub
★ 42,634
최근 변경
2026-04-22 Ray 2.55.1이 출시되었습니다. Ray Serve에서 HAProxy 기반 인그레스 통합 및 gRPC 양방향 스트리밍 지원이 추가되었으며, Pydantic v1 지원 종료 및 HTTP 프록시

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

레이 서브 제품 화면

2026-06-20 확인

가격 정보

무료시작 가격: 무료라이브 확인 2026-06-20

Ray Serve는 오픈 소스 프레임워크로 무료로 사용할 수 있습니다. 다만, 이를 관리형으로 제공하는 Anyscale 플랫폼을 이용할 경우 사용한 리소스(CPU, GPU 등)에 따라 비용이 발생하는 종량제(Pay-as-you-go) 방식이 적용됩니다. Anyscale은 신규 사용자에게 $100의 무료 크레딧을 제공하여 초기 테스트를 지원합니다.

가격표 확인하기

최근 업데이트와 소식

  • 버전 업데이트
    Anyscale, Ray Serve 대규모 성능 개선 발표

    Anyscale이 Ray Serve 온라인 추론 지연을 88% 낮추고 처리량을 11.1배 높이는 대규모 성능 개선을 발표했습니다.

    근거: Anyscale이 2026년 3월 24일 HAProxy 인그레스를 도입한 Ray Serve 대규모 성능 개선을 발표했으며, Ray 2.55+에서 환경변수로 활성화되고 100 동시 사용자 기준 처리량 2배·P99 지연 25% 감소를 달성했다고 밝혔습니다.

소개AI 요약

Ray Serve는 분산 컴퓨팅 프레임워크 Ray를 기반으로 수만 개의 모델을 단일 클러스터에서 효율적으로 서빙할 수 있는 분산 모델 서빙 라이브러리입니다. 2025년 Ray Summit에서 Anyscale Runtime·Azure 퍼스트파티 서비스·MLflow/W&B Lineage Tracking 등 주요 업데이트가 발표되었으며, Ray는 PyTorch Foundation(Linux Foundation 산하)에 합류했습니다. 최신 버전은 Ray 2.53.0입니다.

활용 워크플로우

입력

Python 배포 스크립트 (@serve.deployment)모델 아티팩트 (S3, Hugging Face, GCS)실시간 추론 요청 (HTTP, gRPC, ServeHandle)클러스터 리소스 설정 (KubeRay YAML)

레이 서브

Controller 기반 분산 액터 오케스트레이션Proxy 기반 지능형 요청 라우팅 및 부하 분산큐 깊이 및 동시성 기반 적응형 오토스케일링DAG 모델 컴포지션을 통한 추론 파이프라인 구성

출력

확장 가능한 프로덕션급 유추 엔드포인트실시간 성능 메트릭 (Prometheus 연동)분산 추적 및 애플리케이션 로그최적화된 GPU/CPU 자원 활용 리포트

LLM 멀티플렉싱 (Multiplexing)

수천 개의 미세 조정된 LoRA 어댑터를 공유 베이스 모델 위에서 동적으로 로드하여 GPU 메모리 효율을 극대화하는 경로

복합 추론 그래프 (Model Composition)

전처리, 다중 모델 앙상블, 후처리를 하나의 파이썬 클래스 내에서 체이닝하여 복잡한 비즈니스 로직을 구현하는 경로

서버리스 스타일 배포 (KubeRay)

Kubernetes 환경에서 트래픽에 따라 노드와 복제본을 제로(0)까지 스케일링하는 클라우드 네이티브 서빙 경로

핵심 차별점: 별도의 인프라 코드 없이 파이썬 데코레이터만으로 단일 클러스터에서 수만 개의 모델을 동적으로 관리하고 오토스케일링할 수 있는 유연성

주요 기능AI 요약

  • 수천 개의 LoRA를 단일 클러스터에서 처리하는 모델 멀티플렉싱
  • OpenAI 호환 API 서버 내장
  • Prefill-Decode 분리 최적화로 LLM 추론 성능 향상
  • 트래픽 변동에 자동 대응하는 동적 오토스케일링
  • FastAPI 기반 HTTP 및 gRPC 동시 지원
  • 복잡한 추론 그래프를 파이썬으로 구성하는 DAG 파이프라인
  • Anyscale Runtime: Ray 호환 엔진으로 데이터·훈련·서빙 워크로드 가속

활용 사례AI 요약

  • 대규모 멀티 테넌트 LLM 플랫폼 구축
  • 실시간 고성능 추천 엔진 서빙
  • 복합 AI 에이전트 워크플로우 배포
  • 비용 최적화된 대규모 모델 멀티플렉싱

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안