세다나

세다나

Cedana

실행 중인 AI 작업을 중단 없이 이동시키는 라이브 마이그레이션 기술로 GPU 비용을 절감하고 운영 안정성을 높이는 인프라 플랫폼

유료WebLinuxDocker오픈소스
웹사이트 방문하기cedana.com

검증된 사실

최신 버전
v0.9.292
GitHub
★ 125
최근 변경
2026-05-15 Cedana v0.9.287 버전이 출시되어 쿠버네티스(K8s) 스크립트 범용성 개선 및 시스템 성능 최적화가 이루어졌습니다. 소스: https://github.com/cedana/cedana/r

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

세다나 제품 화면

2026-06-15 확인

가격 정보

유료시작 가격: 별도 문의

공개된 가격 정보 없음. 공식 웹사이트(cedana.com) 또는 문서(docs.cedana.ai)에서 문의 필요합니다.

가격표 확인하기

최근 업데이트와 소식

  • 투자
    Cedana, YC 프리시드 50만 달러 유치

    컴퓨트 워크로드 실시간 저장·이동·복원 플랫폼 Cedana가 Y Combinator로부터 프리시드 50만 달러를 유치했습니다. YC S23 출신으로 시스템 레벨 체크포인트로 장애 시 워크로드를 자동 재개하고 클라우드 성능을 5~10배 개선합니다.

    근거: Cedana가 2023년 9월 6일 Y Combinator로부터 프리시드 50만 달러를 유치했습니다.

소개AI 요약

Cedana는 컨테이너GPU 워크로드를 위한 상태 저장·이전·재개(Save/Migrate/Resume) 플랫폼입니다. Linux 커널과 워크로드 사이에서 컨테이너의 전체 상태를 보존해 인스턴스 및 벤더 간 마이그레이션을 가능하게 합니다. Kubernetes·SLURM·Ray 등 기존 잡 스케줄러와 투명하게 연동되며, 스팟 노드 선점 시에도 작업을 즉시 재개하여 비용 효율과 안정성을 동시에 확보합니다. Y Combinator 투자 기업으로 2023년 설립되었습니다.

활용 워크플로우

입력

NVIDIA GPU 가속 클러스터 (AWS, GCP, Lambda Labs)Spot 인스턴스 중단 신호 (Preemption Notice)PyTorch/TensorFlow 분산 훈련 및 추론 워크로드Kubernetes(K8s) 및 Slurm 작업 대기열

세다나

시스템 레벨 체크포인팅: GPU VRAM 및 CPU 프로세스 상태의 전체 스냅샷 캡처실시간 리소스 텔레메트리: 클라우드 제공업체별 가용성 및 가격 변동 데이터 분석투명한 라이브 마이그레이션: 네트워크 경계를 넘나드는 상태 저장 데이터의 비중단 전송Zero-code 워크로드 복구: 애플리케이션 코드 수정 없이 대상 노드에서 즉시 재개

출력

상태 손실 없이 복구된 AI 모델 훈련 세션최대 80% 절감된 인프라 비용 분석 리포트첫 번째 토큰 도달 시간(TTFT)이 단축된 추론 서비스GPU 하드웨어 장애 대응 자동 장애 조치(Failover) 로그

Spot 인스턴스 차익 거래

스타트업 MLOps 엔지니어가 비용 절감을 위해 가격이 가장 저렴한 Spot 인스턴스로 실시간으로 작업을 이동하는 경로

결함 허용(Fault Tolerance) 교육

대규모 언어 모델 연구원이 장기 훈련 중 GPU 하드웨어 오류 발생 시 상태를 보존하고 정상 노드로 즉시 전환

동적 추론 스케줄링

플랫폼 엔지니어가 사용자 트래픽 변화에 맞춰 Kserve와 통합하여 추론 워크로드를 최적의 지역으로 배치

핵심 차별점: 사용자 코드 수정 없이 GPU 메모리 상태를 포함한 전체 프로세스를 실시간으로 캡처하고 이동시키는 시스템 레벨 하이퍼스케일러 오케스트레이션

주요 기능AI 요약

  • 컨테이너·GPU 워크로드 상태 저장/이전/재개(SMR)
  • 라이브 GPU 마이그레이션으로 장애 전 선제 이동
  • Kubernetes·SLURM·Ray 등 기존 오케스트레이터와 투명한 통합
  • 스팟 인스턴스 선점 시 자동 재개로 비용 절감
  • 멀티노드 대규모 클러스터 중간 장애 시 작업 손실 방지
  • AI 추론·학습·에이전트·HPC 워크로드 지원

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

  • 2-10배 더 높은 처리량 제공
  • 자동화된 GPU 오케스트레이션으로 비용 절감 및 성능 최적화
  • 하드웨어/네트워크 장애 발생 시에도 작업 지속 가능
  • 콜드 스타트 시간 감소로 고객 만족도 및 솔루션 신뢰도 향상
  • 워크를 잃지 않고 클라우드와 온프레미스 간 동적 이동
  • 기존 시스템(Kubernetes, SLURM 등)과 호환성 유지

단점

  • 장기 실행 작업 중 인스턴스 실패 시 재시작해야 하는 문제 발생 가능성
  • 잘못된 파이프라인 구성으로 인한 작업 재시작 필요성
  • GPU/CPU 활용률이 낮을 경우 비용 증가 및 기회 손실 발생 가능성

활용 사례AI 요약

  • 스팟 인스턴스 기반 ML 학습 비용 최적화
  • 멀티노드 GPU 클러스터의 장애 없는 연속 학습
  • AI 추론 서비스의 클라우드 간 워크로드 이전
  • HPC 작업의 체크포인트 기반 안정적 실행
  • 게임 서버의 상태 보존 인스턴스 마이그레이션

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안