이벤추얼

이벤추얼

Eventual

이미지·비디오 등 비정형 AI 데이터를 페타바이트 규모로 처리하는 오픈소스 분산 데이터프레임 라이브러리

부분 무료WebAPI오픈소스멀티모달
웹사이트 방문하기daft.ai

검증된 사실

최신 버전
v0.7.152026-05-15
GitHub
★ 5,497
최근 변경
2026-06-05 대규모 멀티 테라바이트 데이터 처리를 위해 Arrow Flight와 로컬 디스크를 활용한 새로운 분산 셔플(Flight Shuffle) 아키텍처를 도입했습니다. 소스: https://www.daf

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

이벤추얼 제품 화면

2026-06-15 확인

가격 정보

부분 무료시작 가격: Open source (free)

오픈소스(GitHub)로 무료 사용 가능합니다. 인프라 관리가 필요 없는 서버리스 플랫폼 옵션도 제공하며, 엔터프라이즈 지원은 별도 문의가 필요합니다.

가격표 확인하기

최근 업데이트와 소식

  • 투자
    Eventual, 3,000만 달러 유치 및 Eventual Cloud 공개

    멀티모달 데이터 엔진 Daft를 만든 Eventual이 총 3,000만 달러를 유치했습니다. Felicis의 Astasia Myers 주도 2,000만 달러 시리즈 A와 M12·Citi 참여, CRV 주도 700만 달러 시드로 구성됩니다. 오픈소스 Daft 기반 첫 프로덕션급 멀티모달 AI 플랫폼 Eventual Cloud 대기자 명단도 열었습니다.

    근거: [APPROX_DATE] 2025년 6월 Eventual이 Felicis 주도 시리즈 A 포함 총 3,000만 달러를 유치하고 Eventual Cloud를 공개했습니다.

소개AI 요약

Eventual은 페타바이트 규모의 비정형 데이터(이미지, 비디오, 오디오, 텍스트)를 효율적으로 처리하기 위한 오픈소스 분산 데이터프레임 라이브러리 'Daft'를 개발하는 플랫폼입니다. AI 모델 학습과 추론에 필요한 멀티모달 데이터 파이프라인 구축에 최적화되어 있으며, Rust 기반 고성능 코어로 대용량 처리 속도를 극대화합니다. 클라우드 스토리지와 직접 연동해 데이터 이동 없이 원격 처리가 가능합니다.

활용 워크플로우

멀티모달 데이터 인입
멀티모달 데이터 인입AWS S3/GCS/Azure 기반 대규모 비정형 데이터 연결Apache Iceberg 및 Delta Lake 테이블 통합다양한 포맷(Parquet, JSON, 이미지, 비디오) 통합 스캐닝Daft Dataframe을 활용한 스키마 정의 및 로드
분산 변환 및 GPU 전처리
분산 변환 및 GPU 전처리Python UDF를 활용한 이미지 리사이징 및 비디오 디코딩Hugging Face 모델 연동을 통한 실시간 임베딩 추출GPU 클러스터 기반의 고속 병렬 데이터 변환메모리 효율적인 스트리밍 셔플링 연산
오케스트레이션 및 실행
오케스트레이션 및 실행Ray 프레임워크 기반의 분산 컴퓨팅 실행로컬 개발 환경에서 클러스터로의 매끄러운 배포 전환실패한 태스크의 자동 재시도 및 오류 처리 워크플로우데이터 파이프라인의 종단간 모니터링
AI 모델 연동 및 저장
AI 모델 연동 및 저장PyTorch 및 TensorFlow 데이터 로더로 직접 전달Pinecone, Milvus 등 벡터 데이터베이스로 임베딩 싱크구조화된 메타데이터의 분석 보고서 생성 및 공유훈련용 데이터셋 버전 관리 및 아카이빙

핵심 차별점: SQL의 직관성과 분산 컴퓨팅의 성능을 결합하여 비정형 데이터를 테이블처럼 처리하는 멀티모달 최적화 쿼리 엔진

주요 기능AI 요약

  • 이미지·비디오·오디오 멀티모달 데이터 1등 시민 지원
  • Rust 기반 고성능 분산 데이터프레임 연산 엔진
  • S3·GCS·Azure Blob 클라우드 스토리지 직접 연동
  • Apache Iceberg·Delta Lake·Hudi·Paimon 주요 오픈 레이크 포맷 통합
  • Ray 클러스터 및 GPU 가속 기반 인프라 관리
  • df.shuffle() 등 ML 데이터 준비 전용 API 제공

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

  • Ray Data보다 2-7배, Apache Spark보다 4-18배 빠른 AI 워크로드 처리 성능
  • 이미지, 오디오, 비디오, 임베딩 등 멀티모달 데이터를 단일 프레임워크에서 처리
  • Python 네이티브에 Rust 기반으로 JVM 복잡성 없이 개발 가능
  • 로컬과 분산 클러스터 코드가 동일하며 한 줄 수정으로 전환 가능
  • 네이티브 러너가 파이프라인 작업의 명확한 진행 상황 보고 제공
  • 객체 스토어에서 GPU로 데이터를 효율적으로 로드하는 문제 해결

단점

  • Spark 대비 전통적인 테이블 데이터 처리 기능이 덜 완성됨(윈도우 함수 등)
  • Spark에 비해 광범위한 생태계 통합과 레거시 지원 부족
  • 개인/실험용으로 좋으나 기존 관리형 솔루션이 있는 운영 환경 도입을 주저함
  • 기술적 배경이 없는 사용자에게는 직접 설정이 어려울 수 있음

활용 사례AI 요약

  • 파운데이션 모델 학습을 위한 대규모 텍스트·비디오 임베딩 추출
  • 자율주행 시스템을 위한 수백만 장 도로 이미지 데이터 전처리
  • LLM 기반 데이터 파이프라인에서 비정형 데이터 구조화
  • 복잡한 인프라 없이 대용량 AI 데이터셋 실시간 분석

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안