메인 콘텐츠로 건너뛰기

이벤추얼

Eventual

이미지·비디오 등 비정형 AI 데이터를 페타바이트 규모로 처리하는 오픈소스 분산 데이터프레임 라이브러리

부분 무료WebAPI오픈소스멀티모달

웹사이트 방문하기daft.ai

검증된 사실

최신 버전: v0.7.152026-05-15
GitHub: ★ 5,497
최근 변경: 2026-06-05 대규모 멀티 테라바이트 데이터 처리를 위해 Arrow Flight와 로컬 디스크를 활용한 새로운 분산 셔플(Flight Shuffle) 아키텍처를 도입했습니다. 소스: https://www.daf

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

이벤추얼 제품 화면

2026-06-15 확인

가격 정보

부분 무료시작 가격: Open source (free)

오픈소스(GitHub)로 무료 사용 가능합니다. 인프라 관리가 필요 없는 서버리스 플랫폼 옵션도 제공하며, 엔터프라이즈 지원은 별도 문의가 필요합니다.

가격표 확인하기

최근 업데이트와 소식

투자2025-06-15
Eventual, 3,000만 달러 유치 및 Eventual Cloud 공개
멀티모달 데이터 엔진 Daft를 만든 Eventual이 총 3,000만 달러를 유치했습니다. Felicis의 Astasia Myers 주도 2,000만 달러 시리즈 A와 M12·Citi 참여, CRV 주도 700만 달러 시드로 구성됩니다. 오픈소스 Daft 기반 첫 프로덕션급 멀티모달 AI 플랫폼 Eventual Cloud 대기자 명단도 열었습니다.
근거: [APPROX_DATE] 2025년 6월 Eventual이 Felicis 주도 시리즈 A 포함 총 3,000만 달러를 유치하고 Eventual Cloud를 공개했습니다.

소개AI 요약

Eventual은 페타바이트 규모의 비정형 데이터(이미지, 비디오, 오디오, 텍스트)를 효율적으로 처리하기 위한 오픈소스 분산 데이터프레임 라이브러리 'Daft'를 개발하는 플랫폼입니다. AI 모델 학습과 추론에 필요한 멀티모달 데이터 파이프라인 구축에 최적화되어 있으며, Rust 기반 고성능 코어로 대용량 처리 속도를 극대화합니다. 클라우드 스토리지와 직접 연동해 데이터 이동 없이 원격 처리가 가능합니다.

활용 워크플로우

멀티모달 데이터 인입

멀티모달 데이터 인입AWS S3/GCS/Azure 기반 대규모 비정형 데이터 연결Apache Iceberg 및 Delta Lake 테이블 통합다양한 포맷(Parquet, JSON, 이미지, 비디오) 통합 스캐닝Daft Dataframe을 활용한 스키마 정의 및 로드

분산 변환 및 GPU 전처리

분산 변환 및 GPU 전처리Python UDF를 활용한 이미지 리사이징 및 비디오 디코딩Hugging Face 모델 연동을 통한 실시간 임베딩 추출GPU 클러스터 기반의 고속 병렬 데이터 변환메모리 효율적인 스트리밍 셔플링 연산

오케스트레이션 및 실행

오케스트레이션 및 실행Ray 프레임워크 기반의 분산 컴퓨팅 실행로컬 개발 환경에서 클러스터로의 매끄러운 배포 전환실패한 태스크의 자동 재시도 및 오류 처리 워크플로우데이터 파이프라인의 종단간 모니터링

AI 모델 연동 및 저장

AI 모델 연동 및 저장PyTorch 및 TensorFlow 데이터 로더로 직접 전달Pinecone, Milvus 등 벡터 데이터베이스로 임베딩 싱크구조화된 메타데이터의 분석 보고서 생성 및 공유훈련용 데이터셋 버전 관리 및 아카이빙

핵심 차별점: SQL의 직관성과 분산 컴퓨팅의 성능을 결합하여 비정형 데이터를 테이블처럼 처리하는 멀티모달 최적화 쿼리 엔진

주요 기능AI 요약

이미지·비디오·오디오 멀티모달 데이터 1등 시민 지원
Rust 기반 고성능 분산 데이터프레임 연산 엔진
S3·GCS·Azure Blob 클라우드 스토리지 직접 연동
Apache Iceberg·Delta Lake·Hudi·Paimon 주요 오픈 레이크 포맷 통합
Ray 클러스터 및 GPU 가속 기반 인프라 관리
df.shuffle() 등 ML 데이터 준비 전용 API 제공

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

Ray Data보다 2-7배, Apache Spark보다 4-18배 빠른 AI 워크로드 처리 성능
이미지, 오디오, 비디오, 임베딩 등 멀티모달 데이터를 단일 프레임워크에서 처리
Python 네이티브에 Rust 기반으로 JVM 복잡성 없이 개발 가능
로컬과 분산 클러스터 코드가 동일하며 한 줄 수정으로 전환 가능
네이티브 러너가 파이프라인 작업의 명확한 진행 상황 보고 제공
객체 스토어에서 GPU로 데이터를 효율적으로 로드하는 문제 해결

단점

Spark 대비 전통적인 테이블 데이터 처리 기능이 덜 완성됨(윈도우 함수 등)
Spark에 비해 광범위한 생태계 통합과 레거시 지원 부족
개인/실험용으로 좋으나 기존 관리형 솔루션이 있는 운영 환경 도입을 주저함
기술적 배경이 없는 사용자에게는 직접 설정이 어려울 수 있음

활용 사례AI 요약

파운데이션 모델 학습을 위한 대규모 텍스트·비디오 임베딩 추출
자율주행 시스템을 위한 수백만 장 도로 이미지 데이터 전처리
LLM 기반 데이터 파이프라인에서 비정형 데이터 구조화
복잡한 인프라 없이 대용량 AI 데이터셋 실시간 분석

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안

팔란티르

방대한 데이터를 통합해 기업과 정부의 실질적인 의사결정을 지원하는 AI 운영 플랫폼

★ 299무료 플랜API

던 앤 브래드스트리트

전 세계 6억 개 이상의 기업 정보를 D-U-N-S 번호로 식별해 신용·공급망 리스크를 점검하는 B2B 데이터 플랫폼입니다. ChatD&B 같은 생성형 AI와 ChatGPT·Copilot·Claude 연동으로 데이터를 자연어와 워크플로에서 바로 끌어 씁니다.

데이터스트림즈

개인정보 규정을 준수하며 복잡한 데이터 수집과 전송 과정을 로우코드로 통합 관리하는 오케스트레이션 플랫폼

비즈니스 인텔리전스

타블로 AI

자연어 질문으로 복잡한 시각화 대시보드를 생성하고 비즈니스 핵심 지표의 변화를 실시간으로 탐지하는 지능형 분석 도구

데이터브릭스

데이터 레이크와 웨어하우스를 통합해 기업용 AI 모델 개발부터 데이터 분석까지 원스톱으로 지원하는 플랫폼

★ 67무료 플랜API

세코다

데이터 카탈로그·계보·거버넌스를 AI로 통합 관리하며 자연어 질문으로 전사 데이터를 탐색하는 플랫폼 (Atlassian 인수)

비즈니스 인텔리전스