루미날

루미날

Luminal

Hugging Face 모델을 업로드하면 최적화된 GPU 코드로 변환해 서버리스 추론 엔드포인트를 자동 생성하는 ML 컴파일러

무료Web오픈소스
웹사이트 방문하기luminal.com
데이터로봇와(과) 비교하기

소개

루미널(Luminal)은 AI 모델의 추론 성능을 최적화하여 세계 최고 수준의 속도와 처리량을 제공하는 머신러닝 컴파일러입니다. 사용자는 Hugging Face에서 모델과 가중치를 업로드하기만 하면, 루미널이 이를 제로 오버헤드의 최적화된 GPU 코드로 변환해 줍니다. 핵심 기능으로는 서버 관리가 전혀 필요 없는 서버리스 엔드포인트 자동 생성과 사용량 기반의 과금 시스템이 있으며, 이를 통해 GPU 유휴 비용을 획기적으로 절감할 수 있습니다. 특히 머신러닝 엔지니어와 개발자 팀을 대상으로 하며, 복잡한 인프라 설정 없이도 모델을 즉시 배포하고 운영할 수 있도록 지원합니다. 실제 비용 절감액에 따른 가격 책정 방식을 채택하여 사용자의 이익을 우선시하며, 높은 처리량이 필요한 대규모 AI 서비스 환경에서 탁월한 효율성을 발휘합니다.

활용 워크플로우

입력

Hugging Face 모델 ID 및 가중치 파일 (.safetensors)PyTorch 기반 모델 정의 소스 코드대상 하드웨어 사양 (NVIDIA GPU, Apple Metal, ASIC 등)추론 최적화 파라미터 (Batch size, Quantization level)

루미날

모델 그래프의 고정적 중간 표현(Static Graph IR) 하향 변환수백만 개의 논리적 등가 커널 조합 생성을 통한 최적화 탐색(Search-based)하드웨어별 제로 오버헤드 전용 바이너리(AOT) 코드 생성서버리스 인프라 자동 프로비저닝 및 엔드포인트 활성화

출력

최적화된 고성능 GPU 추론 바이너리자동 확장(Auto-scaling) 지원 서버리스 API 엔드포인트성능 분석 보고서 (vLLM/TensorRT 대비 처리량 비교)실시간 GPU 유휴 상태 및 비용 절감 모니터링

커스텀 하드웨어 최적화

NVIDIA 외의 전용 ASIC이나 신규 칩셋을 위한 하드웨어 인식 컴파일 경로

에지 장치(Edge Device) 배포

클라우드가 아닌 온디바이스(Metal 등) 환경에 최적화된 경량화 컴파일

핵심 차별점: 수작업 최적화 없이 수백만 개의 커널 조합을 자동 탐색하여 하드웨어 성능을 80% 이상 끌어올리는 제로 오버헤드 컴파일 기술

주요 기능

  • 14개의 원시 연산(Primitive Ops) 기반 RISC 스타일 컴파일러 아키텍처
  • Flash Attention과 같은 복잡한 최적화를 자동으로 발견하는 검색 엔진
  • 런타임 오버헤드를 완전히 제거한 사전 컴파일(Ahead-Of-Time) 방식
  • Rust 언어로 작성되어 메모리 안전성과 고성능 동시 제공

가격 정보

무료시작 가격: 서버리스 사용량에 따른 과금

무료 Preview 플랜에서 월 5회의 AI 상호작용을 제공한다. 유료 플랜은 Plus(월 $10, 150회)와 Professional(월 $30, 500회)로 구성되어 있으며, 연간 결제 시 약 20% 할인이 적용된다. 대규모 데이터 처리를 위한 엔터프라이즈 플랜은 별도 문의가 필요하다.

가격표 확인하기

활용 사례

  • LLM 추론 비용의 획기적 절감 (유휴 GPU 비용 제거)
  • PyTorch 연구용 모델의 즉각적인 프로덕션 배포
  • NVIDIA 종속성을 탈피한 다양한 가속기(ASIC) 성능 최적화

대상 사용자

머신러닝 엔지니어개발자

연동 서비스

PyTorchHugging FaceCUDA

태그

코드 생성자동화오픈소스API클라우드개발자 도구스타트업

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안