루미날

루미날

Luminal

Hugging Face 모델을 업로드하면 최적화된 GPU 코드로 변환해 서버리스 추론 엔드포인트를 자동 생성하는 ML 컴파일러

무료LinuxmacOSCloud오픈소스멀티모달
웹사이트 방문하기luminal.com

검증된 사실

최신 버전
0.2
GitHub
★ 2,767
최근 변경
2026-05-30 Llama 3 8B 모델 지원 및 H100 GPU 성능을 최대 80%까지 활용할 수 있는 최적화 업데이트가 깃허브를 통해 공개되었습니다. 소스: https://github.com/luminal-a

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

루미날 제품 화면

2026-06-15 확인

가격 정보

무료시작 가격: 서버리스 사용량에 따른 과금

무료 Preview 플랜에서 월 5회의 AI 상호작용을 제공한다. 유료 플랜은 Plus(월 $10, 150회)와 Professional(월 $30, 500회)로 구성되어 있으며, 연간 결제 시 약 20% 할인이 적용된다. 대규모 데이터 처리를 위한 엔터프라이즈 플랜은 별도 문의가 필요하다.

가격표 확인하기

최근 업데이트와 소식

  • 투자
    Luminal, 530만 달러 시드 유치 — ML 컴파일러

    GPU 코드 최적화 스타트업 Luminal이 530만 달러 시드 라운드를 유치했습니다. Felicis Ventures가 주도하고 Paul Graham, Guillermo Rauch, Ben Porterfield 등 엔젤이 참여했습니다. PyTorch 모델 최적화·배포를 자동화하는 ML 컴파일러와 서버리스 클라우드를 제공합니다.

    근거: 2025년 11월 17일 Luminal이 Felicis Ventures 주도, Paul Graham·Guillermo Rauch 참여로 530만 달러 시드를 유치했습니다.

소개AI 요약

루미널(Luminal)은 AI 모델의 추론 속도와 처리량을 끌어올리는 데 초점을 맞춘 머신러닝 컴파일러입니다. 사용자가 Hugging Face에서 모델과 가중치를 업로드하면, 루미널이 이를 런타임 오버헤드가 없는 GPU 코드로 컴파일해 줍니다. 영문 소개에 따르면 이런 방식으로 추론 성능을 최대 10배까지 끌어올린다고 합니다. 핵심 기능은 서버를 직접 관리할 필요가 없는 서버리스 엔드포인트 자동 생성과 사용량 기반 과금이며, 실제 사용한 만큼만 비용을 내기 때문에 GPU가 놀고 있을 때 발생하는 유휴 비용을 줄일 수 있습니다. 머신러닝 엔지니어와 개발 팀을 주 대상으로 삼아, 복잡한 인프라 설정 없이도 모델을 바로 배포하고 운영하도록 돕습니다. 가격은 팀이 절감한 비용에 맞춰 책정되며, 높은 처리량이 필요한 대규모 추론 서비스에서 인프라 관리 부담을 덜어 주는 쪽에 무게를 둡니다.

활용 워크플로우

입력

Hugging Face 모델 ID 및 가중치 파일 (.safetensors)PyTorch 기반 모델 정의 소스 코드대상 하드웨어 사양 (NVIDIA GPU, Apple Metal, ASIC 등)추론 최적화 파라미터 (Batch size, Quantization level)

루미날

모델 그래프의 고정적 중간 표현(Static Graph IR) 하향 변환수백만 개의 논리적 등가 커널 조합 생성을 통한 최적화 탐색(Search-based)하드웨어별 제로 오버헤드 전용 바이너리(AOT) 코드 생성서버리스 인프라 자동 프로비저닝 및 엔드포인트 활성화

출력

최적화된 고성능 GPU 추론 바이너리자동 확장(Auto-scaling) 지원 서버리스 API 엔드포인트성능 분석 보고서 (vLLM/TensorRT 대비 처리량 비교)실시간 GPU 유휴 상태 및 비용 절감 모니터링

커스텀 하드웨어 최적화

NVIDIA 외의 전용 ASIC이나 신규 칩셋을 위한 하드웨어 인식 컴파일 경로

에지 장치(Edge Device) 배포

클라우드가 아닌 온디바이스(Metal 등) 환경에 최적화된 경량화 컴파일

핵심 차별점: 수작업 최적화 없이 수백만 개의 커널 조합을 자동 탐색하여 하드웨어 성능을 80% 이상 끌어올리는 제로 오버헤드 컴파일 기술

주요 기능AI 요약

  • PyTorch 모델 → 최적화된 CUDA 커널 자동 컴파일
  • GPU 활용률 80% 이상으로 끌어올리는 융합·타일링·메모리 계획 패스
  • Flash Attention 등 복잡한 최적화를 코드 없이 자동 발견
  • CUDA·Metal 등 다양한 하드웨어 가속기 지원
  • 콜드 스타트 없는 서버리스 추론 엔드포인트
  • Rust 기반으로 메모리 안전성과 고성능 동시 보장

활용 사례AI 요약

  • LLM 추론 인프라 비용 절감(유휴 GPU 제거)
  • 연구용 PyTorch 모델의 즉시 프로덕션 배포
  • NVIDIA 외 다양한 가속기에서 성능 최적화
  • 기존 컴파일 파이프라인 없이 Hugging Face 모델 서빙
  • ML 인프라 팀 없이 고성능 추론 엔드포인트 구축

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안