엘엠디플로이

엘엠디플로이

LMDeploy

대규모 언어 모델의 압축, 추론, 서비스를 지원하는 효율적인 오픈소스 툴킷

무료LinuxAPICLI오픈소스한국어LLM 기반멀티모달
웹사이트 방문하기github.com
웨이츠 앤 바이어스와(과) 비교하기

소개

LMDeploy는 LLM 및 VLM 모델의 압축, 배포, 서빙을 위한 오픈소스 고성능 툴킷입니다. 최신 업데이트를 통해 FP8 및 MXFP4 양자화를 지원하며, DeepSeek V3/R1과 같은 대형 MoE 모델의 효율적인 분산 추론과 PD Disaggregation(Mooncake) 배포를 완벽히 지원합니다.

활용 워크플로우

입력

HuggingFace / ModelScope 모델 체크포인트사용자 정의 Chat Template 및 시스템 프롬프트멀티모달 입력 (이미지, 비디오, 텍스트 데이터)llm-compressor 양자화 설정 및 가중치 파일

엘엠디플로이

AWQ/FP8/MXFP4 기법을 활용한 모델 가중치 및 KV 캐시 양자화TurboMind/PyTorch 엔진용 모델 레이아웃 최적화 및 변환Persistent Batching(지속적 배칭) 및 Paged Attention 스케줄링Tensor/Pipeline Parallelism을 통한 멀티 GPU 분산 추론 제어

출력

OpenAI 호환 RESTful API 서빙 엔드포인트양자화가 완료된 경량화 모델 가중치 파일Gradio 기반 대화형 웹 UI 서비스실시간 추론 메트릭 로그 (Throughput, Latency, VRAM)

고성능 서빙 (TurboMind)

C++ 기반 커스텀 커널을 사용하여 대규모 동시 접속 환경에서 vLLM 대비 최대 1.8배 높은 처리량 구현

멀티모달 최적화 (VLM)

InternVL2, Qwen3-VL 등 최신 비전-언어 모델을 위한 전용 파이프라인 및 GPU 메모리 밸런싱 서빙

유연한 엔진 (PyTorch Engine)

Python 기반 엔진으로 새로운 모델 구조를 빠르게 실험하며 Ascend 등 다양한 가속 장치 지원

핵심 차별점: TurboMind 엔진의 고성능 커널과 Paged Attention 기술을 결합하여, 리소스가 제한된 환경에서도 대규모 MoE 및 VLM 모델에 대해 업계 최정상급의 초당 토큰 처리량(Throughput)을 제공합니다.

주요 기능

  • TurboMind & PyTorch 듀얼 추론 엔진
  • AWQ, FP8, MXFP4 양자화 및 KV 캐시 압축
  • Persistent Batching & Paged Attention 최적화
  • Vision-Language Model(VLM) 오프라인/온라인 서빙
  • DeepSeek PD Disaggregation 및 분산 배포 지원
  • Speculative Decoding 및 구조화된 출력(JSON Mode)
  • NVIDIA, AMD, Ascend 등 멀티 가속기 지원

가격 정보

무료

InternLM 팀에서 제공하는 오픈 소스 도구로, 상업적 이용을 포함하여 무료로 사용할 수 있습니다. 별도의 유료 플랜은 없으며, GitHub에서 소스 코드를 내려받아 직접 배포 환경을 구축하여 사용합니다.

가격표 확인하기

활용 사례

  • 엔터프라이즈급 고성능 LLM/VLM API 서버 구축
  • 저지연 실시간 멀티모달 챗봇 서비스
  • DeepSeek R1 등 대형 MoE 모델의 효율적 GPU 분산 서빙
  • Edge/Local 환경을 위한 모델 양자화 및 경량화

대상 사용자

AI 엔지니어MLOps 전문가백엔드 개발자

연동 서비스

DockerKubernetesGradioFastAPI

태그

LLM 추론모델 배포양자화MLOps오픈소스

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안