엘엠디플로이
LMDeploy
대규모 언어 모델의 압축, 추론, 서비스를 지원하는 효율적인 오픈소스 툴킷
검증된 사실
- 최신 버전
- 0.13.02026-05-12
- GitHub
- ★ 7,895
- 최근 변경
- 2026-05-12 v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원. 소스: https://github.com/InternLM/lmdeploy/release
2026-06-20 직접 확인 · 자동 검증 데이터
제품 화면

2026-06-20 확인
가격 정보
InternLM 팀에서 제공하는 오픈 소스 도구로, 상업적 이용을 포함하여 무료로 사용할 수 있습니다. 별도의 유료 플랜은 없으며, GitHub에서 소스 코드를 내려받아 직접 배포 환경을 구축하여 사용합니다.
최근 업데이트와 소식
- 버전 업데이트2026-02 Qwen3.5 및 vllm-project/llm-compressor 4비트 대칭·비대칭 양자화 지원 추가.
2026-02 Qwen3.5 및 vllm-project/llm-compressor 4비트 대칭·비대칭 양자화 지원 추가.
- 소식2026-04 PyPI 스토리지 쿼터 확장 후 v0.12.3 wheel 업로드 재개.
2026-04 PyPI 스토리지 쿼터 확장 후 v0.12.3 wheel 업로드 재개.
- 소식v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원.
v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원.
소개AI 요약
활용 워크플로우
입력
엘엠디플로이
출력
고성능 서빙 (TurboMind)
C++ 기반 커스텀 커널을 사용하여 대규모 동시 접속 환경에서 vLLM 대비 최대 1.8배 높은 처리량 구현
멀티모달 최적화 (VLM)
InternVL2, Qwen3-VL 등 최신 비전-언어 모델을 위한 전용 파이프라인 및 GPU 메모리 밸런싱 서빙
유연한 엔진 (PyTorch Engine)
Python 기반 엔진으로 새로운 모델 구조를 빠르게 실험하며 Ascend 등 다양한 가속 장치 지원
핵심 차별점: TurboMind 엔진의 고성능 커널과 Paged Attention 기술을 결합하여, 리소스가 제한된 환경에서도 대규모 MoE 및 VLM 모델에 대해 업계 최정상급의 초당 토큰 처리량(Throughput)을 제공합니다.
주요 기능AI 요약
활용 사례AI 요약
- 엔터프라이즈급 고성능 LLM·VLM API 서버 구축
- 저지연 실시간 멀티모달 챗봇 서비스 운영
- DeepSeek R1 등 대형 MoE 모델의 효율적 GPU 분산 서빙
- 엣지·로컬 환경을 위한 모델 양자화 및 경량화
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안
라가스
Exploding Gradients
RAG 파이프라인과 LLM 앱의 품질을 충실도·관련성·정밀도 지표로 자동 평가하는 오픈소스 프레임워크
딥이밸
Confident AI
Pytest 스타일로 LLM 출력을 50개 이상 지표로 검증하고 프로덕션까지 모니터링하는 오픈소스 테스트 프레임워크
에이치투오 에이아이
AutoML과 생성형 AI를 결합해 기업 맞춤형 AI 모델을 빠르게 구축·배포하는 엔터프라이즈 AI 플랫폼
벤토ML
머신러닝 모델을 고성능 예측 서비스로 변환하고 관리하는 오픈 소스 MLOps 플랫폼
어라이즈 AI
ML 모델과 LLM 성능 모니터링, 문제 해결 및 에이전트 트레이싱을 위한 AI 관측성 플랫폼
오픈LL메트리
Traceloop
OpenTelemetry 기반 LLM 애플리케이션 트레이싱 및 모니터링 오픈소스 프레임워크