LMDeploy란 무엇인가요?

LMDeploy는 대규모 언어 모델의 압축, 추론, 서비스를 지원하는 효율적인 오픈소스 툴킷.

LMDeploy는 어떤 상황에서 사용하나요?

LMDeploy는 엔터프라이즈급 고성능 LLM·VLM API 서버 구축, 저지연 실시간 멀티모달 챗봇 서비스 운영, DeepSeek R1 등 대형 MoE 모델의 효율적 GPU 분산 서빙 등의 상황에서 활용할 수 있습니다.

LMDeploy의 주요 기능은 무엇인가요?

LMDeploy의 핵심 기능으로는 TurboMind & PyTorch 듀얼 추론 엔진으로 최고 성능 제공, AWQ, FP8, MXFP4 양자화 및 KV 캐시 압축 지원, Persistent Batching & Paged Attention 최적화 등이 있습니다.

엘엠디플로이

LMDeploy

대규모 언어 모델의 압축, 추론, 서비스를 지원하는 효율적인 오픈소스 툴킷

무료LinuxAPICLI오픈소스한국어LLM 기반멀티모달

웹사이트 방문하기github.com

검증된 사실

최신 버전: 0.13.02026-05-12
GitHub: ★ 7,895
최근 변경: 2026-05-12 v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원. 소스: https://github.com/InternLM/lmdeploy/release

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

2026-06-20 확인

가격 정보

무료시작 가격: Free (open source)

InternLM 팀에서 제공하는 오픈 소스 도구로, 상업적 이용을 포함하여 무료로 사용할 수 있습니다. 별도의 유료 플랜은 없으며, GitHub에서 소스 코드를 내려받아 직접 배포 환경을 구축하여 사용합니다.

가격표 확인하기

최근 업데이트와 소식

버전 업데이트2026-05-12
2026-02 Qwen3.5 및 vllm-project/llm-compressor 4비트 대칭·비대칭 양자화 지원 추가.
2026-02 Qwen3.5 및 vllm-project/llm-compressor 4비트 대칭·비대칭 양자화 지원 추가.
소식2026-05-12
2026-04 PyPI 스토리지 쿼터 확장 후 v0.12.3 wheel 업로드 재개.
2026-04 PyPI 스토리지 쿼터 확장 후 v0.12.3 wheel 업로드 재개.
소식2026-05-12
v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원.
v0.13.0 릴리스 — CUDA 12.8 기본 빌드, GeForce RTX 50 시리즈 pip 설치 지원.

소개AI 요약

LMDeploy는 LLM 및 VLM 모델의 압축, 배포, 서빙을 위한 오픈소스 고성능 툴킷입니다. TurboMind 엔진 기반의 AWQ·FP8·MXFP4 양자화와 DeepSeek V3·R1 같은 대형 MoE 모델의 효율적인 분산 추론을 지원합니다. 2026년 5월 v0.13.0 릴리스를 통해 CUDA 12.8 기본 지원 및 GeForce RTX 50 시리즈 호환성을 추가하였습니다.

활용 워크플로우

입력

HuggingFace / ModelScope 모델 체크포인트사용자 정의 Chat Template 및 시스템 프롬프트멀티모달 입력 (이미지, 비디오, 텍스트 데이터)llm-compressor 양자화 설정 및 가중치 파일

엘엠디플로이

AWQ/FP8/MXFP4 기법을 활용한 모델 가중치 및 KV 캐시 양자화TurboMind/PyTorch 엔진용 모델 레이아웃 최적화 및 변환Persistent Batching(지속적 배칭) 및 Paged Attention 스케줄링Tensor/Pipeline Parallelism을 통한 멀티 GPU 분산 추론 제어

출력

OpenAI 호환 RESTful API 서빙 엔드포인트양자화가 완료된 경량화 모델 가중치 파일Gradio 기반 대화형 웹 UI 서비스실시간 추론 메트릭 로그 (Throughput, Latency, VRAM)

고성능 서빙 (TurboMind)

C++ 기반 커스텀 커널을 사용하여 대규모 동시 접속 환경에서 vLLM 대비 최대 1.8배 높은 처리량 구현

멀티모달 최적화 (VLM)

InternVL2, Qwen3-VL 등 최신 비전-언어 모델을 위한 전용 파이프라인 및 GPU 메모리 밸런싱 서빙

유연한 엔진 (PyTorch Engine)

Python 기반 엔진으로 새로운 모델 구조를 빠르게 실험하며 Ascend 등 다양한 가속 장치 지원

핵심 차별점: TurboMind 엔진의 고성능 커널과 Paged Attention 기술을 결합하여, 리소스가 제한된 환경에서도 대규모 MoE 및 VLM 모델에 대해 업계 최정상급의 초당 토큰 처리량(Throughput)을 제공합니다.