SLM (소형 언어 모델)

기술 용어

약 1분 읽기

수십억 단위의 매개변수를 보유하여 저사양 하드웨어에서도 고성능을 내는 효율적인 모델로, 온디바이스 AI와 특정 작업 특화에 최적화되어 있습니다.

다른 이름

Small Language Model경량 언어 모델소규모 언어 모델

상세 설명

SLM은 매개변수(Parameter) 수를 수억에서 수백억(통상 1B~10B, 넓게는 30B 이하) 규모로 최적화하여 연산 효율을 높이는 데 도움을 주는 방식한 인공지능 모델입니다. 거대 언어 모델(LLM)과 달리 스마트폰, 노트북 등 개별 기기(On-device)에서 클라우드 연결 없이 독립적으로 구동 가능하며, 매우 짧은 지연 시간(Latency)과 낮은 운영 비용을 제공합니다. 최신 SLM은 고품질의 선별된 데이터 학습이나 거대 모델로부터의 지식 증류(Knowledge Distillation) 기법을 통해 구축되어, 특정 비즈니스 로직이나 전문 도메인 작업에서 LLM에 준하는 성능을 발휘합니다. 데이터가 외부로 전송되지 않아 보안성이 탁월하며, 프라이버시가 중요한 금융·의료 현장이나 오프라인 환경의 AI 에이전트 시스템 구축에 핵심적인 역할을 합니다.

도구 선택에서 중요한 이유

SLM은 무거운 인프라 없이도 AI 기능을 상용화할 수 있게 합니다. 특히 API 호출 비용을 획기적으로 줄이고 싶은 기업이나, 개인정보 보호를 위해 온프레미스(On-premise) 또는 로컬 환경에서 AI를 구동해야 하는 경우 LLM보다 훨씬 합리적인 선택지입니다.

확인할 점

양자화(Quantization) 지원 여부: 모델을 4비트 등으로 압축했을 때 모바일 기기 메모리에 적재 가능한지 확인
추론 속도(Tokens per second): 실제 하드웨어 환경(CPU/NPU)에서 목표하는 응답 속도가 나오는지 측정
미세 조정(Fine-tuning) 효율성: 적은 양의 도메인 데이터로도 특정 작업 성능이 충분히 개선되는지 검증

대표적인 SLM

Microsoft의 Phi-3-mini(3.8B), Google의 Gemma 2B/7B, Meta의 Llama 3.2 (1B/3B), Mistral의 Ministral 3B/8B 등이 대표적입니다. 이 모델들은 iPhone이나 일반 노트북 GPU에서도 원활하게 작동합니다.

참고 링크

전체 용어 목록