LoRA

AI 개념

약 1분 읽기

거대 모델의 기존 가중치는 고정한 채, 학습 가능한 저랭크(Low-Rank) 행렬만을 추가하여 학습 매개변수와 하드웨어 요구 사양을 획기적으로 줄이는 효율적 파인튜닝(PEFT) 기법입니다.

다른 이름

Low-Rank Adaptation로라

상세 설명

LoRA(Low-Rank Adaptation)는 대규모 언어 모델(LLM)이나 이미지 생성 모델을 특정 목적에 맞게 최적화할 때, 모델 전체를 수정하는 대신 아주 작은 크기의 '어댑터' 행렬만 학습시키는 기술입니다. 기존 가중치는 고정(Freeze)하고, 행렬 분해 원리를 이용한 두 개의 작은 행렬을 삽입하여 학습함으로써 전체 파라미터의 0.1%~1% 미만만 학습하고도 전체 파인튜닝과 대등한 성능을 냅니다. 결과물인 어댑터 파일은 수십 MB 수준으로 가벼워 공유와 관리가 용이하며, 배포 시 기존 모델과 병합하면 추론 지연 시간이 전혀 발생하지 않는 것이 강점입니다.

도구 선택에서 중요한 이유

LoRA는 고사양 서버 없이도 개인 PC(소비자급 GPU)에서 대형 모델을 맞춤형으로 학습할 수 있게 한 'AI 민주화'의 핵심 기술입니다. 단일 베이스 모델에 여러 개의 LoRA 어댑터를 번갈아 끼워가며 다양한 작업(번역, 요약, 특정 스타일 모방 등)을 수행할 수 있어 운영 비용 효율성이 매우 높습니다.

선택 및 설정 시 확인할 점

Rank(r) 설정: 값이 클수록 성능은 좋아지나 메모리 사용량이 늘어납니다. 보통 8~64 사이가 권장됩니다.
Target Modules: 주로 Attention 레이어에 적용하지만, 최근 연구는 MLP 레이어까지 포함할 때 성능이 더 좋음을 보여줍니다.
Alpha(α) 값: 학습 안정성을 위한 스케일링 인자로, 대개 r값의 2배(r*2)로 설정하는 것이 표준입니다.
병합(Merging) 가능성: 실시간 추론 시 성능 저하를 막으려면 학습 완료 후 베이스 모델과 가중치를 병합할 수 있는지 확인하세요.

활용 예시

Llama-3 모델을 기반으로 특정 기업의 내부 문서 스타일을 학습시킨 '상담 전문 LoRA'를 만들거나, Stable Diffusion 모델에 특정 화풍이나 캐릭터를 학습시킨 LoRA 파일을 공유 사이트(Civitai 등)에서 내려받아 사용하는 것이 대표적입니다.

변형 기법 비교

QLoRA

LoRA에 4비트 양자화를 결합하여 메모리 사용량을 더욱 극단적으로 줄인 기법입니다.

DoRA

가중치를 크기(Magnitude)와 방향(Direction)으로 분해하여 학습 성능을 전체 파인튜닝에 더 가깝게 개선한 최신 기법입니다.

참고 링크

전체 용어 목록