사전 학습
용어 이름 복사
AI 개념약 1분 읽기
대규모 데이터로 모델에 언어·지식의 기초 능력을 먼저 학습시키는, 파인튜닝에 앞선 첫 단계입니다.
다른 이름
Pre-training사전학습
상세 설명
사전 학습(Pre-training)은 대규모 비지도 데이터(인터넷 텍스트 등)로 모델에 언어의 구조, 사실 지식, 기초 추론 능력을 먼저 익히게 하는 과정입니다. 이 단계에서 모델은 특정 작업에 매이지 않은 범용 이해·생성 능력을 얻고, 이후 파인튜닝으로 특정 용도에 맞게 조정됩니다. 수십억 개 파라미터와 방대한 데이터, 수천 개 GPU로 수주에서 수개월이 드는 비용이 큰 단계여서, 대부분의 서비스는 이미 사전 학습된 기반 모델(파운데이션 모델)을 가져와 활용합니다. AI 도구의 성격은 어떤 기반 모델을 사전 학습 토대로 삼았는지에 크게 좌우됩니다.
도구 선택에서 중요한 이유
AI 도구의 기본 성향과 지식 범위는 토대가 된 사전 학습 모델에서 나옵니다. 어떤 기반 모델을 쓰는지, 그 모델의 학습 데이터 시점(지식 컷오프)이 언제인지를 알면, 최신 정보 반영이나 특정 언어 품질을 예측할 수 있습니다. 직접 사전 학습할 일은 드물지만, 기반 모델 선택은 사실상 사전 학습 결과를 고르는 일입니다.
도구를 고를 때 확인할 점
- 어떤 기반 모델(파운데이션 모델)을 토대로 하는가
- 모델의 지식 컷오프 시점이 용도에 충분히 최신인가
- 한국어 등 필요 언어가 사전 학습에 충분히 포함됐는가
- 최신 정보가 필요하면 검색 증강(RAG)으로 보완하는가
실제 적용 예시
같은 인터페이스의 챗봇이라도 토대가 된 기반 모델에 따라 한국어 표현의 자연스러움이나 최신 사건 인지가 다릅니다. 작년까지만 학습된 모델은 올해 발표된 제품을 모를 수 있어, 최신성이 중요한 업무에는 검색을 결합한 도구를 고르는 편이 안전합니다.
관련 용어
파인튜닝
사전 학습된 인공지능 모델에 특정 데이터셋을 추가 학습시켜 특정 작업이나 도메인에 맞게 최적화하는 과정입니다. 범용 모델의 일반 지식을 유지하면서 특정 목적에 필요한 전문성이나 응답 스타일을 정교하게 조정할 때 사용...
LLM수십억 개 이상의 매개변수를 통해 방대한 데이터를 학습한 인공지능 모델입니다. 자연어 이해와 생성뿐만 아니라 복잡한 추론, 요약, 코드 작성 등 다양한 지적 작업을 수행하며 현대 생성형 AI 서비스의 핵심 엔진 역할...
전이 학습특정 작업(Source Task)에서 학습된 모델의 지식을 유사하거나 새로운 작업(Target Task)에 재사용하는 기법입니다. 데이터가 부족한 환경에서도 고성능 모델을 빠르게 구축할 수 있게 해주는 현대 AI 개...
파라미터AI 모델이 학습을 통해 저장하는 내부 변수(가중치·편향)입니다. 수치가 클수록 복잡한 패턴을 학습할 수 있지만 연산·메모리 비용도 함께 증가합니다.