사전 학습

AI 개념
1분 읽기

대규모 데이터로 모델에 언어·지식의 기초 능력을 먼저 학습시키는, 파인튜닝에 앞선 첫 단계입니다.

다른 이름
Pre-training사전학습

상세 설명

사전 학습(Pre-training)은 대규모 비지도 데이터(인터넷 텍스트 등)로 모델에 언어의 구조, 사실 지식, 기초 추론 능력을 먼저 익히게 하는 과정입니다. 이 단계에서 모델은 특정 작업에 매이지 않은 범용 이해·생성 능력을 얻고, 이후 파인튜닝으로 특정 용도에 맞게 조정됩니다. 수십억 개 파라미터와 방대한 데이터, 수천 개 GPU로 수주에서 수개월이 드는 비용이 큰 단계여서, 대부분의 서비스는 이미 사전 학습된 기반 모델(파운데이션 모델)을 가져와 활용합니다. AI 도구의 성격은 어떤 기반 모델을 사전 학습 토대로 삼았는지에 크게 좌우됩니다.

도구 선택에서 중요한 이유

AI 도구의 기본 성향과 지식 범위는 토대가 된 사전 학습 모델에서 나옵니다. 어떤 기반 모델을 쓰는지, 그 모델의 학습 데이터 시점(지식 컷오프)이 언제인지를 알면, 최신 정보 반영이나 특정 언어 품질을 예측할 수 있습니다. 직접 사전 학습할 일은 드물지만, 기반 모델 선택은 사실상 사전 학습 결과를 고르는 일입니다.

도구를 고를 때 확인할 점

  • 어떤 기반 모델(파운데이션 모델)을 토대로 하는가
  • 모델의 지식 컷오프 시점이 용도에 충분히 최신인가
  • 한국어 등 필요 언어가 사전 학습에 충분히 포함됐는가
  • 최신 정보가 필요하면 검색 증강(RAG)으로 보완하는가

실제 적용 예시

같은 인터페이스의 챗봇이라도 토대가 된 기반 모델에 따라 한국어 표현의 자연스러움이나 최신 사건 인지가 다릅니다. 작년까지만 학습된 모델은 올해 발표된 제품을 모를 수 있어, 최신성이 중요한 업무에는 검색을 결합한 도구를 고르는 편이 안전합니다.

관련 용어

파인튜닝LLM전이 학습파라미터