청킹

데이터
1분 읽기

긴 문서를 검색·임베딩에 적합한 작은 조각으로 나누는 작업으로, RAG 품질의 토대가 됩니다.

다른 이름
Chunking문서 분할텍스트 분할

상세 설명

청킹(Chunking)은 긴 문서를 검색과 임베딩에 적합한 작은 조각(chunk)으로 나누는 작업입니다. RAG 시스템은 문서를 통째로가 아니라 조각 단위로 임베딩해 저장하고 검색하므로, 조각을 어떻게 나누느냐가 검색 정확도와 답변 품질을 크게 좌우합니다. 너무 크면 한 조각에 여러 주제가 섞여 검색이 부정확해지고, 너무 작으면 맥락이 끊깁니다. 문단·문장 단위 분할, 일정 토큰 길이 분할, 조각을 겹치게 나누는 오버랩, 문서 구조(제목·표)를 살리는 분할 등 다양한 전략이 있으며, 데이터 성격에 맞는 방식을 고르는 것이 핵심입니다.

도구 선택에서 중요한 이유

RAG·문서 검색 도구의 답변 품질은 청킹 전략에서 갈리는 경우가 많습니다. 분할이 거칠면 관련 없는 내용이 섞여 검색이 흐려지고, 표나 제목 구조를 무시하면 맥락이 끊깁니다. 도구가 청킹 방식과 조각 크기·오버랩을 조절할 수 있는지, 표·코드 같은 구조를 보존하는지가 검색 정확도를 좌우합니다.

도구를 고를 때 확인할 점

  • 조각 크기와 겹침(오버랩)을 조절할 수 있는가
  • 문단·제목·표 등 문서 구조를 보존하는 분할을 지원하는가
  • 한국어 문장 경계를 정확히 인식해 분할하는가
  • 분할 결과를 미리 확인·디버깅할 수 있는가

실제 적용 예시

제품 매뉴얼로 RAG 챗봇을 만들 때, 매뉴얼을 무작정 1000자 단위로 자르면 한 절차가 두 조각으로 쪼개져 검색이 부정확해집니다. 제목·단계 구조를 살려 분할하고 약간씩 겹치게 하면, 한 조각 안에 절차가 온전히 담겨 답변 정확도가 올라갑니다.

관련 용어

RAG임베딩벡터 데이터베이스컨텍스트 윈도우