청킹
용어 이름 복사
데이터약 1분 읽기
긴 문서를 검색·임베딩에 적합한 작은 조각으로 나누는 작업으로, RAG 품질의 토대가 됩니다.
다른 이름
Chunking문서 분할텍스트 분할
상세 설명
청킹(Chunking)은 긴 문서를 검색과 임베딩에 적합한 작은 조각(chunk)으로 나누는 작업입니다. RAG 시스템은 문서를 통째로가 아니라 조각 단위로 임베딩해 저장하고 검색하므로, 조각을 어떻게 나누느냐가 검색 정확도와 답변 품질을 크게 좌우합니다. 너무 크면 한 조각에 여러 주제가 섞여 검색이 부정확해지고, 너무 작으면 맥락이 끊깁니다. 문단·문장 단위 분할, 일정 토큰 길이 분할, 조각을 겹치게 나누는 오버랩, 문서 구조(제목·표)를 살리는 분할 등 다양한 전략이 있으며, 데이터 성격에 맞는 방식을 고르는 것이 핵심입니다.
도구 선택에서 중요한 이유
RAG·문서 검색 도구의 답변 품질은 청킹 전략에서 갈리는 경우가 많습니다. 분할이 거칠면 관련 없는 내용이 섞여 검색이 흐려지고, 표나 제목 구조를 무시하면 맥락이 끊깁니다. 도구가 청킹 방식과 조각 크기·오버랩을 조절할 수 있는지, 표·코드 같은 구조를 보존하는지가 검색 정확도를 좌우합니다.
도구를 고를 때 확인할 점
- 조각 크기와 겹침(오버랩)을 조절할 수 있는가
- 문단·제목·표 등 문서 구조를 보존하는 분할을 지원하는가
- 한국어 문장 경계를 정확히 인식해 분할하는가
- 분할 결과를 미리 확인·디버깅할 수 있는가
실제 적용 예시
제품 매뉴얼로 RAG 챗봇을 만들 때, 매뉴얼을 무작정 1000자 단위로 자르면 한 절차가 두 조각으로 쪼개져 검색이 부정확해집니다. 제목·단계 구조를 살려 분할하고 약간씩 겹치게 하면, 한 조각 안에 절차가 온전히 담겨 답변 정확도가 올라갑니다.
관련 용어
RAG
RAG는 실시간 데이터베이스 검색 결과를 AI 답변에 결합하는 기술입니다. 단순히 문서를 찾는 'Naive RAG'를 넘어, AI가 스스로 검색과 검증을 반복하는 '에이전틱 RAG'로 진화했습니다. 대규모 데이터를 ...
임베딩텍스트, 이미지 등 비정형 데이터를 AI가 연산할 수 있도록 의미를 보존한 고차원 수치 벡터로 변환하는 기술입니다. 단순 수치화를 넘어 데이터 간의 문맥적 관계와 유사도를 수학적으로 표현합니다.
벡터 데이터베이스고차원 벡터 데이터를 저장하고 유사도 기반의 고속 검색을 지원하는 특화된 데이터베이스입니다. 비정형 데이터를 수치화한 임베딩 값을 활용해 AI가 의미적으로 유사한 정보를 빠르게 찾을 수 있게 하며, RAG(검색 증강...
컨텍스트 윈도우AI 모델이 한 번의 요청(프롬프트)에서 동시에 처리하고 기억할 수 있는 데이터(토큰)의 최대 범위입니다. 모델의 '단기 기억력'이자 작업 공간의 크기를 의미합니다.