환각 감지 (Hallucination Detection)

기술 용어
1분 읽기

거대언어모델(LLM)이 생성한 응답이 제공된 근거 문서에 기반하는지 또는 객관적 사실과 어긋나는지를 점검해 허위 정보 가능성을 식별하는 기술입니다.

다른 이름
Hallucination EvaluationGroundedness Check근거 기반 검증

상세 설명

환각 감지는 LLM이 논리적으로 그럴듯하지만 사실과 다른 정보를 생성하는 문제를 식별하고 줄이기 위한 검증 방식입니다. 주로 RAG(검색 증강 생성) 환경에서 검색된 컨텍스트와 생성 답변 사이의 일관성을 따지는 충실도(Faithfulness) 측정, 외부 지식 베이스와의 사실 관계 대조, LLM-as-a-Judge 또는 NLI(자연어 추론) 기반 분류 등을 조합해 수행됩니다. 최근에는 Amazon Bedrock, Azure AI Content Safety, OpenAI Guardrails, NVIDIA NeMo Guardrails처럼 근거성 또는 출력 검증 기능을 제품화한 사례가 늘고 있습니다. 법률, 의료, 금융처럼 답변 정확도가 중요한 도메인에서는 사용자에게 답변을 보여주기 전에 근거 부족이나 사실 불일치를 표시해 운영 리스크를 낮추는 점검 절차로 활용됩니다.

도구 선택에서 중요한 이유

LLM의 비결정론적 특성 때문에 서비스 단계에서 잘못된 답변이 생성될 수 있습니다. 기업용 솔루션을 고를 때는 실시간 감지 절차가 있는지, 근거 문서와 답변의 일치도를 어떻게 계산하는지, 감지 정확도와 응답 지연 시간 사이의 균형이 업무 요구사항에 맞는지 확인해야 합니다.

확인할 점

  • 제공된 근거(Context)와 답변 사이의 일치도를 수치화해 보여주는지 확인합니다.
  • 답변 생성 후(Post-processing) 실시간으로 필터링하거나 재작성할 수 있는 가드레일 기능을 지원하는지 확인합니다.
  • 금융, 법률 등 특정 도메인의 용어와 사실 관계를 검증할 수 있도록 내부 지식 기반을 연결할 수 있는지 확인합니다.

예시

고객 상담 AI가 'A 상품의 수수료는 무료입니다'라고 답변했을 때, 환각 감지 절차는 내부 정책 문서와 답변을 대조해 해당 내용의 근거가 있는지 확인합니다. 근거가 부족하면 답변을 보류하거나 상담원 확인 단계로 넘길 수 있습니다.

관련 용어

RAGllm-guardrailsGrounding