라가스

라가스

Ragas

RAG 파이프라인과 LLM 앱의 품질을 충실도·관련성·정밀도 지표로 자동 평가하는 오픈소스 프레임워크

부분 무료APICLI오픈소스LLM 기반
웹사이트 방문하기ragas.io

검증된 사실

최신 버전
0.4.32026-01-13
GitHub
★ 14,168
최근 변경
2026-01-13 v0.4.3 출시(직전 버전: v0.4.2 2025-12-23, v0.4.0 2025-12-03). 소스: https://pypi.org/project/ragas/ / GitHub 저장소가 exp

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

라가스 제품 화면

2026-06-20 확인

가격 정보

부분 무료시작 가격: Free (Open Source)

오픈소스(Apache-2.0) 완전 무료. 단, 평가에 사용하는 판별 LLM(GPT-4o·Claude Sonnet 등) API 비용은 별도 발생(샘플당 $0.01~$0.04 수준). Ragas Cloud 무료 티어 제공, 엔터프라이즈 플랜은 별도 문의.

가격표 확인하기

최근 업데이트와 소식

소개AI 요약

Ragas는 RAG(검색 증강 생성) 시스템과 LLM 애플리케이션의 성능을 측정하고 최적화하기 위한 오픈소스 평가 프레임워크입니다. 충실도(Faithfulness), 답변 관련성, 컨텍스트 정밀도 등 RAG 전용 지표를 제공하며, LangChain·LlamaIndex와 손쉽게 연동됩니다. Apache-2.0 라이선스로 완전 무료이며, 에이전트 평가와 합성 테스트 데이터 생성 기능도 지원합니다.

활용 워크플로우

입력

RAG 파이프라인 로그 (Question, Contexts, Answer)비정형 문서 데이터셋 (PDF, Markdown, Text)평가용 LLM API (OpenAI GPT, Anthropic Claude 등)Ground Truth 데이터 (선택 사항)

라가스

Evolutions 기반 합성 테스트 데이터셋 생성Context Precision 및 Recall 분석을 통한 검색 품질 평가Faithfulness 및 Answer Relevance 기반 생성 품질 측정LLM-as-a-Judge를 활용한 정성적 지표의 수치 변환

출력

Ragas Score 기반의 종합 성능 리포트환각(Hallucination) 발생 구간 식별 데이터LangSmith 및 W&B 연동 시각화 대시보드최적화된 프롬프트 및 검색 전략 제안서

합성 데이터셋 생성 경로

운영 중인 서비스의 정답 데이터가 부족할 때, 보유한 문서를 바탕으로 LLM이 질문과 답변 쌍을 자동 생성하여 테스트셋을 구축합니다.

참조 데이터 없는(Reference-free) 평가

정답 데이터셋(Ground Truth) 없이도 LLM 판별자가 컨텍스트와 답변 간의 논리적 일치성을 판단하여 즉각적인 피드백을 제공합니다.

핵심 차별점: 정답지(Ground Truth)가 없는 환경에서도 LLM-as-a-judge 방식을 통해 RAG의 검색과 생성 단계를 분리하여 정량적으로 평가하는 RAG 전용 표준 프레임워크

주요 기능AI 요약

  • RAG 전용 평가 지표(충실도·답변 관련성·컨텍스트 정밀도·컨텍스트 재현율)
  • 합성 테스트 데이터셋 자동 생성(Evolutions)으로 수동 라벨링 불필요
  • 에이전트 행동 평가를 위한 구조화된 트레이스 기반 분석
  • LLM-as-a-judge 방식의 자동화된 채점 파이프라인
  • LangChain·LlamaIndex 등 주요 프레임워크 기본 통합

활용 사례AI 요약

  • RAG 시스템의 검색 품질과 생성 답변 충실도 벤치마킹
  • LLM 애플리케이션의 환각(Hallucination) 현상 측정 및 모니터링
  • 최적 임베딩 모델 및 리트리버 조합 탐색을 위한 A/B 실험
  • 운영 환경에서의 LLM 응답 품질 지속적 모니터링
  • 수동 라벨링 없이 합성 데이터로 평가 파이프라인 구축

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안