
라가스
Ragas
RAG 파이프라인과 LLM 앱의 품질을 충실도·관련성·정밀도 지표로 자동 평가하는 오픈소스 프레임워크
검증된 사실
- 최신 버전
- 0.4.32026-01-13
- GitHub
- ★ 14,168
- 최근 변경
- 2026-01-13 v0.4.3 출시(직전 버전: v0.4.2 2025-12-23, v0.4.0 2025-12-03). 소스: https://pypi.org/project/ragas/ / GitHub 저장소가 exp
2026-06-20 직접 확인 · 자동 검증 데이터
제품 화면

2026-06-20 확인
가격 정보
오픈소스(Apache-2.0) 완전 무료. 단, 평가에 사용하는 판별 LLM(GPT-4o·Claude Sonnet 등) API 비용은 별도 발생(샘플당 $0.01~$0.04 수준). Ragas Cloud 무료 티어 제공, 엔터프라이즈 플랜은 별도 문의.
최근 업데이트와 소식
- 버전 업데이트v0.4.3 출시(직전 버전: v0.4.2
v0.4.3 출시(직전 버전: v0.4.2
- 소식, v0.4.0
, v0.4.0
- 버전 업데이트). 소스: https://pypi.org/project/ragas/ / GitHub 저장소가 explodinggradients/ragas에서 vibrantlab...
). 소스: https://pypi.org/project/ragas/ / GitHub 저장소가 explodinggradients/ragas에서 vibrantlabsai/ragas로 이전됨.
소개AI 요약
활용 워크플로우
입력
라가스
출력
합성 데이터셋 생성 경로
운영 중인 서비스의 정답 데이터가 부족할 때, 보유한 문서를 바탕으로 LLM이 질문과 답변 쌍을 자동 생성하여 테스트셋을 구축합니다.
참조 데이터 없는(Reference-free) 평가
정답 데이터셋(Ground Truth) 없이도 LLM 판별자가 컨텍스트와 답변 간의 논리적 일치성을 판단하여 즉각적인 피드백을 제공합니다.
핵심 차별점: 정답지(Ground Truth)가 없는 환경에서도 LLM-as-a-judge 방식을 통해 RAG의 검색과 생성 단계를 분리하여 정량적으로 평가하는 RAG 전용 표준 프레임워크
주요 기능AI 요약
- RAG 전용 평가 지표(충실도·답변 관련성·컨텍스트 정밀도·컨텍스트 재현율)
- 합성 테스트 데이터셋 자동 생성(Evolutions)으로 수동 라벨링 불필요
- 에이전트 행동 평가를 위한 구조화된 트레이스 기반 분석
- LLM-as-a-judge 방식의 자동화된 채점 파이프라인
- LangChain·LlamaIndex 등 주요 프레임워크 기본 통합
활용 사례AI 요약
- RAG 시스템의 검색 품질과 생성 답변 충실도 벤치마킹
- LLM 애플리케이션의 환각(Hallucination) 현상 측정 및 모니터링
- 최적 임베딩 모델 및 리트리버 조합 탐색을 위한 A/B 실험
- 운영 환경에서의 LLM 응답 품질 지속적 모니터링
- 수동 라벨링 없이 합성 데이터로 평가 파이프라인 구축
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안
딥이밸
Confident AI
Pytest 스타일로 LLM 출력을 50개 이상 지표로 검증하고 프로덕션까지 모니터링하는 오픈소스 테스트 프레임워크
에이치투오 에이아이
AutoML과 생성형 AI를 결합해 기업 맞춤형 AI 모델을 빠르게 구축·배포하는 엔터프라이즈 AI 플랫폼
벤토ML
머신러닝 모델을 고성능 예측 서비스로 변환하고 관리하는 오픈 소스 MLOps 플랫폼
어라이즈 AI
ML 모델과 LLM 성능 모니터링, 문제 해결 및 에이전트 트레이싱을 위한 AI 관측성 플랫폼
오픈LL메트리
Traceloop
OpenTelemetry 기반 LLM 애플리케이션 트레이싱 및 모니터링 오픈소스 프레임워크
데이터브릭스 모자이크 AI
Databricks
Databricks Lakehouse에서 LLM 학습·RAG·에이전트를 통합 관리하는 엔터프라이즈 AI 풀스택 플랫폼