ZeroEval이란 무엇인가요?

ZeroEval은 실사용 데이터 기반의 자동 평가와 프롬프트 최적화로 스스로 개선되는 AI 에이전트 구축 플랫폼.

ZeroEval은 어떤 상황에서 사용하나요?

ZeroEval은 멀티턴 에이전트의 도구 호출 및 추론 과정 검증, 운영 환경에서 에이전트 성능 실시간 모니터링 및 자동 개선, 사용자 불만 기반 프롬프트 제약 조건 자동 추가 등의 상황에서 활용할 수 있습니다.

ZeroEval의 주요 기능은 무엇인가요?

ZeroEval의 핵심 기능으로는 SDK 한 줄 설치로 기존 LLM 호출 자동 추적, 인간 피드백 기반 LLM 판사 보정(Calibration)과 Autotune, DSPy 기반 자동 프롬프트 최적화 및 재작성 등이 있습니다.

제로이밸

ZeroEval

실사용 데이터 기반의 자동 평가와 프롬프트 최적화로 스스로 개선되는 AI 에이전트 구축 플랫폼

유료WebPython SDK

웹사이트 방문하기zeroeval.com

검증된 사실

최근 변경: 2026-02-09 ZeroEval, AI 에이전트 자동평가 도구 'Autotune' 출시 소스: https://www.fondo.com/blog/zeroeval-launches 2025-07-01 YC S25 배치

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

2026-06-15 확인

가격 정보

유료시작 가격: 월 $15

유료 플랜은 월 $15부터 시작하며, 별도의 무료 플랜은 제공되지 않습니다. LLM 모델 평가 및 최적화를 위한 도구를 제공하며, API 사용량에 따라 추가 비용이 발생할 수 있습니다.

가격표 확인하기

최근 업데이트와 소식

버전 업데이트2026-05-06
Python SDK 공식 출시 — 모니터링·프롬프트 관리·LLM 판사·자동 최적화 포함.
Python SDK 공식 출시 — 모니터링·프롬프트 관리·LLM 판사·자동 최적화 포함.
버전 업데이트2026-02-09
ZeroEval, AI 에이전트 자동평가 도구 'Autotune' 출시
ZeroEval, AI 에이전트 자동평가 도구 'Autotune' 출시
소식2025-07-01
YC S25 배치 선정 — llm-stats.com 운영진이 창업한 LLM 평가 플랫폼
YC S25 배치 선정 — llm-stats.com 운영진이 창업한 LLM 평가 플랫폼

소개AI 요약

ZeroEval은 보정된 LLM 판사와 자동 프롬프트 최적화 기능을 통해 스스로 개선되는 AI 에이전트를 구축할 수 있는 도구입니다. SDK를 통해 OpenAI, Anthropic, LangChain 등의 LLM 호출을 자동으로 추적하며, 별도의 설정 없이 기존 코드베이스에 적용할 수 있습니다. 사용자는 운영 환경에서 에이전트의 출력을 평가하기 위해 맞춤형 루브릭이나 패스/실패 기준을 적용하는 LLM 판사를 정의할 수 있습니다. 판사가 잘못된 판단을 내릴 경우 사용자가 피드백을 제공하여 이를 교정하면, 시스템은 사용자의 품질 기준에 맞춰 학습합니다. 또한 사용자 불만이나 실패 사례를 분석하여 프롬프트를 자동으로 재작성하고, 버전 기록을 통해 검토한 후 원클릭으로 배포할 수 있습니다. 이 도구는 에이전트 기반 애플리케이션을 개발하는 개발자 및 AI 엔지니어를 대상으로 하며, 가격 정보는 제공되지 않습니다.

활용 워크플로우

입력

운영 환경의 실시간 LLM 추론 트레이스 (ZeroEval SDK)사용자 정의 평가 루브릭 및 성과 지표(KPI)최종 사용자의 정성적/정량적 피드백 (Thumbs up/down)기존 에이전트 시스템 프롬프트 및 구성 파일

제로이밸

SDK 및 OpenTelemetry를 통한 멀티턴 에이전트 실행 단계 자동 추적설정된 루브릭 기반의 LLM 판사(Judge)를 활용한 결과물 자동 점수화판사의 오판에 대한 사용자 교정 및 RLHF 기반 판사 로직 보정(Calibration)실패 사례의 패턴 분석을 통한 프롬프트 자동 재작성 및 DSPy 기반 최적화

출력

실패 패턴이 해결된 자가 최적화(Auto-optimized) 프롬프트사용자 품질 기준에 정렬된 보정된 LLM 판사 모델에이전트 성능 추이 및 루브릭별 점수 분석 리포트회귀 테스트를 위한 검증된 골든 데이터셋(Golden Dataset)

판사 정렬 워크플로우 (Judge Alignment)

LLM 판사가 인간의 의도와 다르게 평가할 경우, 사용자의 수정 의견을 학습하여 판사의 평가 정확도를 높입니다.

자동 프롬프트 배포 (One-click Deployment)

최적화된 프롬프트를 버전 관리 시스템과 연동하여 운영 환경에 즉시 반영하거나 롤백합니다.

핵심 차별점: 사용자 피드백이 판사를 교육하고, 그 판사가 다시 프롬프트를 최적화하는 폐쇄 루프(Closed-loop) 구조를 통해 운영 중인 에이전트를 자가 학습시킵니다.