LangSmith란 무엇인가요?

LangSmith는 LLM 앱의 개발, 테스트, 평가 및 모니터링을 위한 통합 DevOps 플랫폼.

LangSmith는 어떤 상황에서 사용하나요?

LangSmith는 대규모 에이전트 트레이스 데이터의 자동 인사이트 도출, CI/CD 파이프라인 내 LLM 회귀 테스트 자동화, 실시간 운영 환경에서의 비용 및 토큰 최적화 등의 상황에서 활용할 수 있습니다.

LangSmith의 주요 기능은 무엇인가요?

LangSmith의 핵심 기능으로는 인사이트 에이전트(실패 패턴 자동 분류 및 분석), 분산 트레이싱으로 에이전트 실행 흐름 시각화, 멀티턴 평가(Multi-turn Evals) 프레임워크 등이 있습니다.

랭스미스

LangSmith

LLM 앱의 개발, 테스트, 평가 및 모니터링을 위한 통합 DevOps 플랫폼

부분 무료WebAPISDK한국어LLM 기반멀티모달

웹사이트 방문하기smith.langchain.com

검증된 사실

최근 변경: 2026-05-14 LangChain은 Interrupt 2026 컨퍼런스에서 LangSmith Engine(프로덕션 트레이스를 자동 분석해 결함 수정 PR 제안), SmithDB(최대 15배 빠른 성능), Mana

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

2026-06-20 확인

가격 정보

부분 무료시작 가격: Free / $39/user/mo (Plus)

Developer 플랜은 무료로 1인 사용자에게 월 5,000개의 트레이스를 제공한다. Plus 플랜은 사용자당 월 $39이며 월 10,000개의 트레이스를 포함하고 초과 시 1,000건당 $0.50의 비용이 발생한다. 기업용 Enterprise 플랜은 맞춤형 가격으로 제공된다.

가격표 확인하기

최근 업데이트와 소식

버전 업데이트2026-05-01
LangSmith, Interrupt 2026서 SmithDB·Managed Deep Agents·Engine 공개
LangChain이 Interrupt 2026에서 LangSmith 대규모 업데이트를 공개했습니다. 에이전트 관측성 전용 Rust DB SmithDB, API-우선 Managed Deep Agents, 보안 코드 실행 Sandboxes, 에이전트 자동 개선 Engine(퍼블릭 베타), Messages View·Context Hub·LLM Gateway를 도입했습니다.
근거: [APPROX_DATE] LangChain Blog: 'Everything we shipped at Interrupt' (Interrupt 2026, 정확 일자 미상)

소개AI 요약

LangSmith는 LangChain에서 개발한 LLM 애플리케이션 전용 MLOps 플랫폼입니다. 복잡한 AI 에이전트와 체인의 실행 과정을 시각화하는 트레이싱 기능을 중심으로, 프롬프트 엔지니어링, 자동화된 성능 평가, 데이터셋 관리 및 실시간 운영 모니터링을 지원합니다. 2026년 현재 '인사이트 에이전트' 기능을 통해 수백만 개의 트레이스에서 실패 패턴을 자동 분류하는 등 고도화된 분석 기능을 제공하며, 기업용 AI 서비스의 신뢰성을 확보하는 데 필수적인 도구로 자리 잡았습니다.

활용 워크플로우

입력

LangChain/LangGraph 애플리케이션 트레이스사용자 피드백 및 주석 데이터 (Human-in-the-loop)OpenTelemetry 기반 외부 서비스 로그테스트용 황금 데이터셋 (Golden Datasets)생산 환경의 실시간 API 호출 데이터

랭스미스

인사이트 에이전트(Insights Agent)를 통한 트레이스 패턴 자동 분류LLM-as-a-Judge 기반 자동화된 성능 및 품질 평가(Evaluation)멀티턴 대화(Threads) 흐름 분석 및 상태 추적프롬프트 버전별 A/B 테스트 및 회귀 테스트 수행실시간 운영 지표(지연 시간, 비용, 토큰 사용량) 집계

출력

계층적 실패 패턴 분석 리포트실험군 간 성능 비교 대시보드정제된 퓨샷(Few-shot) 학습용 데이터셋실시간 이상 징후 및 임계값 알림시각화된 에이전트 실행 추적 스팬(Spans)

오프라인 평가 워크플로우

배포 전, 준비된 데이터셋을 바탕으로 새로운 프롬프트나 모델의 성능을 기존 버전과 비교 분석합니다.

온라인 모니터링 워크플로우

실제 운영 환경의 트래픽을 샘플링하여 실시간 품질 저하 및 환각(Hallucination) 발생 여부를 감시합니다.

데이터 큐레이션 워크플로우

사용자 피드백이 낮거나 에지가 발생한 트레이스를 선택하여 새로운 테스트 케이스나 파인튜닝 데이터로 변환합니다.

핵심 차별점: 수백만 개의 트레이스를 자동 분석하여 실패 원인을 군집화하는 '인사이트 에이전트'와 멀티턴 에이전트 흐름에 최적화된 평가 환경을 제공합니다.