언스트럭처드

언스트럭처드

Unstructured

PDF·이미지·이메일 등 비정형 문서를 RAG 파이프라인용 구조화 데이터로 자동 변환하는 오픈소스 플랫폼

부분 무료WebAPICLI오픈소스멀티모달
웹사이트 방문하기unstructured.io

검증된 사실

최신 버전
0.23.12026-05-22
최근 변경
2026-06-11 Unstructured 라이브러리 버전 0.23.1이 PyPI에 공개되었으며, 비정형 문서 처리 파이프라인의 최신 패치가 적용되었습니다. 소스: https://pypi.org/project/uns

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

언스트럭처드 제품 화면

2026-06-20 확인

가격 정보

부분 무료시작 가격: Free / $0.03/page (Pay-as-you-go)

오픈소스 라이브러리는 무료이며, SaaS API의 경우 15,000페이지까지 무료로 제공하는 프리 티어가 있습니다. 유료 플랜은 사용량 기반(Pay-as-you-go)으로 운영되며, Fast 파이프라인은 1,000페이지당 $1, Hi-Res 파이프라인은 1,000페이지당 $10가 부과됩니다. 기업용 엔터프라이즈 플랜은 별도 문의를 통해 맞춤형 가격으로 제공됩니다.

가격표 확인하기

최근 업데이트와 소식

소개AI 요약

Unstructured는 PDF·HTML·이미지·이메일 등 비정형 데이터를 LLM 학습 및 RAG 파이프라인에 바로 활용 가능한 구조화 데이터로 변환하는 플랫폼입니다. 오픈소스 라이브러리와 클라우드 API를 모두 제공하며, 복잡한 문서 레이아웃도 자동으로 파티셔닝·정제합니다. 2024년 3월 Databricks Ventures·IBM Ventures·NVIDIA NVentures 참여로 $4,000만 Series B를 유치했으며 누적 투자액은 $6,810만입니다. 2026년 5월 기준 최신 버전 0.22.30을 PyPI에 배포했습니다.

활용 워크플로우

소스 데이터 커넥터 (Data Ingestion)
소스 데이터 커넥터 (Data Ingestion)S3, Azure Blob, GCS 등 클라우드 스토리지SharePoint, OneDrive, Google Drive 기업 문서Salesforce, Zendesk, Slack 메시지 및 데이터Confluence 및 Notion 지식 베이스
지능형 파티셔닝 (Partitioning & Extraction)
지능형 파티셔닝 (Partitioning & Extraction)Chipper V2 모델 기반 문서 레이아웃 분석Tesseract/PaddleOCR 기반 고성능 OCR 처리복잡한 표(Table) 구조의 정형 데이터 변환이미지 및 폼 데이터의 시각적 요소 추출
데이터 정제 및 메타데이터 강화 (Enrichment)
데이터 정제 및 메타데이터 강화 (Enrichment)의미 단위(Semantic) 텍스트 청킹섹션 제목, 페이지 번호 등 메타데이터 자동 할당불필요한 공백 및 HTML 태그 클리닝비정형 요소의 정형 Element 객체화
RAG 및 벡터 DB 통합 (Loading)
RAG 및 벡터 DB 통합 (Loading)Pinecone, Weaviate, Milvus 벡터 DB 동기화LangChain 및 LlamaIndex 프레임워크 연동Databricks/Snowflake 데이터 웨어하우스 로드RAG 시스템을 위한 고품질 컨텍스트 공급

핵심 차별점: 문서의 시각적 문맥을 보존하며 모든 비정형 데이터를 LLM이 즉시 학습 가능한 'Element' 단위로 정교하게 분해하는 기술력

주요 기능AI 요약

  • PDF·HTML·이미지·이메일 등 비정형 문서 자동 파티셔닝·정제
  • RAG 파이프라인 전처리를 위한 LLM 준비 데이터 변환
  • 토큰 기반 청킹(max_tokens·new_after_n_tokens 파라미터) 지원
  • 오픈소스 라이브러리 + 클라우드 API 이중 제공 구조
  • 복잡한 문서 레이아웃(표·수식·다단 컬럼) 자동 처리
  • 경로 순회 보안 취약점 수정 등 지속적 보안 패치

활용 사례AI 요약

  • RAG(검색 증강 생성) 파이프라인 데이터 전처리
  • 기업 내부 문서 AI 검색 시스템 구축
  • PDF·계약서·보고서 구조화 데이터 추출
  • 이메일 아카이브 비정형 데이터 분석
  • 멀티모달 문서 LLM 파인튜닝 데이터 준비

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안