언스트럭처드

Unstructured

PDF, HTML 등 비정형 문서를 LLM용 정형 데이터로 자동 변환

부분 무료WebAPICLI오픈소스멀티모달

웹사이트 방문하기unstructured.io

파워 BI와(과) 비교하기

소개

Unstructured는 PDF, HTML, Word, 이미지 등 다양한 형식의 비정형 데이터를 LLM이 이해할 수 있는 정형 데이터로 변환해주는 데이터 전처리 플랫폼입니다. 문서 내의 표, 이미지, 텍스트를 정확하게 추출하고 의미 단위로 분할(Partitioning)하여 RAG 파이프라인 구축을 가속화합니다. 오픈소스 라이브러리와 클라우드 API를 모두 제공하여 개발자가 복잡한 문서 구조를 손쉽게 처리할 수 있도록 돕습니다.

활용 워크플로우

소스 데이터 커넥터 (Data Ingestion)

소스 데이터 커넥터 (Data Ingestion)S3, Azure Blob, GCS 등 클라우드 스토리지SharePoint, OneDrive, Google Drive 기업 문서Salesforce, Zendesk, Slack 메시지 및 데이터Confluence 및 Notion 지식 베이스

지능형 파티셔닝 (Partitioning & Extraction)

지능형 파티셔닝 (Partitioning & Extraction)Chipper V2 모델 기반 문서 레이아웃 분석Tesseract/PaddleOCR 기반 고성능 OCR 처리복잡한 표(Table) 구조의 정형 데이터 변환이미지 및 폼 데이터의 시각적 요소 추출

데이터 정제 및 메타데이터 강화 (Enrichment)

데이터 정제 및 메타데이터 강화 (Enrichment)의미 단위(Semantic) 텍스트 청킹섹션 제목, 페이지 번호 등 메타데이터 자동 할당불필요한 공백 및 HTML 태그 클리닝비정형 요소의 정형 Element 객체화

RAG 및 벡터 DB 통합 (Loading)

RAG 및 벡터 DB 통합 (Loading)Pinecone, Weaviate, Milvus 벡터 DB 동기화LangChain 및 LlamaIndex 프레임워크 연동Databricks/Snowflake 데이터 웨어하우스 로드RAG 시스템을 위한 고품질 컨텍스트 공급

핵심 차별점: 문서의 시각적 문맥을 보존하며 모든 비정형 데이터를 LLM이 즉시 학습 가능한 'Element' 단위로 정교하게 분해하는 기술력

주요 기능

Chipper (자체 개발 고성능 레이아웃 분석 모델)
Unstructured Platform (Low-code 워크플로우 UI)
30개 이상의 소스/데스티네이션 커넥터 지원
API 기반 실시간 문서 처리 파이프라인

가격 정보

부분 무료시작 가격: $1.00 / 1,000 pages (Serverless API)

오픈소스 라이브러리는 무료이며, SaaS API의 경우 15,000페이지까지 무료로 제공하는 프리 티어가 있습니다. 유료 플랜은 사용량 기반(Pay-as-you-go)으로 운영되며, Fast 파이프라인은 1,000페이지당 $1, Hi-Res 파이프라인은 1,000페이지당 $10가 부과됩니다. 기업용 엔터프라이즈 플랜은 별도 문의를 통해 맞춤형 가격으로 제공됩니다.

가격표 확인하기