Docling

Docling

PDF 및 다양한 문서를 마크다운으로 변환하는 경량 오픈소스 라이브러리

무료Python LibraryCLIDocker오픈소스
웹사이트 방문하기docling-project.github.io
레플리케이트와(과) 비교하기

소개

IBM Research에서 공개한 오픈소스 라이브러리로, PDF, DOCX, PPTX 등 다양한 문서 형식을 마크다운이나 JSON으로 신속하게 변환합니다. 자체 개발한 경량 AI 모델을 사용하여 로컬 환경에서도 높은 성능을 발휘하며, 복잡한 문서 레이아웃과 표 구조를 정교하게 추출하여 RAGLLM 학습 데이터 구축에 최적화되어 있습니다.

활용 워크플로우

입력

로컬 및 클라우드 소스 문서 (PDF, DOCX, PPTX, HTML)스캔된 이미지 파일 (PNG, JPEG, TIFF)웹 URL 및 온라인 문서 저장소복잡한 표와 수식이 포함된 학술 논문 및 기술 명세서

Docling

AI 모델 기반 레이아웃 분할 및 시각적 요소 탐지TableFormer 엔진을 활용한 표 구조 및 셀 논리 복원통합 OCR (EasyOCR/Tesseract) 기반 텍스트 추출문서 계층 구조(제목, 하위 절, 메타데이터) 식별 및 트리 구성

출력

LLM 최적화 Markdown 데이터구조화된 계층형 JSON/JSONLLangChain/LlamaIndex 연동 Document 객체추출된 시각적 요소(그림, 차트) 이미지 파일

RAG 파이프라인 자동화

데이터 엔지니어가 LangChain 통합 기능을 사용하여 파싱된 데이터를 벡터 데이터베이스에 실시간으로 인덱싱

대규모 아카이브 구조화

스타트업 CTO가 CPU 최적화 로컬 모델을 활용하여 보안이 중요한 대량의 내부 문서를 오프라인에서 마이그레이션

사용자 정의 모델 튜닝

데이터 과학자가 특정 도메인 문서에 맞춰 OCR 엔진 스택이나 레이아웃 예측 임계값을 조정

핵심 차별점: IBM의 TableFormer 모델을 통해 복잡하게 병합된 표의 논리적 구조를 로컬 CPU 환경에서도 완벽하게 복원하는 기술적 우위

주요 기능

  • V2 업데이트: PDF 외 다중 포맷(Images, HTML, AsciiDoc) 지원 확대
  • TableFormer 기반의 초정밀 표 구조 복원
  • LangChain 및 LlamaIndex 기본 커넥터 지원
  • Pydantic 기반의 엄격한 데이터 스키마 보장
  • OCR 엔진 선택 가능 (EasyOCR, Tesseract)

가격 정보

무료

IBM에서 개발한 오픈소스 문서 파싱 도구로, Apache-2.0 라이선스에 따라 누구나 무료로 사용할 수 있습니다. 별도의 유료 구독 모델은 없으며, 로컬 환경이나 자체 서버에 설치하여 PDF, DOCX 등 다양한 문서를 마크다운이나 JSON 형식으로 변환할 수 있습니다.

가격표 확인하기

활용 사례

  • 로컬 환경에서의 RAG 데이터 파이프라인 구축
  • 대규모 문서 아카이브의 텍스트 구조화
  • 민감한 문서의 오프라인 파싱 처리

대상 사용자

오픈소스 개발자데이터 엔지니어프라이버시 중시 기업

연동 서비스

LangChainLlamaIndexHugging FacePydantic

태그

오픈소스문서변환IBM마크다운데이터추출

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안