
Docling
PDF 및 다양한 문서를 마크다운으로 변환하는 경량 오픈소스 라이브러리
소개
활용 워크플로우
입력
Docling
출력
RAG 파이프라인 자동화
데이터 엔지니어가 LangChain 통합 기능을 사용하여 파싱된 데이터를 벡터 데이터베이스에 실시간으로 인덱싱
대규모 아카이브 구조화
스타트업 CTO가 CPU 최적화 로컬 모델을 활용하여 보안이 중요한 대량의 내부 문서를 오프라인에서 마이그레이션
사용자 정의 모델 튜닝
데이터 과학자가 특정 도메인 문서에 맞춰 OCR 엔진 스택이나 레이아웃 예측 임계값을 조정
핵심 차별점: IBM의 TableFormer 모델을 통해 복잡하게 병합된 표의 논리적 구조를 로컬 CPU 환경에서도 완벽하게 복원하는 기술적 우위
주요 기능
가격 정보
IBM에서 개발한 오픈소스 문서 파싱 도구로, Apache-2.0 라이선스에 따라 누구나 무료로 사용할 수 있습니다. 별도의 유료 구독 모델은 없으며, 로컬 환경이나 자체 서버에 설치하여 PDF, DOCX 등 다양한 문서를 마크다운이나 JSON 형식으로 변환할 수 있습니다.
활용 사례
- 로컬 환경에서의 RAG 데이터 파이프라인 구축
- 대규모 문서 아카이브의 텍스트 구조화
- 민감한 문서의 오프라인 파싱 처리
대상 사용자
연동 서비스
태그
최근 소식
- 소식Docling, 리눅스 재단 Agentic AI Foundation 기증·Red Hat OpenShift 오퍼레이터 출시
IBM이 2026년 초 Docling 프로젝트를 리눅스 재단 Agentic AI Foundation에 기증하고 Red Hat과 함께 은행권을 겨냥한 Docling OpenShift 오퍼레이터를 출시했습니다.
근거: [APPROX_DATE] SiliconANGLE(2026-02-24) 및 IDP-Software 보도에 따르면 IBM이 Docling을 AAIF에 기증하고 Red Hat OpenShift 오퍼레이터를 2026년 초 출시했으며 은행 부문이 주요 타깃입니다(정확 일자 미상, 월 단위).
- 버전 업데이트IBM, 단일 258M VLM 'Granite-Docling-258M' Apache 2.0 공개
IBM이 2026년 1월 실험판 SmolDocling을 대체하는 프로덕션급 단일 258M 비전언어모델 Granite-Docling-258M을 Apache 2.0으로 공개했다고 발표했습니다.
근거: [APPROX_DATE] IBM Research 발표에 따르면 2026년 1월 Granite-Docling-258M을 Apache 2.0으로 공개했습니다(정확 일자 미상, 월 단위).
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안


