피디에프플럼버
pdfplumber
PDF 내 텍스트, 표, 시각적 요소를 정밀하게 추출하는 파이썬 라이브러리
검증된 사실
- 최신 버전
- 0.11.92026-01-05
- GitHub
- ★ 10,315
- 최근 변경
- 2026-01-05 v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수정 소스: https://githu
2026-06-20 직접 확인 · 자동 검증 데이터
제품 화면

2026-06-20 확인
가격 정보
PDF에서 텍스트와 표 데이터를 정밀하게 추출할 수 있는 Python 오픈소스 라이브러리로, MIT 라이선스에 따라 무료로 이용 가능합니다. 별도의 유료 플랜이나 사용량 제한이 없으며, 개발 환경에 설치하여 자유롭게 프로젝트에 통합할 수 있습니다.
최근 업데이트와 소식
- 소식2025년 Table.columns 속성 추가(Table.rows와 대칭), Page.extract_words(return_chars=True) 메서드 추가
2025년 Table.columns 속성 추가(Table.rows와 대칭), Page.extract_words(return_chars=True) 메서드 추가
- 소식2025년 pdfplumber.open(unicode_norm=) 유니코드 정규화 옵션 추가(NFC/NFD/NFKC/NFKD)
2025년 pdfplumber.open(unicode_norm=) 유니코드 정규화 옵션 추가(NFC/NFD/NFKC/NFKD)
- 버전 업데이트v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수...
v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수정
소개AI 요약
활용 워크플로우
입력
피디에프플럼버
출력
표 추출 전략 최적화
표의 선 유무에 따라 'lines', 'intersections', 'text' 전략을 선택하여 복잡한 격자 구조 대응
객체별 필터링 워크플로우
특정 폰트 이름, 색상, 또는 페이지 내 특정 상자 영역에 속한 요소만 선별적으로 추출
데이터 분석 파이프라인 연동
추출된 데이터를 Pandas와 연동하여 정제 후 CSV/Excel로 변환하거나 BI 도구에 주입
핵심 차별점: 픽셀 단위의 정밀한 좌표 제어와 강력한 시각적 디버깅 기능을 통해 레이아웃이 깨진 PDF에서도 완벽하게 표 데이터를 복구합니다.
주요 기능AI 요약
- 정밀한 텍스트 좌표 및 폰트 메타데이터 추출
- 커스텀 TableFinder 알고리즘 기반 표 추출
- Pillow 연동 시각적 디버깅 및 마스킹
- 이미지 및 벡터 그래픽 요소 분석
- 오브젝트 필터링 및 페이지 크롭 기능
- Table.columns 및 Page.extract_words(return_chars=True) 지원
활용 사례AI 요약
- PDF 보고서 내 표 데이터 자동 추출 및 변환
- 문서 레이아웃 분석 및 구조 파악
- 데이터 저널리즘용 공공 PDF 자료 수집
- PDF 텍스트 정제 및 데이터 전처리
- 금융·법률 문서의 정형 데이터 추출
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안
클로바 AI
Naver
한국어와 국내 맥락에 최적화된 하이퍼클로바 X로 AI 서비스를 개발·배포하는 통합 플랫폼
애스크코디
코드 생성부터 테스트, 문서화까지 개발 전 과정을 지원하는 멀티 모델 기반 AI 코딩 어시스턴트
컨티뉴
IDE 안에서 원하는 LLM을 선택해 코드 맥락을 제어하는 오픈소스 AI 코딩 어시스턴트
세레브라스
세계 최대 크기의 AI 전용 칩으로 기존 GPU보다 수십 배 빠른 초고속 LLM 추론 환경을 제공하는 API 플랫폼
블랙박스 AI
여러 AI 모델을 골라 쓰고 2억 개 이상의 저장소를 검색하며 실시간 자동완성까지 제공하는 AI 코딩 어시스턴트
그록
자체 LPU 칩으로 오픈소스 모델을 빠르게 돌리는 추론 전용 클라우드 플랫폼입니다. GPU 기반 서비스보다 초당 토큰 생성량이 높고 첫 응답까지의 지연이 짧은 점이 핵심입니다.