pdfplumber란 무엇인가요?

pdfplumber는 PDF 내 텍스트, 표, 시각적 요소를 정밀하게 추출하는 파이썬 라이브러리.

pdfplumber는 어떤 상황에서 사용하나요?

pdfplumber는 PDF 보고서 내 표 데이터 자동 추출 및 변환, 문서 레이아웃 분석 및 구조 파악, 데이터 저널리즘용 공공 PDF 자료 수집 등의 상황에서 활용할 수 있습니다.

pdfplumber의 주요 기능은 무엇인가요?

pdfplumber의 핵심 기능으로는 정밀한 텍스트 좌표 및 폰트 메타데이터 추출, 커스텀 TableFinder 알고리즘 기반 표 추출, Pillow 연동 시각적 디버깅 및 마스킹 등이 있습니다.

피디에프플럼버

pdfplumber

PDF 내 텍스트, 표, 시각적 요소를 정밀하게 추출하는 파이썬 라이브러리

무료CLIPython Library오픈소스한국어

웹사이트 방문하기github.com

검증된 사실

최신 버전: 0.11.92026-01-05
GitHub: ★ 10,315
최근 변경: 2026-01-05 v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수정 소스: https://githu

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

2026-06-20 확인

가격 정보

무료시작 가격: Free (open source)

PDF에서 텍스트와 표 데이터를 정밀하게 추출할 수 있는 Python 오픈소스 라이브러리로, MIT 라이선스에 따라 무료로 이용 가능합니다. 별도의 유료 플랜이나 사용량 제한이 없으며, 개발 환경에 설치하여 자유롭게 프로젝트에 통합할 수 있습니다.

가격표 확인하기

최근 업데이트와 소식

소식2026-01-05
2025년 Table.columns 속성 추가(Table.rows와 대칭), Page.extract_words(return_chars=True) 메서드 추가
2025년 Table.columns 속성 추가(Table.rows와 대칭), Page.extract_words(return_chars=True) 메서드 추가
소식2026-01-05
2025년 pdfplumber.open(unicode_norm=) 유니코드 정규화 옵션 추가(NFC/NFD/NFKC/NFKD)
2025년 pdfplumber.open(unicode_norm=) 유니코드 정규화 옵션 추가(NFC/NFD/NFKC/NFKD)
버전 업데이트2026-01-05
v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수...
v0.11.9 출시 — raise_unicode_errors 파라미터 추가, 이미지 객체 name 속성 추가, debug_tablefinder() 명명 일관성 수정

소개AI 요약

pdfplumber는 PDF 문서에서 텍스트, 표, 선, 사각형 등 모든 요소를 상세하게 추출할 수 있는 파이썬 라이브러리입니다. pdfminer.six를 기반으로 구축되었으며, 각 문자의 좌표 정보와 폰트 정보를 제공하여 정밀한 데이터 분석이 가능합니다. 특히 표 추출 기능이 강력하여 데이터 저널리즘과 데이터 분석 분야에서 널리 사용되며, 시각적 디버깅 기능을 통해 추출 과정을 세밀하게 조정할 수 있습니다.

활용 워크플로우

입력

로컬 파일 시스템의 PDF 경로바이너리 PDF 데이터 스트림사용자 정의 Table Extraction 설정 (딕셔너리)페이지별 크롭(Crop) 영역 좌표 정보

피디에프플럼버

pdfminer.six 엔진을 활용한 문서 객체 계층 구조 파싱문자(chars), 선(lines), 사각형(rects)의 픽셀 단위 기하학적 좌표 매핑TableFinder 알고리즘을 통한 표 경계 및 셀 데이터 구조화to_image() 및 Pillow 연동을 통한 추출 영역 시각적 오버레이 생성

출력

Pandas DataFrame 형식의 표 데이터상세 메타데이터를 포함한 JSON 객체Pillow 기반의 시각적 디버깅 이미지 (PNG/JPG)폰트/크기 정보가 보존된 정제 텍스트

표 추출 전략 최적화

표의 선 유무에 따라 'lines', 'intersections', 'text' 전략을 선택하여 복잡한 격자 구조 대응

객체별 필터링 워크플로우

특정 폰트 이름, 색상, 또는 페이지 내 특정 상자 영역에 속한 요소만 선별적으로 추출

데이터 분석 파이프라인 연동

추출된 데이터를 Pandas와 연동하여 정제 후 CSV/Excel로 변환하거나 BI 도구에 주입

핵심 차별점: 픽셀 단위의 정밀한 좌표 제어와 강력한 시각적 디버깅 기능을 통해 레이아웃이 깨진 PDF에서도 완벽하게 표 데이터를 복구합니다.