그로비드

그로비드

Grobid

머신러닝 기반의 학술 문헌 PDF 구조 분석 및 데이터 추출 라이브러리

무료WebAPICLI오픈소스
웹사이트 방문하기github.com

검증된 사실

최신 버전
0.9.0
GitHub
★ 4,936
최근 변경
2026-01-09 Python 클라이언트 v0.1.4 출시 — 안정성 개선. 소스: https://pypi.org/project/grobid-client-python/ 2025-11-19 Python 클라이언트 v

2026-06-20 직접 확인 · 자동 검증 데이터

제품 화면

그로비드 제품 화면

2026-06-20 확인

가격 정보

무료시작 가격: Free (open source)

학술 문서 및 PDF 데이터 추출을 위한 오픈소스 머신러닝 라이브러리로, Apache 2.0 라이선스 하에 무료로 제공됩니다. 상업적 이용을 포함하여 모든 기능을 비용 없이 사용할 수 있으며, 사용자가 직접 서버를 구축하여 운영하는 방식입니다.

가격표 확인하기

최근 업데이트와 소식

소개AI 요약

Grobid는 학술 논문 PDF를 TEI/XML 형식의 구조화된 데이터로 변환하는 머신러닝 기반 오픈소스 라이브러리입니다. SciBERT 등 딥러닝 모델(DeLFT)을 통합하여 저자, 소속, 섹션, 인용 등을 고정밀로 추출하며, REST APIDocker로 대규모 병렬 처리가 가능합니다. Semantic Scholar 등 주요 학술 플랫폼에서 실제 사용되고 있습니다.

활용 워크플로우

데이터 수집 및 전처리
데이터 수집 및 전처리학술 PDF 문서 수집 및 로드pdfalto 기반 레이아웃 분석텍스트 및 시각적 특징(Visual Features) 추출멀티 컬럼 및 복잡한 문서 구조 인식
ML 기반 문서 세분화
ML 기반 문서 세분화문서 구역 분리 (Header, Body, References)DeLFT 딥러닝 모델 (SciBERT 등) 적용헤더 메타데이터(제목, 저자, 초록) 식별섹션 및 단락 단위 계층 구조 분석
구조화 및 상세 파싱
구조화 및 상세 파싱TEI/XML 표준 포맷 데이터 변환인용 문헌(Citations) 정밀 파싱수식(MathML) 및 표(Table) 데이터 추출본문 내 인용 포인트 자동 연결
검증 및 서비스 배포
검증 및 서비스 배포Crossref API 연동 메타데이터 보정ORCID 및 DOI 식별자 자동 연결Elasticsearch 검색 엔진 인덱싱REST API를 통한 대규모 병렬 처리 배포

핵심 차별점: 시각적 레이아웃 특징과 딥러닝 모델을 결합하여 학술 PDF의 복잡한 비정형 구조를 기계 학습에 최적화된 TEI/XML 형식으로 정밀하게 변환합니다.

주요 기능AI 요약

  • SciBERT·BidLSTM 등 DeLFT 기반 딥러닝 모델 통합
  • 고성능 REST API 기반 대규모 병렬 처리 지원
  • Crossref·biblio-glutton 연동 서지 정보 자동 보정
  • CJK(한중일)·아랍어 등 다국어 지원
  • 수식·표·그림 캡션 정밀 추출 및 좌표 정보 제공
  • Apache 2.0 라이선스 완전 무료 오픈소스

활용 사례AI 요약

  • 대규모 학술 검색 엔진 인덱싱 파이프라인 구축
  • RAG 시스템용 고품질 논문 데이터 전처리
  • 자동 인용 분석 및 서지 네트워크 구축
  • 디지털 도서관 PDF 자료 일괄 구조화

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안