
그로비드
Grobid
머신러닝 기반의 학술 문헌 PDF 구조 분석 및 데이터 추출 라이브러리
무료WebAPICLI오픈소스
웹사이트 방문하기github.com
아크 서치와(과) 비교하기소개
활용 워크플로우
데이터 수집 및 전처리
데이터 수집 및 전처리학술 PDF 문서 수집 및 로드pdfalto 기반 레이아웃 분석텍스트 및 시각적 특징(Visual Features) 추출멀티 컬럼 및 복잡한 문서 구조 인식
ML 기반 문서 세분화
ML 기반 문서 세분화문서 구역 분리 (Header, Body, References)DeLFT 딥러닝 모델 (SciBERT 등) 적용헤더 메타데이터(제목, 저자, 초록) 식별섹션 및 단락 단위 계층 구조 분석
구조화 및 상세 파싱
구조화 및 상세 파싱TEI/XML 표준 포맷 데이터 변환인용 문헌(Citations) 정밀 파싱수식(MathML) 및 표(Table) 데이터 추출본문 내 인용 포인트 자동 연결
검증 및 서비스 배포
검증 및 서비스 배포Crossref API 연동 메타데이터 보정ORCID 및 DOI 식별자 자동 연결Elasticsearch 검색 엔진 인덱싱REST API를 통한 대규모 병렬 처리 배포
핵심 차별점: 시각적 레이아웃 특징과 딥러닝 모델을 결합하여 학술 PDF의 복잡한 비정형 구조를 기계 학습에 최적화된 TEI/XML 형식으로 정밀하게 변환합니다.
주요 기능
- DeLFT 기반 딥러닝 모델 통합 (SciBERT, BidLSTM)
- 고성능 REST API 기반 대규모 병렬 처리
- Crossref 및 biblio-glutton 연동 서지 보정
- CJK(한중일) 및 아랍어 다국어 지원 강화
- 수식, 표, 그림 캡션의 정밀 추출 및 좌표 제공
가격 정보
무료시작 가격: $0
학술 문서 및 PDF 데이터 추출을 위한 오픈소스 머신러닝 라이브러리로, Apache 2.0 라이선스 하에 무료로 제공됩니다. 상업적 이용을 포함하여 모든 기능을 비용 없이 사용할 수 있으며, 사용자가 직접 서버를 구축하여 운영하는 방식입니다.
활용 사례
- 대규모 학술 검색 엔진 인덱싱 (Semantic Scholar 등)
- RAG 시스템을 위한 고품질 논문 데이터 파이프라인
- 자동 인용 분석 및 서지 네트워크 구축
대상 사용자
데이터 과학자학술 연구원디지털 도서관 개발자
연동 서비스
Python (Grobid-client)ElasticsearchDockerCrossref
태그
PDF 파싱학술 데이터데이터 추출오픈소스머신러닝연구 자동화
사용자 리뷰
리뷰를 불러오는 중...
대안 도구
이 도구 대신 사용할 수 있는 대안



