그로비드

그로비드

Grobid

머신러닝 기반의 학술 문헌 PDF 구조 분석 및 데이터 추출 라이브러리

무료WebAPICLI오픈소스
웹사이트 방문하기github.com
아크 서치와(과) 비교하기

소개

Grobid는 학술 논문의 복잡한 레이아웃을 분석하여 표준 TEI/XML로 변환하는 머신러닝 기반 라이브러리로, 최근 DeLFT 라이브러리를 통해 SciBERT와 같은 최신 딥러닝 모델을 통합하여 추출 정확도를 대폭 향상시켰습니다.

활용 워크플로우

데이터 수집 및 전처리
데이터 수집 및 전처리학술 PDF 문서 수집 및 로드pdfalto 기반 레이아웃 분석텍스트 및 시각적 특징(Visual Features) 추출멀티 컬럼 및 복잡한 문서 구조 인식
ML 기반 문서 세분화
ML 기반 문서 세분화문서 구역 분리 (Header, Body, References)DeLFT 딥러닝 모델 (SciBERT 등) 적용헤더 메타데이터(제목, 저자, 초록) 식별섹션 및 단락 단위 계층 구조 분석
구조화 및 상세 파싱
구조화 및 상세 파싱TEI/XML 표준 포맷 데이터 변환인용 문헌(Citations) 정밀 파싱수식(MathML) 및 표(Table) 데이터 추출본문 내 인용 포인트 자동 연결
검증 및 서비스 배포
검증 및 서비스 배포Crossref API 연동 메타데이터 보정ORCID 및 DOI 식별자 자동 연결Elasticsearch 검색 엔진 인덱싱REST API를 통한 대규모 병렬 처리 배포

핵심 차별점: 시각적 레이아웃 특징과 딥러닝 모델을 결합하여 학술 PDF의 복잡한 비정형 구조를 기계 학습에 최적화된 TEI/XML 형식으로 정밀하게 변환합니다.

주요 기능

  • DeLFT 기반 딥러닝 모델 통합 (SciBERT, BidLSTM)
  • 고성능 REST API 기반 대규모 병렬 처리
  • Crossref 및 biblio-glutton 연동 서지 보정
  • CJK(한중일) 및 아랍어 다국어 지원 강화
  • 수식, 표, 그림 캡션의 정밀 추출 및 좌표 제공

가격 정보

무료시작 가격: $0

학술 문서 및 PDF 데이터 추출을 위한 오픈소스 머신러닝 라이브러리로, Apache 2.0 라이선스 하에 무료로 제공됩니다. 상업적 이용을 포함하여 모든 기능을 비용 없이 사용할 수 있으며, 사용자가 직접 서버를 구축하여 운영하는 방식입니다.

가격표 확인하기

활용 사례

  • 대규모 학술 검색 엔진 인덱싱 (Semantic Scholar 등)
  • RAG 시스템을 위한 고품질 논문 데이터 파이프라인
  • 자동 인용 분석 및 서지 네트워크 구축

대상 사용자

데이터 과학자학술 연구원디지털 도서관 개발자

연동 서비스

Python (Grobid-client)ElasticsearchDockerCrossref

태그

PDF 파싱학술 데이터데이터 추출오픈소스머신러닝연구 자동화

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안