OCR

AI 개념
1분 읽기

이미지나 스캔 문서, 사진 속 글자를 컴퓨터가 편집·검색할 수 있는 텍스트 데이터로 변환하는 기술입니다.

다른 이름
광학 문자 인식Optical Character Recognition

상세 설명

OCR(Optical Character Recognition, 광학 문자 인식)은 인쇄물·손글씨·스캔 문서·사진 속 글자를 컴퓨터가 다룰 수 있는 텍스트 데이터로 추출하는 기술입니다. 초기에는 글자 모양을 정해진 패턴과 맞춰 보는 방식이었지만, 오늘날에는 CNN과 RNN·트랜스포머를 결합한 딥러닝으로 복잡한 레이아웃, 여러 언어, 손글씨까지 높은 정확도로 인식합니다. 문서 디지털화, 영수증·명함 인식, 차량 번호판 판독, 의료·법률 기록 변환 등에 쓰이며, Tesseract, Google Vision API, 네이버 CLOVA OCR, AWS Textract 등이 대표적인 솔루션입니다.

도구 선택에서 중요한 이유

OCR 도구는 인식 정확도만큼이나, 어떤 입력을 잘 다루는지가 중요합니다. 깔끔한 인쇄물은 대부분 잘 읽지만, 표가 많은 양식, 손글씨, 저화질 사진, 한글·외국어 혼용 문서에서는 도구별 성능 차이가 큽니다. 표 구조를 그대로 유지해 추출하는지, 결과 좌표를 함께 주는지, 처리량과 단가가 업무량에 맞는지가 실무 선택 기준이 됩니다.

도구를 고를 때 확인할 점

  • 처리할 문서 유형(양식·손글씨·저화질 사진)에서 정확도가 검증됐는가
  • 한국어를 포함한 필요 언어를 정확히 인식하는가
  • 표·항목의 위치 좌표나 구조를 함께 추출해 주는가
  • 대량 처리 시 속도와 건당 비용이 업무 규모에 맞는가

실제 적용 예시

경비 정산 담당자가 영수증 사진을 업로드하면 OCR이 상호·금액·날짜를 텍스트로 뽑아 회계 시스템에 자동 입력하도록 구성합니다. 이때 금액 칸과 날짜 칸의 위치를 함께 알려 주는 도구를 쓰면, 잘못 읽힌 항목만 골라 검수하는 워크플로를 만들 수 있어 수기 입력 시간을 크게 줄입니다.

관련 용어

컴퓨터 비전CNN딥러닝