파인리더로 OCR인식을 했는데, 정확도가 낮다면 이미지 편집기에서 수동으로 편집을 하여 OCR결과를 개선할 수 있습니다.
파인리더는 자동 사전처리 기능이 있어 이미지에 따라 왜곡된 텍스트 라인, 기울기, 노이즈, 기타 결함 등 필요한 보정을 자동으로 결정하여 적용해 주는데요, 이 자동 사전처리 기능이 비활성화 되어 있거나 특정 페이지를 사전 처리 하려는 경우 이미지 편집기를 사용하여 페이지 이미지를 수동으로 편집 할 수 있습니다.
1. OCR 편집기에서 PDF를 열어주세요.
2. 상단의 이미지 편집 메뉴를 클릭해 주세요. 이미지 편집기가 맨 오른쪽에 열립니다.
여러가지 이미지 편집 도구들 중에 해상도를 조정해 볼게요. 최적의 해상도로 조정함으로써 OCR 정확도를 높일 수 있습니다.
3. 오른쪽 메뉴 중에서 해상도를 클릭해 주세요.
4. 최적 해상도 감지를 클릭 후 적용을 눌러 줍니다.
5. 이미지 편집을 마쳤으면 상단에 있는 이미지 편집기 종료 버튼을 눌러 주세요.
6. 그리고 다시 OCR편집기로 돌아가 인식 버튼을 눌러 다시 OCR 인식 처리를 해주세요.
종이책을 스캔하여 PDF파일로 만들고, 그 PDF파일을 스마트폰이나 태블릿 PC에 넣어 편리하게 가지고 다닐 수 있는 북스캔, 요즘 많이 하시는데요!
스캐너와 OCR프로그램을 사용해서 집에서도 편리하게 셀프 북스캔을 할 수 있습니다. 책을 재단하지 않고 바로 스캔을 한다면 아래 그림처럼 스캔이 될텐데요. 이럴때 맞붙어 있는 페이지를 자르고 싶다면! OCR전문프로그램 ABBYY FineReader PDF 15를 사용해서 간단히 해결할 수 있어요.
파인리더PDF15를 실행한 후 OCR 편집기에서 스캔한 PDF파일을 열어주세요!
파인리더에서 PDF를 불러오기만 해도 자동으로 맞붙은 페이지가 분할 됩니다. 아래 그림 처럼요~
[도구] - [옵션] "이미지 처리 설정" 에서 "맞붙은 페이지 분할"에 기본값으로 체크가 되어 있기 때문인데요.
만약에 반대로 페이지 분할을 원하지 않는 다면 체크 해제를 해주시면 되겠죠?
이미지 사전처리 설정에는 여러가지 설정 변경을 할 수가 있어요. 사용자 정의 설정 표시를 클릭하여 필요한 설정을 변경 하시면 됩니다.
※ 개인이 자신이 구매한 책을 영리를 목적으로 하지 않고 개인적으로 사본을 만드는 것은 저작권법 상 문제가 없으나,
스캔한 파일을 공유하는 행위는 불법 입니다. 참고하세요~!!
※ ABBYY FineReader PDF 15 시험판 다운로드 받기! (7일 동안 / 100페이지 사용 가능)
OCR 전문기업 레티아가 국내 1위 온라인리서치 회사인 마크로밀엠브레인에 영수증 인식을 위한 OCR 솔루션을 공급하였습니다. 마크로밀엠브레인은 모바일 앱으로 주로 대형마트, 편의점 등을 대상으로 한 영수증을 촬영하여 영수증 내 데이터를 수집 및 추출 하여 DB화 하는 작업을 필요로 하였습니다.
영수증 인식을 위한 OCR 솔루션은 모바일에서 촬영 후 OCR에 적합한 이미지를 생성하기 위한 레티아 모바일캡처 SDK 솔루션과 촬영된 영수증 이미지를 서버 사이드에서 인식하기 위한 ABBYY FlexiCapture 솔루션으로 구성됩니다.
※영수증을 처리하기 위한 기본적인 프로세스
▶ 이미지 획득 – 모바일 촬영, 스캔 모두 지원
▶ 서식 분류 – 입력 이미지가 100여종의 영수증 중 어떤 종류인지 구분
▶ 필드 검출 – 확인된 영수증 종류에 맞는 인식 대상 필드의 위치 검출
▶ 필드 인식 – 필드로 구분된 각 영역에 대해 OCR 수행
▶ 결과 저장 – 필드의 종류 구분 및 OCR 수행 결과 텍스트 저장
1. 모바일 촬영
사용자가 직접 촬영할 경우 OCR에 적합한 이미지가 생성되도록 이미지 전처리 작업을 진행해야 하며 이러한 처리를 위해 ABBYY Mobile Capture 기술 기반의 레티아 모바일캡처 SDK를 제공합니다.
1) 자동 촬영 기능 제공
모바일 카메라에서 촬영 시 영수증의 경계를 자동으로 검출하여 촬영 조건이 될 경우 자동으로 촬영한 후 보정기능을 수행하여 OCR에 적합한 이미지를 획득하는 통합 기능을 제공합니다.
2) OCR에 적합한 이미지 인지 판단하는 기능 제공
촬영된 이미지에서 포커싱 및 블러 검출을 통해 OCR에 적합한지 판단하는 기능을 제공합니다.
3) Auto Crop
영수증의 경계를 자동으로 검출한 후 잘라내어 원본 이미지와 동일하게 유지되도록 하는 기능을 제공합니다. 이미 촬영된 이미지 로드시 사용할 수 있습니다.
2. 서식 분류
모바일 촬영 후 OCR 시스템에 입력될 경우 입력된 이미지가 100여종의 영수증 중 어떤 영수증인지 판단하는 로직이 포함됩니다.
영수증의 서식 종류에 대한 판단에 사용되는 방법은 다음과 같습니다.
1) 이미지 기반 분류 – 이미지 형태 및 패턴을 그대로 분류에 사용합니다.
2) 텍스트 기반 분류 – OCR을 통해 분석된 텍스트 구성을 통해 분류를 진행합니다.
3) 룰 기반 분류 – 일부 유사한 서식일 경우 분석된 여러 Object들(텍스트, 이미지, 라인 등)에 대한 상관 관계를 이용해 분류를 진행합니다.
ABBYY FlexiCapture 솔루션에서는 별도의 문서 분류기를 제작할 수 있는 툴을 제공하고 있으며 머신러닝을 통해 분류 성능을 향상시킬 수 있습니다.
3. 필드 검출
영수증 서식의 종류 구분 후 해당 서식의 인식 대상 필드를 추출하기 위해 ABBYY FlexiCapture 솔루션의 FlexiLayout Studio를 통해 제작된 영수증 인식 템플릿을 적용합니다. FlexiLayout은 OCR을 통해 분석된 이미지 상의 모든 오브젝트를 이용하여 반정형 양식에서 인식 대상 필드를 추출할 수 있습니다.
4. OCR
분류된 서식 종류와 추출된 필드를 이용하여 실제 OCR 처리를 진행합니다. OCR 작업은 문서정의라는 프로젝트를 제작하여 진행되며 각 필드 별 데이터 형식 및 후처리 기능을 포함합니다. 아래는 문서정의를 통해 실제 OCR 완료된 결과입니다.
5. 결과 저장
인식된 결과 데이터에는 추출된 필드의 종류 및 OCR 완료된 데이터가 페어로 유지되며 결과 저장 방식에 따라 데이터베이스, 엑셀, CSV, XML 등 다양한 방식으로 Export 될 수 있습니다.
데이터베이스를 통한 Export는 ODBC 드라이버를 통해 이루어 지며, 데이터 베이스의 종류에는 제한이 없습니다.