OCR 전문기업 레티아가 국내 1위 온라인리서치 회사인 마크로밀엠브레인에 영수증 인식을 위한 OCR 솔루션을 공급하였습니다. 마크로밀엠브레인은 모바일 앱으로 주로 대형마트, 편의점 등을 대상으로 한 영수증을 촬영하여 영수증 내 데이터를 수집 및 추출 하여 DB화 하는 작업을 필요로 하였습니다.

영수증 인식을 위한 OCR 솔루션은 모바일에서 촬영 후 OCR에 적합한 이미지를 생성하기 위한 레티아 모바일캡처 SDK 솔루션과 촬영된 영수증 이미지를 서버 사이드에서 인식하기 위한 ABBYY FlexiCapture 솔루션으로 구성됩니다.

※영수증을 처리하기 위한 기본적인 프로세스

▶ 이미지 획득 – 모바일 촬영, 스캔 모두 지원

▶ 서식 분류 – 입력 이미지가 100여종의 영수증 중 어떤 종류인지 구분

▶ 필드 검출 – 확인된 영수증 종류에 맞는 인식 대상 필드의 위치 검출

▶ 필드 인식 – 필드로 구분된 각 영역에 대해 OCR 수행

▶ 결과 저장 – 필드의 종류 구분 및 OCR 수행 결과 텍스트 저장

1. 모바일 촬영

사용자가 직접 촬영할 경우 OCR에 적합한 이미지가 생성되도록 이미지 전처리 작업을 진행해야 하며 이러한 처리를 위해 ABBYY Mobile Capture 기술 기반의 레티아 모바일캡처 SDK를 제공합니다.

 

1) 자동 촬영 기능 제공

모바일 카메라에서 촬영 시 영수증의 경계를 자동으로 검출하여 촬영 조건이 될 경우 자동으로 촬영한 후 보정기능을 수행하여 OCR에 적합한 이미지를 획득하는 통합 기능을 제공합니다.

2) OCR에 적합한 이미지 인지 판단하는 기능 제공

촬영된 이미지에서 포커싱 및 블러 검출을 통해 OCR에 적합한지 판단하는 기능을 제공합니다.

3) Auto Crop

영수증의 경계를 자동으로 검출한 후 잘라내어 원본 이미지와 동일하게 유지되도록 하는 기능을 제공합니다. 이미 촬영된 이미지 로드시 사용할 수 있습니다.

 

2. 서식 분류

모바일 촬영 후 OCR 시스템에 입력될 경우 입력된 이미지가 100여종의 영수증 중 어떤 영수증인지 판단하는 로직이 포함됩니다.

영수증의 서식 종류에 대한 판단에 사용되는 방법은 다음과 같습니다.

1) 이미지 기반 분류 – 이미지 형태 및 패턴을 그대로 분류에 사용합니다.

2) 텍스트 기반 분류 – OCR을 통해 분석된 텍스트 구성을 통해 분류를 진행합니다.

3) 룰 기반 분류 – 일부 유사한 서식일 경우 분석된 여러 Object들(텍스트, 이미지, 라인 등)에 대한 상관 관계를 이용해 분류를 진행합니다.

 

ABBYY FlexiCapture 솔루션에서는 별도의 문서 분류기를 제작할 수 있는 툴을 제공하고 있으며 머신러닝을 통해 분류 성능을 향상시킬 수 있습니다.

3. 필드 검출

영수증 서식의 종류 구분 후 해당 서식의 인식 대상 필드를 추출하기 위해 ABBYY FlexiCapture 솔루션의 FlexiLayout Studio를 통해 제작된 영수증 인식 템플릿을 적용합니다. FlexiLayout은 OCR을 통해 분석된 이미지 상의 모든 오브젝트를 이용하여 반정형 양식에서 인식 대상 필드를 추출할 수 있습니다.

 

4. OCR

분류된 서식 종류와 추출된 필드를 이용하여 실제 OCR 처리를 진행합니다. OCR 작업은 문서정의라는 프로젝트를 제작하여 진행되며 각 필드 별 데이터 형식 및 후처리 기능을 포함합니다. 아래는 문서정의를 통해 실제 OCR 완료된 결과입니다.

 

5. 결과 저장

인식된 결과 데이터에는 추출된 필드의 종류 및 OCR 완료된 데이터가 페어로 유지되며 결과 저장 방식에 따라 데이터베이스, 엑셀, CSV, XML 등 다양한 방식으로 Export 될 수 있습니다.

데이터베이스를 통한 Export는 ODBC 드라이버를 통해 이루어 지며, 데이터 베이스의 종류에는 제한이 없습니다.

레티아 모바일캡처 SDK 바로가기

ABBYY FlexiCapture 바로가기

블로그 이미지

OCR전문기업 레티아

OCR프로그램, PDF변환프로그램 리뷰를 포함하여 ABBYY의 OCR엔진, 모바일, 데이터캡처 솔루션, 서버형 솔루션, 명함인식 솔루션 등 다양한 정보를 제공합니다.

,