ABBYY OCR SDK 샘플 프로젝트 4탄 - 문서 자동 분류 



글로벌 점유율 및 성능 1위 OCR 전문 벤더 ABBYY 의 OCR 엔진 'ABBYY FineReader Engine 11' 본격 탐구! 샘플프로젝트 시리즈 4탄입니다. 


저희 레티아에서 시리즈로 'ABBYY FineReader Engine 11'의 샘플 프로젝트에 대해 소개해드리고 있는데요, 이 엔진은 설치 즉시 다양한 동작을 확인할 수 있는 샘플 프로젝트를 제공합니다! 개발자 분들께서는 이 샘플 프로젝트를 꼭 확인하셔서 OCR API를 활용하시는데 도움을 되기를 바랍니다! 





지난 포스팅에서 다룬 내용 


1탄 - 프로세싱 프로파일 바로가기

2탄 - 멀티코어 프로세싱 바로가기

3탄 - PDF Export 프로파일 바로가기 





이번 4탄에서는 문서분류(Classification) 기능에 대해 알아볼텐데요,

아마 많은 분들께서 궁금해하셨던 내용이 아닐까 싶습니다. 



(↑ ABBYY FineReader Engine 11 (SDK) 문서 분류 기능 ) 




ABBYY FineReader Engine 11이 이미지 문서분류에 어떻게 사용될 수 있는지 설명할텐데요, 

FineReader Engine을 활용하면 이미지 배치에 대한 분류작업을 할 수 있습니다. 

선 트레이닝된 분류 모델(Pretrained Classification Model) 은 다음 언어에 적용됩니다. 


영어 / 한국어/ 중국어 / 일본어 / 프랑스어 / 독일어 / 이탈리아어 / 포르투갈어 / 스페인어 / 러시아어 




어떻게 동작하는 지, 동작 방식에 대해 알아보겠습니다. 


선트레이닝된 분류기 (Pretrained Classifier)를 이용해서 문서를 분류하려면 


1. 분류할 이미지의 폴더를 선택합니다.

2. 인식 언어를 설정합니다. *classified document windows 에서 언어리스트를 볼 수 있습니다. 

3. Classification 버튼을 클릭합니다. 










문서 분류를 위해서 FineReader Engine 을 트레이닝 하려면 


1. 분류를 원하는 모든 타입의 이미지가 포함된 데이터베이스를 생성합니다. 

데이터베이스 생성은 Help 파일의 “Classifying Documents “를 참고 하시기 바랍니다. 

이미지를 문서 타입으로 명명된 폴더들에 모으고 모든 폴더를 하나의 폴더에 넣습니다. 

2. 문서의 언어를 선택합니다.  

3. “Train” 버튼을 클릭합니다.

4. “다이얼로그 박스에서 폴더 위치를 지정합니다. 

5. 분류 클래스의 목록을 확인하고 “Training”을 클릭합니다.  

6. 분류 트레이닝이 끝나면 문서를 새로 만들어진 분류기(Classifier)로 분류 할 수 있습니다. “User –trained classified”를 선택한 후 “Classification”을 클릭합니다.  





↑ 유튜브 동영상 바로가기 : https://youtu.be/ZsTYhmeBBgU


이미지 문서 분류 사용에 관한 자세한 내용은 동영상으로도 확인하실 수 있습니다^^  









A comprehensive OCR SDK for software developers.


More value for your software solution!!! 


시험판 신청 및 제품 소개 바로가기 

 







블로그 이미지

OCR전문기업 레티아

OCR프로그램, PDF변환프로그램 리뷰를 포함하여 ABBYY의 OCR엔진, 모바일, 데이터캡처 솔루션, 서버형 솔루션, 명함인식 솔루션 등 다양한 정보를 제공합니다.

,


ABBYY OCR SDK 샘플 프로젝트 3탄 - PDF Export 프로파일 



글로벌 점유율 및 성능 1위 OCR 전문 벤더 ABBYY 의 OCR 엔진 'ABBYY FineReader Engine 11' 본격탐구! 샘플프로젝트 시리즈 3탄입니다. 


OCR 엔진하면 어렵게 생각하시는 개발자님들이 많으실텐데요. ABBYY의 OCR 엔진은 설치 후 즉시 동작을 확인할 수 있는 쉽고 간단한 샘플프로젝트를 다양하게 제공하고 있습니다. 이 샘플프로젝트를 통해서 개발자분들께서  OCR엔진(ABBYY FineReader Engine)에 대해 좀 더 쉽게 이해하실 수 있습니다. ^^


레티아에서 알려드는 샘플 프로젝트 놓치지 마세요~ 





지난 포스팅 

1탄 - 프로세싱 프로파일 바로가기

2탄 - 멀티코어 프로세싱 바로가기





3탄 포스팅은 바로 <PDF Export 프로파일>입니다.


이 샘플프로젝트는 OCR 엔진으로 인식 후, PDF 포맷으로 저장할 때 

PDF Export 프로파일을 사용하면 어떤 장점이 있는지 보여줍니다. 


이 샘플은 특정 폴더의 이미지들을 처리한 뒤 

그 결과를 일부 파라미터가 최적화된 PDF포맷으로 저장합니다. 


(예 : 품질이 가장 좋은 파일, 가장 빠른 속도로 생성된 파일, 

파일 사이즈가 가장 작은 파일 및 모든 파라미터가 균형이 잡혔을 때 생성되는 파일 등) 



각 파일의 사이즈와 각각의 처리 속도를 비교하고, 비교 결과는 다이어그램으로 표시됩니다. 







동작하는 방식은 크게 아래의 단계로 나눠집니다. 


1. 인식할 이미지 폴더를 선택합니다.


2. 인식할 이미지의 인식언어를 선택합니다. 


3. PDF 포맷 저장의 파라미터 설정합니다. 

 

- Text export mode  :

 페이지 이미지 위에 텍스트, 

페이지 이미지 밑에 텍스트,

 이미지만 저장, 텍스트만 저장 등을 선택할 수 있습니다. 


- Colority : 

원본 이미지의 색상을 유지 또는 그레이로 저장 선택할 수 있습니다. 


- 그림 해상도 : 

원하는 해상도를 설정할 수 있습니다. 


-  압축 여부 : 

ABBYY OCR 엔진이 지원하는 고품질 MRC 압축 사용 여부를 선택할 수 있습니다. 


- PDF/A 준수 :

 PDF, PDF/A-1a, PDF/A-1b 포맷을 지원합니다. 


5. 이제 Start 버튼을 눌러 작업을 실행합니다. 


5. <파일생성시간 비교 다이어그램> 아래 각각의 저장 시나리오와 결과 밑의 

'open file' 을 눌러 결과파일을 볼 수 있습니다. 






↑유튜브 동영상 바로가기 : https://youtu.be/Ke1QhbB3-JY


좀 더 자세하게 보고싶으시다면, 데모 동영상으로 확인해보세요 ^^ 









A comprehensive OCR SDK for software developers.


More value for your software solution!!! 


시험판 신청 및 제품 소개 바로가기 

 






 

블로그 이미지

OCR전문기업 레티아

OCR프로그램, PDF변환프로그램 리뷰를 포함하여 ABBYY의 OCR엔진, 모바일, 데이터캡처 솔루션, 서버형 솔루션, 명함인식 솔루션 등 다양한 정보를 제공합니다.

,



ABBYY OCR SDK 샘플 프로젝트 2탄 - 멀티코어 프로세싱 




최고의 성능을 자랑하는 OCR 전문 개발엔진

 'ABBYY FineReader Engine 11' 의 기능에 대해 알아보겠습니다. 

1탄에서는 프로세싱 프로파일을 알아보았는데요 1탄 바로가기 







ABBYY FineReader Engine 11은 

세계최고의 글로벌 OCR 밴더 ABBYY사의 

OCR 소프트웨어 개발 툴킷입니다. 








ABBYY FineReader Engine 11은 

설치 후 즉시 동작을 확인할 수 있는 

다양한 샘플 프로젝트를 제공하고 있는데요~ 


이번 글에서는 여러개의 샘플프로젝트 중 2탄 

<멀티코어 프로세싱>을 소개합니다. ^^ 

 

이 샘플은 싱글 프로세스로 문서를 인식할때와 비교해서 여러개의 인식 프로세스로

멀티 페이지 문서를 인식할때 얼마나 속도가 빨라지는지 보여줍니다. 







인식을 위해서는 FineReader Document 객체의 메소드를 사용하게 됩니다. 

 이때 


- 이미지 파일들은 특정 위치로부터 FineReader  Document 객체에 하나씩 차례로 추가됩니다.

- 모든 이미지가 추가되었을때 병렬 인식이 시작됩니다.

- 모든 페이지가 인식된 다음, 문서 전체의 결과에 접근이 가능하게 됩니다. 






스크린샷에서 보시는 것처럼 싱글프로세스 처리 시 보다 

멀티프로세싱 인식을 수행할 때 속도가 빠른 것을 알 수 있습니다 






* 참고사항 

Core2 Duo T9800, 2,9 GHz, Windows 7, 4 GB RAM 32bit이 탑재된 PC에서 동작하였습니다. 

샘플이미지는 ABBYY FineReader 엔진 설치 시 저장되는 이미지를 사용하였습니다. 







좀 더 자세하게 설명해드릴게요~ 

샘플은 특정 폴더로부터 문서를 처리하고 
필요한 경우 PDF 포맷으로 결과를 저장합니다. 

또, 싱글 쓰레드로 처리 할 때와 병렬 쓰레드 사용시의 속도를 비교하며, 
결과는 다이어그램으로 보여줍니다. 

동작 방식은 다음과 같습니다. 



1. 인식 이미지들이 있는 폴더를 선택합니다.  

2. 처리할 문서의 인식 언어를 설정합니다.

3. 테스트에 사용할 CPU 코어 수를 설정합니다. 기본 설정은 가능한 최대 수의 코어 와 같습니다. 
코어 하나에 대한 테스트는 자동으로 기록됩니다.

4. 텍스트로 저장할 지 설정합니다. 
결과를 저장하면 처리에 필요한 모든 과정(Analysis, Recognition, Synthesis, Export)에 걸리는 시간이 모두 측정됩니다. 
결과를 저장하지 않으면 Analysis와Recognition 시간만 측정이 됩니다. 

5. “Start”를 클릭해서 샘플을 동작시킵니다.





아직 잘 모르시겠다면 데모 동영상으로 확인하실 수 있습니다. 

 


레티아 유튜브 동영상 바로가기 





본 SDK 제품의 소개자료가 필요하시거나, 시험판을 원하실 경

레티아 홈페이지의 SDK 제품 소개 페이지를 방문해주세요! 


바로가기 






블로그 이미지

OCR전문기업 레티아

OCR프로그램, PDF변환프로그램 리뷰를 포함하여 ABBYY의 OCR엔진, 모바일, 데이터캡처 솔루션, 서버형 솔루션, 명함인식 솔루션 등 다양한 정보를 제공합니다.

,



ABBYY OCR SDK 샘플프로젝트 1탄 - 프로세싱 프로파일 



최고의 OCR프로그램 'ABBYY FineReader' 에 대해 아시는 분들 많으실거에요~ 


그렇다면 'ABBYY FineReader Engine' 이란 무엇일까요? 



ABBYY FineReader Engine 은 API 형태로 제공되며 

FineReader 패키지 프로그램에 모든 기능을 API를 통해 접근 할 수 있는

 소프트웨어개발툴킷입니다. 







ABBYY FineReader Engine은 지원하는 기능이 굉장히 다양하고 내용도 많아

 사용하기 어렵다고 생각하시는 개발자님들이 꽤 있으실것 같은데요! 


사실 전혀 그렇지 않습니다. ㅎㅎ 

엔진을 설치하면 즉시 동작을 확인할 수 있는 여러가지 샘플 프로젝트를 포함하고 있습니다. 


오늘은 샘플 프로젝트중 첫번째로 ' 프로세싱 프로파일 ' 기능에 대해 알아보겠습니다. 







ABBYY FineReader Engine은 미리 지정된 프로세싱 프로파일로 

사용 목적에 따라 쉽게 엔진 설정을 할 수 있습니다. 


인식 작업 전에 인식 시나리오에 적합한 프로파일을 선택하기만 하면 

FineReader Engine이 자동으로 최적의 상태로 설정 됩니다.


샘플을 실행하면 다음 결과를 볼 수 있습니다.





ABBYY FineReader Engine 11 샘플 프로젝트 


Document Conversion Profiles: 

 Accuracy vs. Speed


문서 변환 프로파일 

정확도 VS 속도 







ABBYY FineReader Engine 11 샘플 프로젝트 


Text Extraction (Speed) vs Book Archiving (Speed)


텍스트 추출 (속도) vs 저장 (속도) 




(참고 : * Quad i7-3720QM, 2,6 GHz, Windows 7, 16 GB RAM, 64 bi이 탑재된 PC에서 동작하였습니다. 

샘플 이미지는 엔진 설치 시 저장되는 이미지 사용하였습니다) 







좀 더 자세하게 설명 드릴게요!! 


이 샘플에서는 특정 폴더의 이미지 샘플을 두 가지의 서로 다른

 Processing Profile을 사용하여 처리 할 때의 차이를 보여주는데요~ 




각 프로파일이 적용 되었을 때 속도의 차이와 인식 Element 수의 차이를 보여 줍니다. 


테스트 한 결과는 도표와 테이블로 표시가 됩니다

 

 


샘플을 동작 시키는 방법에 대해 알아볼까요?   



1. 처리할 이미지가 저장된 폴더를 선택합니다. 

2. 처리할 문서의 인식 언어를 선택합니다. .

3. 비교할 프로세싱 프로파일 두 가지를 지정합니다.  

4. Go 버튼을 클릭합니다. 

5. 세팅을 변경하고 “Recalculate”을 클릭하면 새로운 통계를 얻게 됩니다. 





아직 잘 모르시겠다면 데모 동영상으로 확인하실 수 있습니다. 

 


레티아 유튜브 동영상 바로가기 





본 SDK 제품의 소개자료가 필요하시거나, 시험판을 원하실 경

레티아 홈페이지의 SDK 제품 소개 페이지를 방문해주세요! 


바로가기 









블로그 이미지

OCR전문기업 레티아

OCR프로그램, PDF변환프로그램 리뷰를 포함하여 ABBYY의 OCR엔진, 모바일, 데이터캡처 솔루션, 서버형 솔루션, 명함인식 솔루션 등 다양한 정보를 제공합니다.

,