광학 문자 인식 소프트웨어 권장 사항 가정합니다. 추천 광학 문자 인식

종이 버전에서 스캔 된 일부 전자 책 / 용지를 보았지만 전자 책 / 용지의 텍스트를 놀랍게 복사 할 수 있습니다. 직접 스캔 한 버전이 일부 광학 문자 인식 소프트웨어에서 처리 된 것으로 가정합니다.

추천 광학 문자 인식 소프트웨어가 무엇인지 알고 싶습니다. 특히 우분투를위한 것입니까, 무료입니까? Windows 용 제품이 훨씬 우수한 경우 알려주십시오.

특히 스캔 한 pdf 파일을 입력으로 받아들이고 입력 파일과 동일하지만 텍스트를 복사 할 수있는 다른 pdf 파일을 출력으로 생성 할 수있는 OCR에 관심이 있습니다.

감사합니다.

답변 당 하나의 소프트웨어를 제한하십시오



답변

테서 랙트 OCR

원래 엔진은 HP와 IBM이 80 년대 후반에 개발 한 것이지만 제가 사용한 최고의 안구 인식 소프트웨어 중 하나로 입증되었습니다. 최근 엔진에 대한 많은 업데이트가 진행되었으며 시장에서 가장 포괄적 인 OCR 도구 중 하나가되었습니다. 대부분의 다른 모든 OCR 도구 (90 % 이상의 텍스트 일치 항목 포함)와 비교하여 표준 문서 서체를 텍스트로 쉽게 변환 할 수 있습니다.

다음은 예입니다.

tesseract ScannedDocument.png out

out.txt라는 파일을 생성합니다


답변

이 작업을 수행 할 수있는 또 다른 프로젝트는 gscan2pdf입니다.

sudo apt-get install gscan2pdf

이 프로젝트는 Tesseract 및 기타 오픈 소스 OCR 도구를 사용할 수도 있습니다.


답변

Ubuntu의 OCR을 모르지만 Windows의 경우 필요한 기능이있는 OCR이 있습니다. 그것은 ABBYY FineReader입니다. 이 페이지 이지만 무료는 아닙니다.


답변

Repos , CunieForm (및 그놈 프론트 엔드 인 YAGF) 에 무료 솔루션이 있습니다.


답변

Decapod 프로젝트 는 PDF로 내보내거나 PDF로 내보내는 것처럼 보이 므로 Tesseract는 어떻게하면 텍스트를 찾은 위치를 알기 위해 필요한 정보를 내 보내야합니다.


답변

Adobe Acrobat (무료 응용 프로그램이 아닌 리더가 아님)은 스캔 한 PDF 문서를 OCR로 만들고 이미지 위에 보이지 않는 텍스트 레이어를 추가하여 텍스트를 선택하고 복사 할 수 있습니다. 불행히도 Acrobat의 UI에서 해당 기능이 어디에 있는지 확인하는 것이 편리하지는 않지만 언급 한 것과 동일한 목적으로 여러 번 성공적으로 사용했습니다.

예, 이것은 Linux가 아닌 Windows 소프트웨어이지만 Wine HQ 응용 프로그램 데이터베이스에 따르면 Wine에서 작동합니다 .


답변

최상의 OCR 소프트웨어는 일반적으로 프린터 / 스캐너 / 복사기에 내장되어 있습니다. 내 사무실의 Canon IRC 3880은 내가 아는 어떤 데스크탑 프로그램보다 훨씬 쉽고 빠른 OCR 파일을 출력 할 수 있습니다. 책을 트레이에 놓고 (바인드 해제) 메일 주소를 선택하고 녹색 버튼을 누릅니다.

인터넷에서 찾을 수있는 대부분의 OCR pdf는 비슷한 기계를 위해 제공됩니다. 문제는 가정용으로 사용하기에는 가격이 너무 높다는 것입니다 (약 12000 유로 IRC).