먼저, 이전에 요청한 경우 사과드립니다-기존 게시물을 통해 잠시 검색했지만 지원을 찾을 수 없습니다.
Fedora가 여러 페이지로 검색 할 수없는 pdf를 OCR로 변환하고이 pdf를 이미지 위에 텍스트 레이어가 포함 된 새로운 pdf 파일로 변환하는 솔루션에 관심이 있습니다. Mac OSX 또는 Windows에서 Adobe Acrobat을 사용할 수 있지만 Linux, 특히 Fedora에서?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/는 솔루션을 설명하는 것 같다 -하지만 정확한 이미지를 검색 할 때 불행하게도 이미 손실입니다.
답변
사용 pypdfocr
하는 것이 가장 쉽고 쉬운 방법 은 pdf를 변경하지 않습니다. pypdfocr은 python 모듈 링크입니다.
pypdfocr your_document.pdf
마지막에는 your_document_ocr.pdf
검색 가능한 텍스트로 원하는 방식으로 다른 것을 얻을 수 있습니다. 앱은 이미지 품질을 변경하지 않습니다. 오버레이 텍스트를 추가하여 파일 크기를 약간 늘립니다.
GUI가 필요없는 명령은 매우 쉽다고 생각합니다. 아마 pypdfocr 설치가 조금 더 장황합니다 :
sudo dnf -y install tesseract
pip install pypdfocr
2018 년 11 월 3 일 업데이트 :
pypdfocr
는 2016 년부터 더 이상 지원되지 않으며 유지되지 않아서 일부 문제를 발견했습니다. ocrmypdf
( module )은 비슷한 작업을 수행하며 다음과 같이 사용할 수 있습니다.
ocrmypdf in.pdf out.pdf
설치하기 위해서:
pip install ocrmypdf
또는
sudo apt install ocrmypdf #ubuntu
sudo dnf -y install ocrmypdf #fedora
답변
tesseract가 이제 검색 가능한 PDF를 생성 할 수 있다는 것을 알게 된 후 스크립트 샌드위치를 찾았습니다 .
종속성을 설치 한 후 (전체 목록이 아닐 수도 있음)
sudo dnf install svn ocaml unpaper tesseract
소스에서 컴파일하기 위해 스크립트 가이드를 따랐습니다.
소스에서 컴파일
pdfsandwich는 오픈 소스 소프트웨어입니다 (라이센스 : GPL). 프로젝트 웹 사이트의 다운로드 영역에서 .tar.bz2 패키지로 소스를 다운로드하거나 subversion으로 확인할 수 있습니다.
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
OCaml이 시스템에 설치되어 있으면 다음과 같이 컴파일하고 설치할 수 있습니다.
cd pdfsandwich
./configure
make
sudo make install
그리고 이것은 이제 내가 달릴 수있게합니다.
sandwich multipaged-non-searchable.pdf
검색 가능한 pdf를 생성합니다.
답변
Ubuntu에서 사용 가능한 쉬운 도구는 ‘ocrfeeder’입니다. 원본 문서에 OCR 텍스트가 겹쳐진 PDF를 생성 할 수 있습니다. Tesseract와 다른 OCR 엔진 (어떤 것인지 확실하지 않음)을 사용하며 이미지 회전 / ‘언 페이퍼’등을 제공합니다.
답변
나는이 같은 문제가 있었으므로 주말에 이것을 썼다. 그것에게 주사를; 그것은 위대한 작품! 그것은 간단한 래퍼 주위입니다 tesseract
. 그것은 사용 pdftoppm
후 사용, TIFF 파일의 무리로 PDF를 변환하는 tesseract
그들에 OCR (광학 문자 인식)을 수행하고 출력으로 검색 가능한 PDF를 생성 할 수 있습니다. 스크립트가 완료되면 모든 중간 임시 파일이 자동으로 삭제됩니다.
소스 코드 : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
설치 및 사용 지침 pdf2searchablepdf
:
2019 년 11 월 11 일 우분투 18.04에서 테스트되었습니다.
설치
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr
용도:
pdf2searchablepdf mypdf.pdf
이제 검색 가능한 텍스트가 포함 된 pdf mypdf_searchable.pdf를 갖게 됩니다!
끝난. 파이썬 전적으로 bash로 작성되었으므로 파이썬 의존성이 없습니다.
참조 또는 관련 리소스 :
- PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
- /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
- /ubuntu/16268/whats-the-best-simplest-ocr-solution
- /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
- pdfsandwich : 방금 발견 한 대체 소프트웨어 래퍼입니다. http://www.tobias-elze.de/pdfsandwich/