이 블로그 게시물을 읽은 후 :
- Linux, OCR 및 PDF-문제 해결
- 오픈 소스 도구 ghostscript, hocr2pdf 및 tesseract-ocr로 검색 가능한 PDF 작성
- PDF 스캔과 함께 Tesseract OCR 사용
Linux 용 ( 이 요지에서) 아래 스 니펫을 통해 여러 페이지 PDF를 OCR로 작성하고 OS X에서도 작동하는 출력으로 PDF를 얻는 방법을 찾았습니다. 대부분의 종속성은 homebrew에서 사용할 수 있습니다 ( brew install tesseract
및 brew install imagemagick
) 중 하나를 제외하고 hocr2pdf
.
OS X 용 포트를 찾을 수 없습니다. 사용 가능한 포트가 있습니까? 그렇지 않은 경우 무료 오픈 소스 도구를 사용하여 OCR에서 여러 페이지로 된 PDF를 어떻게 OS X의 여러 페이지로 다시 가져올 수 있습니까?
#!/bin/bash
# This is a script to transform a PDF containing a scanned book into a searchable PDF.
# Based on previous script and many good tips by Konrad Voelkel:
# http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
# http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
# Depends on convert (ImageMagick), pdftk and hocr2pdf (ExactImage).
# $ sudo apt-get install imagemagick pdftk exactimage
# You also need at least one OCR software which can be either tesseract or cuneiform.
# $ sudo apt-get install tesseract-ocr
# $ sudo apt-get install cuneiform
# To install languages into tesseract do (e.g. for Portuguese):
# $ sudo apt-get install tesseract-ocr-por
echo "usage: ./pdfocr.sh document.pdf ocr-sfw split lang author title"
# where ocr-sfw is either tesseract or cuneiform
# split is either 0 (already single-paged) or 1 (2 book-pages per pdf-page)
# lang is a language as in "tesseract --list-langs" or "cuneiform -l".
# and author, title are used for the PDF metadata.
#
# usage example:
# ./pdfocr.sh SomeFile.pdf tesseract 1 por "Some Author" "Some Title"
pdftk "$1" burst dont_ask
for f in pg_*.pdf
do
if [ "1" == "$3" ]; then
convert -normalize -density 300 -depth 8 -crop 50%x100% +repage $f "$f.png"
else
convert -normalize -density 300 -depth 8 $f "$f.png"
fi
done
rm pg_*.pdf
for f in pg_*.png
do
if [ "tesseract" == "$2" ]; then
tesseract -l $4 -psm 1 $f $f hocr
elif [ "cuneiform" == "$2" ]; then
cuneiform -l $4 -f hocr -o "$f.html" $f
else
echo "$2 is not a valid OCR software."
fi
hocr2pdf -i $f -r 300 -s -o "$f.pdf" < "$f.html"
done
pdftk pg_*.pdf cat output merged.pdf
pdftk merged.pdf update_info_utf8 doc_data.txt output merged+data.pdf
echo "InfoBegin" > in.info
echo "InfoKey: Author" >> in.info
echo "InfoValue: $5" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Title" >> in.info
echo "InfoValue: $6" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Creator" >> in.info
echo "InfoValue: PDF OCR scan script" >> in.info
in_filename="${1%.*}"
pdftk merged+data.pdf update_info_utf8 in.info output "$in_filename-ocr.pdf"
rm -r doc_data.txt in.info merged* pg_*
답변
Tesseract 3.03+는 PDF 출력을 지원합니다. leptonica를 설치해야합니다. brew install tesseract --HEAD
tesseract의 최신 버전을 얻으려면 다음 을 사용할 수 있습니다
. 고스트 스크립트도 설치해야하지만 hocr2pdf는 필요하지 않습니다.
다음 스크립트는 고스트 스크립트를 사용하여 PDF를 JPEG로 분할하고 tesseract를 OCR로 JPEG로 변환하고 단일 PDF 페이지를 출력 한 다음 마지막으로 다시 고스트 스크립트를 사용하여 페이지를 하나의 PDF로 다시 결합합니다.
#!/bin/sh
y="`pwd`/$1"
echo Will create a searchable PDF for $y
x=`basename "$y"`
name=${x%.*}
mkdir "$name"
cd "$name"
# splitting to individual pages
gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=jpeg -r300 -dTextAlphaBits=4 -o out_%04d.jpg -f "$y"
# process each page
for f in $( ls *.jpg ); do
# extract text
tesseract -l eng -psm 3 $f ${f%.*} pdf
rm $f
done
# combine all pages back to a single file
gs -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="../${name}_searchable.pdf" *.pdf
cd ..
rm -rf "${name}"
# Adapted from: http://www.morethantechnical.com/2013/11/21/creating-a-searchable-pdf-with-opensource-tools-ghostscript-hocr2pdf-and-tesseract-ocr/
# from http://www.ehow.com/how_6874571_merge-pdf-files-ghostscript.html
# bash tut: http://linuxconfig.org/bash-scripting-tutorial
# Linux PDF,OCR: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/