내 PDF에는 텍스트 이미지가있는 600 페이지가 있습니다. 그것은 2 개의 층을 가지고 있습니다 .
-
레이어 1 : 배경색 이미지
-
레이어 2 : 텍스트 이미지
이미지와 같이 전체 PDF 파일에서 모든 배경 이미지 레이어를 제거하고 싶습니다.
소프트웨어 나 도구를 제안 해 주시겠습니까?
답변
개요
당신이 찾고 있는 것은 Thresholding , Despeckling 및 Noise Removal 기능이있는 Scan Tailor 및 unpaper 와 같은 도구 입니다. 두 도구 모두 PDF 파일이 아닌 이미지와 함께 작동하지만이 답변의 끝에 설명 된 도구를 사용하여 이러한 응용 프로그램에서 사용하는 다양한 형식과 PDF간에 쉽게 변환 할 수 있습니다.
ScanTailor
비디오 자습서는 여기에서 찾을 수 있습니다 . 공식 위키 에서보다 광범위한 문서를 볼 수 있습니다 . 흑백 출력 모드 및 필터 설정 페이지에 관심이있을 것입니다 .
신문사
나는 unpaper
아직 나와 함께 일하지 않았습니다. 내가 이해 한 바에 따르면 ScanTailor보다 훨씬 많은 기능이 있지만 마스터하기가 훨씬 어렵습니다.
GUI 인터페이스가 없으므로 작업을 수행하려면 명령 줄 스위치를 사용해야합니다. 반면에 이는 unpaper
스크립트를 사용하여 변환을 쉽게 자동화 할 수 있음을 의미합니다 .
당신은 흑백으로 스캔 변환 및 배경을 제거와 관련된 몇 가지 스크립트 예제를 찾을 수 있습니다 여기를 .
unpaper 및 ScanTailer로 작업 할 때 유용한 도구
ScanTailor 및 unpaper¹에 대한 전체 자습서를 작성하는 데 충분한 시간이 없지만 .pdf
이 도구에서 지원하는 이미지 형식 간 변환에 관한 몇 가지 지침 이 있습니다.
-
당신이 사용할 수있는
pdfimages
단일 페이지에 PDF 문서를 변환하기 위해.ppm
읽을 수있는 파일,unpaper
.사용 예 :
pdfimages *.pdf ./extracted-images
-
ScanTailor는
.ppm
파일을 입력으로 사용 하지 않습니다 . 무손실.png
우선 과 같은 다른 형식으로 변환해야합니다 .mogrify
의에서imagemagick
툴 스위트 당신을 위해이 작업을 수행 할 수 있습니다.사용 예 :
mogrify -format png *.ppm
-
ScanTailor 및 unpaper의 출력 형식은 단일 페이지
.tiff
파일입니다. 다시 변환하려면 and을.pdf
사용하는 것이 좋습니다 .tiffcp
tiff2pdf
사용 예 :
tiffcp *.tiff all.tiff tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
설치
이 명령은 위에서 언급 한 모든 도구를 설치합니다.
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹ :이 내용을 읽는 사람은 ScanTailor 및 / 또는 종이를 사용하지 않고보다 광범위한 답변을 자유롭게 작성하십시오.
답변
방금 매우 간단한 해결책을 찾았습니다.
-
설치하십시오
gscan2pdf
. -
를 열고
gscan2pdf
PDF를 가져옵니다. -
도구-> 임계 값. 기본값은 80 %입니다.
-
다른 위치에 PDF를 저장하십시오.