텍스트를 유지하면서 PDF 문서 스캔의 그레이 스케일 페이지 배경을 제거하려면 어떻게해야합니까? (양화) 있습니다. 그것은 2

내 PDF에는 텍스트 이미지가있는 600 페이지가 있습니다. 그것은 2 개의 층을 가지고 있습니다 .

  • 레이어 1 : 배경색 이미지

  • 레이어 2 : 텍스트 이미지

이미지와 같이 전체 PDF 파일에서 모든 배경 이미지 레이어를 제거하고 싶습니다.

여기에 이미지 설명을 입력하십시오

소프트웨어 나 도구를 제안 해 주시겠습니까?



답변

개요

당신이 찾고 있는 것은 Thresholding , Despeckling 및 Noise Removal 기능이있는 Scan Tailorunpaper 와 같은 도구 입니다. 두 도구 모두 PDF 파일이 아닌 이미지와 함께 작동하지만이 답변의 끝에 설명 된 도구를 사용하여 이러한 응용 프로그램에서 사용하는 다양한 형식과 PDF간에 쉽게 변환 할 수 있습니다.

ScanTailor

비디오 자습서는 여기에서 찾을 수 있습니다 . 공식 위키 에서보다 광범위한 문서를 볼 수 있습니다 . 흑백 출력 모드 및 필터 설정 페이지에 관심이있을 것입니다 .

신문사

나는 unpaper아직 나와 함께 일하지 않았습니다. 내가 이해 한 바에 따르면 ScanTailor보다 훨씬 많은 기능이 있지만 마스터하기가 훨씬 어렵습니다.

GUI 인터페이스가 없으므로 작업을 수행하려면 명령 줄 스위치를 사용해야합니다. 반면에 이는 unpaper스크립트를 사용하여 변환을 쉽게 자동화 할 수 있음을 의미합니다 .

당신은 흑백으로 스캔 변환 및 배경을 제거와 관련된 몇 가지 스크립트 예제를 찾을 수 있습니다 여기를 .


unpaper 및 ScanTailer로 작업 할 때 유용한 도구

ScanTailor 및 unpaper¹에 대한 전체 자습서를 작성하는 데 충분한 시간이 없지만 .pdf이 도구에서 지원하는 이미지 형식 간 변환에 관한 몇 가지 지침 이 있습니다.

  • 당신이 사용할 수있는 pdfimages단일 페이지에 PDF 문서를 변환하기 위해 .ppm읽을 수있는 파일, unpaper.

    사용 예 :

    pdfimages *.pdf ./extracted-images
  • ScanTailor는 .ppm파일을 입력으로 사용 하지 않습니다 . 무손실 .png우선 과 같은 다른 형식으로 변환해야합니다 . mogrify의에서 imagemagick툴 스위트 당신을 위해이 작업을 수행 할 수 있습니다.

    사용 예 :

    mogrify -format png *.ppm
  • ScanTailor 및 unpaper의 출력 형식은 단일 페이지 .tiff파일입니다. 다시 변환하려면 and을 .pdf사용하는 것이 좋습니다 .tiffcptiff2pdf

    사용 예 :

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

설치

이 명령은 위에서 언급 한 모든 도구를 설치합니다.

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹ :이 내용을 읽는 사람은 ScanTailor 및 / 또는 종이를 사용하지 않고보다 광범위한 답변을 자유롭게 작성하십시오.


답변

방금 매우 간단한 해결책을 찾았습니다.

  • 설치하십시오 gscan2pdf.

  • 를 열고 gscan2pdfPDF를 가져옵니다.

  • 도구-> 임계 값. 기본값은 80 %입니다.

  • 다른 위치에 PDF를 저장하십시오.


답변

어쩌면 마스터 PDF 편집기 나는 600 페이지 이상 자동으로 수행 어쨌든 발견하지 않지만, 당신을 도울 수 있습니다.