일부 PDF 파일을 처리해야합니다. 이 작업은 주어진 이미지 파일을 다른 이미지 파일로 교환하여 구성됩니다. 첫 번째 문제는 배치 프로세스에서 명령 줄에서 PDF 이미지를 바꾸는 방법입니다. 다음으로 교체해야 할 이미지를 식별하는 방법 (PDF 파일에 둘 이상의 이미지가있을 수 있음)과 같은 다른 문제를 해결하려고합니다. 그러나 먼저 첫 번째 문제 인 PDF의 이미지를 다른 이미지로 바꾸는 방법을 해결하고 싶습니다.
poppler-utils 및 pdftk에 대해 읽었지만 내가 아는 한 이러한 도구 중 어느 것도 이미지를 PDF로 바꿀 수 없습니다.
답변
좋아 … 나는 pdflatex
여기에 빠진 조각 이라고 생각 합니다.
영업 이익은 그가 들여다했다고 밝혔다 poppler-utils
와 pdftk
. 그것에 추가하겠습니다 pdfimages
. 이것들과 함께 pdflatex
해결책의 조각들입니다.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
위의 예제 코드에서 pdfimages
4 ~ 20 페이지를 살펴보고 target.pdf
이름이 시작되는 파일로 모든 이미지를 추출합니다 imageroot
.
poppler-utils
제공합니다 pdftotext
. -layout
문서를 사람이 읽을 수있게 유지하는 데 큰 도움이되는 옵션을 권장합니다 .
pdftotext -layout $1.pdf $1.txt
pidosaurus 가 imagemagick
제공 하는 솔루션에 대한 OP의 반대 의견 은 이미지에 추출 가능한 텍스트가 없다는 것입니다. 내가 설명한 유틸리티를 사용하면 OP에 모든 이미지와 추출 된 텍스트가 모두 포함되며 페이지 번호와 내용은 옵션 으로 유지됩니다 . OP는 올바른 텍스트 페이지를 식별하고 지시문으로 끝나고 파일 이름으로 대체 그림을 참조 하는 파일에 넣을 수 있습니다 . 그런 다음 을 사용하여 문서의 나머지 부분에 삽입 할 새 단일 페이지 .pdf로 끝납니다 . 원본 페이지의 텍스트에서 이미지가 어디에 있는지 알고 있다면 이미지를 정확하게 찾을 수 있습니다 .-layout
.tex
%includegraphics
pdflatex
pdftk
%includegraphics [h]