Linux에서 스크립트의 PDF에서 텍스트를 추출하는 방법은 무엇입니까? 형이 아닌 명령 줄 / 스크립트에서 사용할

Linux에서- .pdf스캔 한 이미지가 아닌 텍스트가 실제로 텍스트 인 텍스트에서 텍스트를 추출하는 방법 은 무엇입니까? 대화 형이 아닌 명령 줄 / 스크립트에서 사용할 수있는 것을 원합니다. ( .tifOCR 로 변환 하고 사용 하고 싶지 않습니다. 텍스트가 이미 .pdf파일 에서 사용 가능 하므로 불완전한 OCR에서 부정확 한 부분이 나타나는 이유는 무엇입니까?)



답변

pdftotext poppler와 함께 제공되는 PDF에서 찾은 텍스트를 추출하려고 시도합니다.


답변

이그나시오의 대답은 괜찮습니다. 사실, 그것은 내 목록에서 첫 번째 일 것입니다. 글쎄, 그리고 아마도 문단 등으로 텍스트를 다시 어셈블하려는 경우 pdfreflowpdftohtml 와 결합 된 poppler와 함께 제공 되는 도구 를 제안하는 것이 좋습니다 (물론 HTML 출력을 제공하지만 HTML을 일반 텍스트로 변환 할 수 있습니다) 여러 가지 방법으로 수행하십시오.)

다른 옵션도 있습니다.

.PDF를 일반 텍스트 (또는 RTF 또는 ePub 등의 다양한 전자 책 형식)로 변환 할 수있는 Calibreebook-convert명령 줄 도구

pdftxtextract에서 Podofo

명령 줄에서 Abiword 를 호출하여 입력 / 내보내기에서 입력 / 내보낼 수있는 형식을 변환 할 수 있으며, 적절한 가져 오기 플러그인을 사용하면 PDF가 포함됩니다.

abiword --to=txt file.pdf

(공평하게, 나는 AbiWord와 caliber가 모두 poppler 라이브러리를 사용한다고 생각하지만 긍정적이지 않습니다.)