Wget을 사용하고 있으며 문제가 발생했습니다. 사이트 내에 여러 폴더와 하위 폴더가있는 사이트가 있습니다. 각 폴더와 하위 폴더 내의 모든 내용을 다운로드해야합니다. Wget을 사용하여 여러 가지 방법을 시도했으며 완료를 확인할 때 폴더에서 볼 수있는 모든 것은 “인덱스”파일입니다. 색인 파일을 클릭하면 파일로 이동하지만 실제 파일이 필요합니다.
누구든지 내가 간과 한 Wget 명령을 가지고 있습니까? 아니면이 정보를 모두 얻는 데 사용할 수있는 다른 프로그램이 있습니까?
사이트 예 :
www.mysite.com/Pictures/ Pictures DIr에는 여러 개의 폴더가 있습니다 …..
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/ 북아메리카 / 캘리포니아 /JoeUser.jpg
모든 파일, 폴더 등이 필요합니다 …
답변
나는 당신이 이것을 시도하지 않았다고 가정하고 싶다 :
wget -r --no-parent http://www.mysite.com/Pictures/
또는 “index.html”파일을 다운로드하지 않고 내용을 검색하려면 :
wget -r --no-parent --reject "index.html *"http://www.mysite.com/Pictures/
답변
나는 사용한다 wget -rkpN -e robots=off http://www.example.com/
-r
재귀 적으로 의미
-k
링크 변환을 의미합니다. 따라서 웹 페이지의 링크는 example.com/bla 대신 로컬 호스트입니다.
-p
모든 웹 페이지 리소스를 가져 와서 이미지 및 자바 스크립트 파일을 가져와 웹 사이트가 제대로 작동해야 함을 의미합니다.
-N
로컬 파일이 원격 웹 사이트의 파일보다 최신 인 경우 타임 스탬프를 검색하여 건너 뜁니다.
-e
robots=off
작동 하려면 플래그 옵션이 있어야합니다 .
robots=off
로봇 파일 무시를 의미합니다.
또한 -c
이 명령을 사용했기 때문에 명령을 다시 실행할 때 중단 된 부분에서 계속 연결이 끊어지면 연결이 끊어졌습니다. 나는 -N
잘 어울릴 것이라고 생각 했다-c
답변
wget -m -A * -pk -e robots = off www.mysite.com/ 모든 유형의 파일을 로컬로 다운로드하고 html 파일에서 해당 파일을 가리키며
로봇 파일을 무시합니다.