Wget을 사용하여 모든 폴더, 하위 폴더 및 파일 다운로드 문제가 발생했습니다. 사이트 내에 여러 폴더와

Wget을 사용하고 있으며 문제가 발생했습니다. 사이트 내에 여러 폴더와 하위 폴더가있는 사이트가 있습니다. 각 폴더와 하위 폴더 내의 모든 내용을 다운로드해야합니다. Wget을 사용하여 여러 가지 방법을 시도했으며 완료를 확인할 때 폴더에서 볼 수있는 모든 것은 “인덱스”파일입니다. 색인 파일을 클릭하면 파일로 이동하지만 실제 파일이 필요합니다.

누구든지 내가 간과 한 Wget 명령을 가지고 있습니까? 아니면이 정보를 모두 얻는 데 사용할 수있는 다른 프로그램이 있습니까?

사이트 예 :

www.mysite.com/Pictures/ Pictures DIr에는 여러 개의 폴더가 있습니다 …..

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/ 북아메리카 / 캘리포니아 /JoeUser.jpg

모든 파일, 폴더 등이 필요합니다 …



답변

나는 당신이 이것을 시도하지 않았다고 가정하고 싶다 :

wget -r --no-parent http://www.mysite.com/Pictures/

또는 “index.html”파일을 다운로드하지 않고 내용을 검색하려면 :

wget -r --no-parent --reject "index.html *"http://www.mysite.com/Pictures/

참조 : wget을 사용하여 임의의 파일이있는 디렉토리를 재귀 적으로 가져 오기


답변

나는 사용한다 wget -rkpN -e robots=off http://www.example.com/

-r 재귀 적으로 의미

-k링크 변환을 의미합니다. 따라서 웹 페이지의 링크는 example.com/bla 대신 로컬 호스트입니다.

-p 모든 웹 페이지 리소스를 가져 와서 이미지 및 자바 스크립트 파일을 가져와 웹 사이트가 제대로 작동해야 함을 의미합니다.

-N 로컬 파일이 원격 웹 사이트의 파일보다 최신 인 경우 타임 스탬프를 검색하여 건너 뜁니다.

-erobots=off작동 하려면 플래그 옵션이 있어야합니다 .

robots=off 로봇 파일 무시를 의미합니다.

또한 -c이 명령을 사용했기 때문에 명령을 다시 실행할 때 중단 된 부분에서 계속 연결이 끊어지면 연결이 끊어졌습니다. 나는 -N잘 어울릴 것이라고 생각 했다-c


답변

wget -m -A * -pk -e robots = off www.mysite.com/ 모든 유형의 파일을 로컬로 다운로드하고 html 파일에서 해당 파일을 가리키며
로봇 파일을 무시합니다.


답변