하나에서 연결된 모든 웹 페이지를 저장하는 방법 웹 페이지간에

이 웹 페이지 와 링크 된 모든 페이지 를 저장하고 싶습니다 . 저장된 웹 페이지간에 동일한 연결이 이루어 지길 바랍니다.

링크 된 각 페이지를 열고 저장하는 대신 몇 가지 방법이 있습니까?



답변

wget 명령 행 유틸리티를 사용하여 원하는 작업을 수행 할 수 있습니다 . -r옵션 을 제공하면 웹 페이지가 재귀 적으로 다운로드됩니다. 예를 들면 다음과 같습니다.

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

그러면 해당 웹 페이지와 링크 된 모든 것이 다운로드됩니다. 또한 특정 수준의 재귀 만 반복하도록 할 수 있습니다.이를 위해서는 단순히 -r숫자 만 제공하면 됩니다. 이와 같이 :

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

답변

이 글타래는 낡았지만 다른 사람들이 볼 수도 있습니다. Wuffers, 올바른 방향으로 나를 지적 해 주셔서 감사합니다. Wuffers의 답변을 확장하십시오 .wget의 최신 버전에는 링크를 되풀이하고 로컬 상대 링크로 패치하여 로컬 사본을 탐색 할 수있는 유용한 옵션이 많이 있습니다. 웹 사이트 -r 옵션을 사용하여 재귀, -k 옵션을 사용하여 로컬 링크 패치, -H 옵션을 사용하여 원래 도메인 이외의 도메인으로 이동, -D 옵션을 사용하여 통과하는 도메인을 제한, -l 옵션을 사용하여 재귀 수준 및 -p 옵션을 사용하여 순회 잎에 올바르게 표시하는 데 필요한 모든 것이 있는지 확인하십시오. 예를 들어, 다음은 페이지와 페이지가 즉시 연결되는 모든 것을 다운로드하여 로컬에서 볼 수있게합니다.

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

위의 명령과 비슷한 명령을 사용하여 외부 링크가있는 위키 페이지 청크를 로컬 디스크에 메가 바이트의 외부 데이터를 다운로드하지 않고 다운로드 할 수있었습니다. 이제 브라우저에서 루트 페이지를 열면 인터넷에 연결하지 않고도 트리를 탐색 할 수 있습니다. 유일한 자극은 루트 페이지가 하위 디렉토리에 묻혀 있고 표시하기 편리하게 최상위 리디렉션 페이지를 만들어야한다는 것입니다. 제대로 이해하려면 약간의 시행 착오가 필요할 수 있습니다. wget 매뉴얼 페이지를 읽고 실험하십시오.


답변

httrack 과 같은 웹 사이트 크롤러 를 무료로 사용할 수 있습니다 .

웹 사이트에서;

[httrack]을 사용하면 인터넷에서 로컬 디렉토리로 월드 와이드 웹 사이트를 다운로드하여 모든 디렉토리를 재귀 적으로 구축하고 HTML, 이미지 및 기타 파일을 서버에서 컴퓨터로 가져올 수 있습니다. HTTrack은 원본 사이트의 상대 링크 구조를 정렬합니다. 브라우저에서 “미러링 된”웹 사이트의 페이지를 열기 만하면 마치 온라인에서 보는 것처럼 링크에서 링크로 사이트를 탐색 할 수 있습니다.