태그 보관물: web-scraping

web-scraping

URL 또는 웹 페이지의 Google 캐시 기간을 어떻게 알 수 있습니까? [닫은] 이 질문은 스택

내 프로젝트에서 중요한 정보로 Google 캐시 기간을 추가해야합니다. Google 캐시 기간에 대한 소스, 즉 Google이 마지막으로 페이지를 다시 색인화 한 이후의 일 수를 검색하려고했습니다.

Google 캐시 에이지는 어디서 구할 수 있습니까?



답변

URL을 사용하십시오

https://webcache.googleusercontent.com/search?q=cache:<your url without "http://">

예:

https://webcache.googleusercontent.com/search?q=cache:stackoverflow.com

다음과 같은 헤더가 포함되어 있습니다.

https://stackoverflow.com/ 의 Google 캐시입니다 . 2012 년 8 월 21 일 11:33:38 GMT에 나타난 페이지의 스냅 샷입니다. 현재 페이지가 변경되었을 수 있습니다. 추가
정보 팁 :이 페이지에서 검색어를 빨리 찾으려면 Ctrl+F 또는 +F (Mac)를 누르고 찾기 막대를 사용하십시오.


답변

결과 페이지를 긁어 내야하지만이 URL을 사용하여 최신 캐시 페이지를 볼 수 있습니다 .

http://webcache.googleusercontent.com/search?q=cache:www.something.com/path

Google 정보는 body 태그의 첫 번째 div에 배치됩니다.


답변

당신은 CachedPages 웹 사이트 를 사용할 수 있습니다

캐시 된 페이지는 일반적으로 강력한 웹 서버가있는 대기업에 의해 저장 및 저장됩니다. 이러한 서버는 일반적으로 매우 빠르기 때문에 캐시 된 페이지는 종종 라이브 페이지보다 빠르게 액세스 할 수 있습니다.

  • Google은 일반적으로 최신 페이지 사본 (1 ~ 15 일)을 유지합니다.
  • Coral은 일반적으로 Google만큼 최신이 아니지만 최근 사본을 보관합니다.
  • Archive.org를 통해 수년 동안 저장된 웹 페이지의 여러 사본에 액세스 할 수 있습니다.

답변

너무 간단해서 페이지의 URL 앞에 “cache :”를 입력하면됩니다. 예를 들어이 페이지의 마지막 웹 캐시를 확인하려면 URL 표시 줄에 입력하십시오.cache:http://stackoverflow.com/questions/4560400/how-can-i-get-the-google-cache-age-of-any-url-or-web-page

페이지의 마지막 웹 캐시가 표시됩니다. 여기를 참조하십시오.

그러나 웹 페이지 캐싱은 검색 엔진 (Google)에서 페이지가 이미 색인화 된 경우에만 표시됩니다. 이를 위해 해당 페이지의 메타 로봇 ​​태그를 확인해야합니다.


답변

이 사이트 ( https://cachedviews.com/)를 사용할 수 있습니다 . 모든 웹 사이트의 캐시 된 페이지 또는 캐시 된 페이지-모든 웹 사이트의 Google 캐시 된 페이지


답변

캐시 페이지 http://www.cachepage.net 을 보는 것도 좋습니다 .

  1. Google을 통한 캐시 페이지보기 : webcache.googleusercontent.com/search?q=cache : URL

  2. archive.org를 통한 캐시 페이지보기 : web.archive.org/web/*/ 귀하의 URL


답변