Robots.txt : 어디에도 연결되지 않은 페이지를 허용하지 않아야합니까? 수있는 일부 페이지가 있습니다. 에서 단일

내 웹 사이트에는 사용자가 URL을 제공 한 경우에만 방문 할 수있는 일부 페이지가 있습니다.

에서 단일 페이지를 허용하지 않으면 robots.txt누구나 해당 페이지를 볼 수 있습니다.

내 질문은 : 어디서나 또는 적어도 색인 페이지에서 링크하지 않으면 어떤 식 으로든 크롤러가 여전히 도달 할 수 있습니까?



답변

페이지가 SERP에 전혀 표시되는 것을 원하지 않습니다.

robots.txt를 허용하지 마십시오. 대신 페이지에 noindex 메타 태그 (또는 X-Robots-Tag HTTP 헤더)를 추가하십시오.

j0k가 제안한 것처럼 어떻게 든 페이지를 찾을 수 있습니다. 통계 보고서, 디렉토리 목록 등

robots.txt를 허용하지 않으면 페이지가 크롤링되지 않지만 색인이 생성되어 SERP에서 URL 전용 링크로 표시 될 수 있습니다. 다음과 같은 것 :

noindex 메타 태그를 사용하면 SERP에 페이지가 전혀 나타나지 않습니다. 그러나 noindex 메타 태그를 보려면 Google이 페이지를 크롤링 할 수 있어야하므로 robots.txt에서 허용되지 않습니다!

페이지에 공개적으로 사용 가능 하지 않아야하는 것이 있으면 페이지는 일종의 인증 뒤에 있어야합니다.


답변

글쎄, 당신은 robots.txt를 읽고 지시를 따르는 좋은 크롤러가 있다고 생각합니다. 그리고 지시를 따르지 않는 다른 것.

이 URL을 어떻게 제공 할 계획입니까? 이메일로 Facebook이나 Twitter를 사용하십니까? 이러한 모든 서비스는 귀하가 전송하는 정보를 크롤링합니다. Gmail은 광고를 제공하기 위해 귀하가받는 이메일을 파싱합니다. 따라서 URL이 어떻게 든 크롤링됩니다.

어떤 사람들은 Google 툴바 (또는 검색 엔진의 다른 툴바)를 사용합니다. 툴바가 방문한 모든 URL을 Google에 보낼 수 있도록하는 옵션 (기본적으로 잘 기억되어있는 경우 선택)이 있습니다. Google이 숨겨진 웹을 볼 수있는 다른 방법입니다. 따라서 URL을 공유하지 말라고 상대방에게 말하더라도 암시 적으로 그 / 그녀는 할 것입니다 (도구 모음 덕분에).

우리는 다른 많은 가능성을 찾을 수 있다고 생각합니다.

따라서 robots.txt에 추가 할 수 있지만 noindex, nofollow 등과 같은 추가 메타를 제공 할 수도 있습니다.

편집하다:

robots.txt에 대한 w3d의 제안은 나에게 좋을 것 같습니다. 따라서 robots.txt에 추가하지 말고 propre 메타 태그를 제공하십시오.


답변

위의 의견 외에도 HTACCESS 인증도 최소한으로 추천합니다. 개인에게 자격 기간 동안 사용자 이름 / 암호 조합을 제공하여 페이지를 볼 수 있도록합니다.

개인 정보 보호 문제가있는 경우 적절한 로그인 제어 스크립트를 고려해야합니다.

숨겨지지 않은 페이지 (숨겨져 있다고 생각 되더라도)는 야생 페이지로 만듭니다.