Обзор сети Интернет

Интернет, социальные сети, популярные сервисы, электронная почта (e-mail) и еще немного информации о web-пространстве современного мира

Главное меню

Как заблокировать доступ сканеров Google к сайту

Если вы хотите, чтобы часть страниц или материалов, не отображалась в результатах поиска Google, вы можете сделать это по-разному.

  • Если вам нужно хранить на сервере конфиденциальную информацию, сохраните ее в каталоге, защищенном паролем. Робот Googlebot и другие сетевые роботы не смогут получить доступ к содержимому. Это самый простой и самый эффективный способ избежать индексирования сайтов Google и другими ботами. Если вы используете веб-сервер Apache, вы можете изменить файл .htaccess для ввода пароля защиты указанной директории на сервере. Это можно легко сделать с помощью одного из многих инструментов, доступных в интернете.
  • Используйте файл robots.txt для управления доступом к файлам и каталогам на вашем сервере. Файл robots.txt выполняет роль знака „не влезай-убьет”. Он сообщает Googlebot и другим роботам о том, какие файлы и каталоги на сервере не следует индексировать.

    Чтобы иметь возможность использовать файл robots.txt, вам нужно иметь доступ к корневому каталогу вашего хоста. Если вы не имеете доступа к корневой папке сайта, вы можете блокировать доступ с помощью метатега robots.

    Важно иметь в виду, что даже при использовании файла robots.txt для блокировки, Google может обнаружить это содержание в иной форме и добавить его в свой индекс. Например, другие веб-сайты могут продолжать содержать ссылки на контент. В связи с этим URL-адрес страницы, и, возможно, другие общедоступные сведения, например, тексты, ссылки на сайт или заголовок из каталога Open Directory Project, будут отображаются в результатах поиска Google. Кроме того, несмотря на то, что все рассмотренные роботы будут следовать инструкциям в файле robots.txt некоторые роботы могут интерпретировать их по-разному. Вы не можете навязать безусловного выполнения записи файла robots.txt, в связи с чем некоторые спамеры и другие мошенники могут его игнорировать. В связи с этим мы рекомендуем введение защиты конфиденциальной информации с помощью пароля (см. выше).

  • Чтобы предотвратить появление содержания в результатах поиска Google, используйте метатег noindex. Если на странице имеется метатег noindex Google полностью исключит ее из результатов поиска, даже если на нее указывают другие страницы. Если содержимое уже находится в индексе, оно будет удалено во время следующего сканирования. Чтобы ускорить удаление, используйте инструмент Удалить URL-адреса из набора Инструментов Google для веб-мастеров. Однако, другие поисковые системы могут по-разному интерпретировать эту инструкцию. В результате ссылка на эту страницу может по-прежнему появляться в результатах поиска.

    Из-за того, что роботу Googlebot необходимо войти на сайт, чтобы прочитать тег noindex, существует небольшой риск, что он пропустит этот метатег и не будет его соблюдать.



  • Категория:
  • Автор:
  • Рейтинг:
    0.0/0

Никто не решился оставить свой комментарий.
Будьте первым, поделитесь мнением с остальными.
avatar