Блокирование или удаление страниц сайта через файл robots.txt

Файл robots.txt ограничивает доступ на ваш сайт сканерам поисковых систем. Перед загрузкой страницы сайта роботы проверяют, есть ли на веб-узле файл robots.txt и блокирует ли он доступ к определенным сайтам.

Все известные роботы будут следовать инструкциям в файле robots.txt, однако некоторые роботы могут интерпретировать их по-разному. Вы не можете навязать безусловного выполнения записи файла robots.txt, в связи с чем некоторые спамеры и другие мошенники могут его игнорировать.

Чтобы просмотреть заблокированные URL, которые робот Google не сможет проиндексировать, откройте страницу Заблокированные URL в разделе Сканирование в Инструментах для веб-мастеров.

Файл robots.txt необходим только в том случае, если ваш сайт содержит контент, который поисковые системы не должны индексировать. Если поисковые системы должны индексировать весь сайт, файл robots.txt излишен (даже пустой).

Google не будет загружать или индексировать содержание страниц, заблокированные в файле robots.txt, но может индексировать эти URL, если они будут обнаружены на других сайтах в сети. В связи с этим, URL таких страниц вместе с общедоступными данными (например, из каталога Open Directory Project) могут появиться в результатах поиска Google.

Для использования файла robots.txt, вам нужно иметь доступ к корневой папке вашего домена. В случае отсутствия доступа к корневой директории домена, вы можете ограничить доступ с помощью метатега robots.

Для того, чтобы полностью запретить добавление содержания страницы в индекс интернет-Google, даже если на него ведут ссылки с других сайтов, используйте метатег noindex или заголовок x-robots-tag.

При загрузке такой страницы метатег noindex позволит предотвратить добавления ее в индекс Google. HTTP заголовок x-robots-tag особенно полезен для контроля индексирования файлов в формате, отличном от HTML, такие как графические изображения или другие документы.

Создание файла robots.txt

В простейшем файле robots.txt используются два правила:

User-agent: робот, к которому применяется данное правило
Disallow: URL, который должен быть заблокирован

Эти две строки представляют собой одну запись файла. Файл может содержать любое количество записей. В одном сообщении можно указать несколько строк Disallow и несколько строк User-agent.

Каждая секция в файле robots.txt независима и не является продолжением предыдущих разделов.

Например: User-agent: * Disallow: /folder1/ User-Agent: Googlebot Disallow: /folder2/

В данном примере для Googlebot блокирует только URL в соответствии с критериями /folder2/.

Приложения user-agent и роботы

Приложение user-agent – это термин, обозначающий робота поисковой системы. База данных сканеров содержит имена многих популярных роботов. Чтобы применить запись для конкретного робота, укажите его имя.

Для того, чтобы использовать его для всех роботов, вместо имени введите звездочку. Запись для всех роботов выглядит следующим образом:

User-agent: *

Google использует несколько различных роботов (приложения user-agent).

Блокирование приложений user-agent

Строка Disallow содержит список страниц, которые должны быть заблокированы. Можно указать конкретный URL или шаблон. Запись должна начинаться с косой черты (/).

Чтобы заблокировать весь сайт используйте обратную косую черту.
Disallow: /
Чтобы заблокировать каталог и все его содержимое после имени каталога введите косую черту.
Disallow: /katalog-musora/
Чтобы заблокировать страницу, укажите ее имя.
Disallow: /priwat.html
Чтобы удалить конкретное фото из поиска картинок Google, добавьте следующие записи:
User-agent: Googlebot-Image Disallow: /grafiki/psy.jpg
Чтобы удалить из поиска картинок Google все изображения, полученные с вашего сайта:
User-agent: Googlebot-Image Disallow: /
Чтобы отключить файлы определенного типа (например, GIF), используйте следующую запись:
User-agent: Googlebot Disallow: /*.gif$
Чтобы запретить индексирование страниц вашего сайта и, несмотря на это, продолжать показывать на них объявления AdSense необходимо запретить доступ всем роботам, кроме робота Mediapartners-Google. Это предотвратит отображение страниц в результатах поиска, но позволит роботу Mediapartners-Google анализировать страницы. Робот Mediapartners-Google не предоставляет страниц другим программам user-agent компании Google.
Например: User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /

Инструкции чувствительны к регистру. Например, инструкция Disallow: /smile.asp будет блокировать адреса http://www.example.com/smile.asp, но не http://www.example.com/Smile.asp. Робот google игнорирует пробелы (в частности, пустые строки), и неизвестные команды в файле robots.txt.

Тестирование файла robots.txt

На главной странице Инструментов для веб-мастеров выберите нужный сайт.
В разделе Сканирование нажмите Заблокированные URL.
Нажмите на вкладку Тест файла robots.txt, если она не выбрана.
Скопируйте содержимое файла robots.txt и вставьте его в первом поле.
В поле URL-адреса введите веб-сайт, который должен быть проверен.
В списке Приложения user-agent выберите нужные приложения user-agent.

Изменения, внесенные в этом инструменте, не сохраняются. Чтобы сохранить возможные изменения, вы должны скопировать текст и вставить его в файл robots.txt.

Использование файла robots.txt для запрета индексирования страниц сайта

Создание файла robots.txt

Приложения user-agent и роботы

Блокирование приложений user-agent

Тестирование файла robots.txt