Как запретить индексацию в robots.txt

Рассмотрим как запретить индексацию в robots.txt, информация будет актуальна для владельцев сайтов и SEO специалистов. Необходимость в запрете индексации может возникать для нового сайта или версии сайта, которая находится в разработке. Также можно запрещать индексацию для отдельных страниц — например, служебных, которые долен видеть администратор, но на которые не должны попадать посетители.

robots.txt — это текстовый файл, который размещается на сайте, чтобы указать поисковым системам, какие страницы или разделы следует исключить из индексации. Правильное использование robots.txt позволяет веб-мастерам настроить индексацию и поведение поисковых роботов на сайте.

Как запретить индексацию в robots.txt: отдельных страниц или всего сайта

Для того чтобы запретить индексацию определенных страниц вашего сайта, необходимо создать файл robots.txt в корневой директории сайта и указать такие страницы в секции “Disallow”. Если файл уже существует, то следует редактировать его, однако в этом случае важно учитывать существующие в нём правила. Новые правила могут конфликтовать с существующими, что может вызвать ошибки индексации.

Чтобы запретить индексацию нужно прописать команду “Disallow” и указать путь к странице или директории, которую нужно исключить из индексации, например:

User-agent: *
Disallow: /страница-1.html
Disallow: /папка-1/

Одиночный слэш после “Disallow:” будет говорить о том, что не нужно индексировать корень сайта, то есть весь сайт.

Символ * в строке “User-agent” указывает, что данная инструкция действует для всех поисковых роботов. Символ / после названия страницы или папки указывает, что следует исключить все подстраницы данной страницы или все файлы внутри папки.

Также можно использовать мета-тег “noindex” для запрета индексации отдельной страницы. Для этого нужно разместить следующий код в разделе <head> страницы:

<meta name="robots" content="noindex">

Этот тег указывает поисковым роботам, что данная страница не должна быть проиндексирована.

Проверка правил в robots.txt

После внесения любых изменений в robots.txt следует тестировать конфигурацию. Это можно делать используя специальные инструменты сервисов Яндекс.Вебмастер и Google search-console. Они позволяют найти ошибки в синтаксисе во всем файле, а также проверить отдельные адреса. Можно ввести определенный URL и сервис покажет будет ли с добавленным robots.txt возможность индексации для него.

Всегда нужно проверять таким образом главную страницу сайта, основные разделы каталога товаров (если он есть на сайте) и страницы, которые затрагиваются добавляемыми правилами. Например, если добавляется запрет для директории admin, но нужно проверять адрес с admin в URL. Полный адрес для проверки может быть таким https://example.com/admin.

Для основной поисковой системы в русскоязычном интернете — Яндекс — обычно создается отдельный блок в файле robots.txt со своим User-agent

User-agent: Yandex

После указания User-agent прописываются правила для индексирующих ботов Яндекса. Они могут дублировать правила для остальных User-agent (User-agent: *). Не дублируется директива Host в случае если в robots.txt она используется. Такая директива может быть только одна. Она задает основной домен сайта.

как можно запретить индексацию в robots.txt

Запрет индексации в robots.txt полезен в случае, если на сайте есть страницы с дублирующим или нежелательным контентом, разделы с ограниченным доступом или временные страницы, которые не должны попадать в поисковые результаты.

Индексацию обязательно следует закрывать для копии сайта если копируется основной ресурс (например, для разработки на нём новой версии сайта). Запрет индексации для копии позволит избежать появления дублей страниц в индексе поисковых систем.

Главное про запрет индексации

Важно помнить, что файл robots.txt не является средством ограничения доступа, в файле содержатся инструкции для поисковых систем. Поисковые системы обычно следуют инструкциям (но не всегда, иногда могут индексироваться и закрытые от индексации разделы и страницы).

При этом фактически доступ к материалам robots.txt не ограничивает. Любой пользователь сможет зайти на страницу, которая не проиндексирована, по прямой ссылке ведя её в поисковую строку браузера или перейдя на страницу по ссылке с другой страницы сайта. robots.txt влияет только на индексацию. Ограничение доступа нужно организовывать другими методами. Например, за счет добавления http авторизации или ограничения доступа по ip адресу (определенные разделы сайта можно открывать для администратора и закрывать для всех остальных).

Нужно регулярно отслеживать показатели индексации и обращать внимание на количество страниц в индексе поисковых систем. Падение количества страниц в индексе может быть вызвано изменением файла robots.txt. Яндекс.Вебмастер и Google search-console выдают в таких случаях соответствующие предупреждения и предлагают проверить синтаксис файла с помощью своих инструментов.

После внесения изменений в robots.txt всегда требуется время (обычно несколько дней или недель) на то чтобы поисковые системы отреагировали на появление или исчезновение новых правил.

Читайте про атрибуты тэгов img в html