Что такое robots.txt? Зачем он нужен и как настроить?

Файл Robots.txt – это текстовый файл, который имеет формат.txt. Данный файл содержит в себе инструкции для роботов поисковых систем. С помощью него можно закрывать от индексации файлы, документы, а также папки. Другими словами, мы ограничиваем доступ к содержимому сайта для поисковых роботов.

Robots.txt использует большая часть современных поисковых систем, в качестве рекомендации к индексированию сайта.

Robots играет крайне важную роль для поисковых систем и поисковой оптимизации в частности.

И вот почему он так важен:

  1. При сканировании поисковые системы в первую очередь обращаются к robots.txt для того, чтобы понять, могут ли они сканировать страницы сайта и все его содержимое или нет.
  2. В robots.txt находятся все основные инструкции, которым должен следовать робот.

В нем указываются ненужные страницы, в которых не содержится полезной информации для пользователя, а также указывается путь к Sitemap.xml.

Если допустить ошибку в инструкциях и директивах, сайт может полностью пропасть из поискового индекса. Очень важно корректно настраивать robots, так как от этого будет зависеть видимость сайта в поисковых системах и дальнейший рост трафика.

Именно поэтому специалисты в области Seo — оптимизации изучая сайт клиента, в первую очередь обращают внимание именно на него.

Где находится и как создать? #

Если речь идет о системе Bitrix, то файл будет располагаться в корневой папке. Если мы говорим о One Platform — в панели администратора. Для проверки robots.txt на сайте, необходимо после доменного имени сайта в адресной строке прописать «/robots.txt«. Например: https://site.com/robots.txt

Создание robots.txt #

Создать его можно двумя способами:

  1. Автоматически (если сайт на платформе One Platform);
  2. В ручную.
Автоматическое создание robots.txt #

Заходим в панель, выбираем раздел «SEO» и затем «Настройки«

После этого нам откроются настройки SEO. Вверху будет впадающий список, где можно выбрать Автоматическое формирование или ручное.

В том случае если режим формирования robots.txt установлен в Автоматический режим, то файл будет формировать сам внутри платформы One Platform.

Ручное создание robots.txt #

Для ручного создания можно использовать стандартный блокнот и сохранить файл под именем robots.txt.

Создание файла вручную помогает проработать его более детально и качественно. Если мы говорим про CMS Bitrix, то он позволяет загружать файл физически в корневую папку сайта с помощью Файлового менеджера.

Если сайт на One Platform, то необходимо также зайти в Настройки SEO и выбрать Ручной режим формирования robots.

После чего можно будет прописывать все инструкции непосредственно в появившемся поле.

Директивы robots.txt #

В Robots.txt указываются определенные директивы для роботов. Тем самым передавая им инструкции, какие страницы или разделы индексировать, а какие – нет. Рассмотрим, какие директивы что означают:

  1. User-Agent. Это директива является обязательной. Она определяет, к какому именно роботу будут применяться прописанные в файле robots.txt правила. Таким образом мы обращаемся либо к конкретному роботу либо ко всем сразу. Именно с этой строчки должен начинать сам файл.
  2. Disallow. Данная директива будет самой частой в файле.
  • страницы пагинации;
  • страницы, содержащие личные данные;
  • страницы с результатами поиска внутри ресурса;
  • дубли страниц;
  • служебные или технические страницы.

3. Allow. Противоположность Disallow. Данная директория наоборот разрешает поисковому роботу обходить указанные в файле страницы или разделы сайта.

4. Sitemap. Эта директива сообщает ботам расположение XML карты сайта. Нужно указывать полный URL. Она важна для поисковых машин Google и Яндекс, так как при обходе сайта в первую очередь они обращаются именно к Sitemap, где показана структура ресурса со внутренними ссылками, приоритетами индексации страниц и датами их создания или изменения.

Что нужно исключать из индекса #
  1. Сразу запрещаем роботам поисковых систем включать в индекс дубли страниц. Доступ к странице всегда должен осуществляться по одному URL. Обращаясь к сайту, робот поисковой системы по каждому URL’у должен получать в ответ страницу с уникальным контентом на ней. Дубли — частая проблема различных CMS — систем, которые появляются в процессе создания страниц сайта. Например, одну и ту же страницу можно найти по техническому URL’у http://site.ru/?p=391&preview=true и ЧПУ (человеко-понятный урл) http://site.ru/chto-takoe-seo. Также они могут появиться из-за динамических ссылок. Для закрытия их от индексации используем маски:
Disallow: /*?*
Disallow: /*%
Disallow: /index.php
Disallow: /*?page=
Disallow: /*&page=

2. Страницы с неуникальным контентом. Такие страницы необходимо скрыть от поисковых систем до того, как они попадут в индекс. Если не скрыть такие страницы, то они могут быть исключены из индекса как дубли страниц, откуда был взят контент.

3. Страницы, применяемые при работе сценариев. Например, страницы, на которых есть подобные сообщения: “Спасибо за ваш отзыв!”.

4. Страницы, включающие индикаторы сессий. Такие страницы также рекомендуется закрывать с помощью директивы Disallow:

Disallow: *PHPSESSID=
Disallow: *session_id=1

5. Все файлы системные файлы CMS. Например, шаблоны, файлы панели администратора, тем, баз данных и другие:

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback

6. Ненужные для пользователя страницы и разделы. Страницы и разделы без содержания, страницы с неуникальным контентом, результаты поиска, несуществующие и т. д.

Ваш robots.txt должен быть всегда правильно настроен без лишней воды, и тогда индексирование сайта будет проходить быстрее и качественнее. Также это отразится положительным образом на ранжирование сайта в поисковых системах.

Структура стандартного Robots.txt #

Вот так выглядит стандартная структура файла Robots.txt. От этого надо отталкиваться и настраивать непосредственно под свой сайт:

User-agent: Yandex
Disallow: /admin
Disallow: *?s=
Disallow: *?p=
User-agent: Googlebot
Disallow: /admin
Disallow: *?s=
Disallow: *?p=
User-agent: *
Disallow: /admin
Disallow: *?s=
Disallow: *?p=
Sitemap: https://site.ru/sitemap.xml

Мы видим, что в файле содержатся блоки с инструкциями, которые начинаются с правила User-agent. Оно говорит, к какому именно роботу файл обращается и для какого робота ниже прописываются директивы.

Примеры директив User-agent для роботов разных поисковых систем:

# Для всех поисковых ботов
User-agent: *
# Для всех роботов Яндекса
User-agent: Yandex
# Для основного индексирующего робота Google
User-agent: Googlebot

Это основные роботы поисковых систем, к которым идет обращение.

Также рассмотрим варианты, когда мы полностью разрешаем индексирование или запрещаем:

#Разрешаем роботу Яндекса индексацию всего сайта
User-agent: Yandex
Allow: /
#Разрешаем роботу Google индексацию всего сайта
User-agent: Googlebot
Allow: /
#Запрещаем индексацию сайта всем остальным роботам
User-agent: *
Disallow: /

После каждого правила User-agent идет инструкция для того робота, которого мы указали в строке User-agent. Зачастую используется директива Disallow. Нет необходимости использовать директиву Allow, так как мы с помощью Disallow закрываем все ненужное для индексации и оставляем роботам все остальное, что в последствии и так попадет в индекс.

Кириллица в Robots #

Запрещается писать на кириллице как в файле robots, так и в HTTP-заголовках.

Если доменное имя на кириллице (например, сайт.рф), то его необходимо преобразовать. Есть различные сервисы, например, такой конвертор

В таком виде необходимо прописать в файла Robots.

#Неправильно:
User-agent: Yandex
Disallow: /корзина
Sitemap: сайт.рф/sitemap.xml
# Правильно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Sitemap: http://xn--80arbjktj.xn--p1ai/sitemap.xml
Основные правила #
  • Файл называется именно “robots.txt”. Заглавные буквы или кириллические символы запрещены.
  • Для одного сайта один файл. Для каждого сайта все прописывается в одном файле.
  • Robots.txt должен находиться в корневой папке сайта. Файл должен быть доступен по определенному адресу: https://site.ru/robots.txt. Если он размещен в подкаталоге, то робот его не сможет найти.
  • Любой текст, идущий после символа #, определяется как комментарий. При оптимизации, разрешено добавлять комментарии, для того, чтобы понимать какую директорию указали. Главное не поставить данный символ перед обязательной директорией.
  • Файл robots необходимо создавать именно в формате текстового документа в кодировке UTF-8, включающей коды символов ASCII.
  • В Robots содержатся группы. В группе можно прописывать несколько ряд директорий и каждая директория должна прописываться с новой строки.
  • В группе содержится информация: для какого User-agent указываются группы директив; к каким файлам или каталогам предоставлен доступ, а к каким – нет.
  • Инструкции в группах читаются сверху вниз. Поисковый робот следует директивам только одной группы, именно той, которая соответствует User-agent.
  • По умолчанию robots позволяет индексировать все: если они не запрещены директивой Disallow.
  • Инструкции сильно зависят от регистра. Например, директива Disallow: /file.txt влияет на URL-адрес http://www.site.ru/file., но не применима к http://www.site.ru/File.txt.
  • Пробел никак не влияет на инструкции. Не имеет значения сколько пробелов проставили и где. Это не влияет. Но лучше, если они проставлены там где это необходимо.
  • В директивах нет закрывающих символов. В конце каждой не нужно использовать никаких закрывающих символов.
  • Название правила указываются с заглавной буквы и на латинице. Disallow — правильно, DISALLOW или disallow — неправильно.
  • Символ “/” применяем для статических страниц. К примеру, Disallow: /wp-admin запрещает индексировать страницу авторизации для администратора в WordPress.
  • Порядок директив в инструкциях. Для роботов не важно в каком порядке идут директивы. Сначала идут Disallow, а потом Allow или наоборот, не имеет значения.
Как проверить Robots.txt? #

После загрузки файла в корневую папку, проверяем его работу.

  1. Проверка вручную;
  2. Проверка через Вебмастер.

Для ручной проверки вводим в адресной строке https://site.ru/robots.txt

Файл должен открыться и отобразиться в том виду, в котором он был загружен в корень сайта.

Для автоматической проверки в Вебмастере, необходимо войти в сам Вебмастер, перейти на вкладку «Инструменты» и выбрать «Анализ robots.txt»

Если файл находит в корне сайта, то Вебмастер его автоматически найдет и отобразит в данном окне. Если ошибок в Вебмастере не появилось, то все хорошо.