Блог об интернет-маркетинге

Для чего нужен robots.txt?

robots.txt — это специальный файл в формате txt, используемый для управления индексацией сайта поисковыми системами. robots.txt должен располагаться в корневой папке сайта (что бы проверить есть ли он на сайте, адресную строку можно ввести имясайта.ru/robots.txt).
robots.txt

Инструкция по созданию robots.txt

Создать файл можно с помощью блокнота или любого другого текстового редактора, а также простой комбинацией мышки: Создать → Текстовой документ (название переименовываем в robots.txt).

Директивы robots.txt

Файл содержит специальные команды (директивы). Рассмотрим некоторые из них ниже:

User-agent — в строке водится название поискового робота, для которого будет создано правило.

Пример:

User-agent: * # Правило для всех поисковых роботов
User-agent: Yandex # Робот Яндекса (если сначала создано правило для всех роботов, а ниже буде правило для робота Яндекса, или любого другого, то для каждого робота будут использоваться правила, прописанные именно для него!, если для этого робота правила не прописаны, то будут использоваться общие правила - *
User-agent: Googlebot # Робот Гугла

Примечание: символ # используется для комментариев и символы идущие после этого знака в той же сроке не учитываются.

Чаще всего используют либо общее правило для всех роботов, либо сочетание общего правила c отдельным правилом для Яндекса.

Disallow — запрещает индексацию определенных страниц сайта или его файлов.

Пример:

Disallow: /page.html # Запрещает индексировать страницу page.html
Disallow: /razdel/ # Запрещает индексировать весь каталог site.ru/razdel/
Disallow: /?page= # Запрещает индексировать все страницы содержащие ?page= сразу после основного адреса сайта (site.ru/?page=...)
Disallow: / # Запрещает индексировать весь сайт целиком

Allow — разрешает индексировать, нужен для создания исключений.

Пример:

User-agent: *
Disallow: / # Запрещает индексировать весь сайт целиком
Allow: /page1.html # Разрешает индексировать страницу /page1.html

Таким образом получается, что к индексации запрещен весь сайт кроме страницы site.ru/page1.html

User-agent: *
Disallow: /razdel/ # Запрещает индексировать весь каталог site.ru/razdel/
Allow: /razdel/podrazdel # Разрешает индексировать страницы содержащие /razdel/podrazdel (например site.ru/razdel/podrazdel/ и site.ru/razdel/podrazdel/page1.html

Таким образом к индексации запрещен каталог site.ru/razdel/, кроме подкаталога /razdel/podrazdel/ и всех страниц входящих в этот подкаталог.

Sitemap — в данной директиве указывается одна или несколько карт сайта sitemap.xml

Пример:

User-agent: Yandex
Allow: /
Sitemap: http://site.ru/sitemap.xml

User-agent: Yandex
Disallow: /razdel/
Sitemap: http://site.ru/sitemap1.xml
Sitemap: http://site.ru/sitemap2.xml

Host — данная директория используется поисковой системой Яндекс. В ней указывается основное зеркало сайта. Необходима, что бы указать зеркало с www или без него. Также можно использовать, когда сайт доступен по нескольким доменным именам и нужно указать основное.

Пример:

User-agent: Yandex
Disallow: /razdel/
Host: site.ru

Директива Host указывается без http:// и слешей,  сразу после директорий Disallow.

Спецсимволы robots.txt

# — как уже было написано выше, это символ для комментария, знаки после него в той же строке не учитываются.

* — заменяет любую комбинацию символов в url.

Пример:

User-agent: Yandex
Disallow: /razdel/*/page.html # В поле * - может быть любая комбинация символов

User-agent: Yandex
Disallow: *page= # Исключает все урлы содержащие page=

$ — ограничивает урл, нужен что бы ограничить доступ только к определенному точному адресу. По умолчанию на конце правила приписывается символ *, а что бы его отменить, существует символ $.

Пример:

User-agent: Yandex
Disallow: /page$ # Запрещает индексировать только страницу site.ru/page, но разрешает индексировать например страницу site.ru/page.html или
site.ru/page/

Спецсимволы * и $ используются не всеми поисковыми системами, но самые популярные поисковики Яндекс и Гугл их распознают.

Robots.txt для Яндекса

Требования Яндекса для индексации сайта наиболее жесткие. Нужно внимательно проверить сайт на наличие дублей страниц или повторяющейся информации, найти ненужные для поисковиков страницы и файлы с технической и служебной информацией и запретить их к индексации.

Кроме того, для Яндекса есть директива Host, описанная выше, а также директивы Crawl-delay и Clean-param, которые лично я нигде не использую.

Ознакомиться с этими директивами и прочитать более подробную информацию можно в хелпе Яндекс Вебмастера.

Также что бы проверить, правильно ли Вы составили роботс и отследить какие страницы сайта будут индексироваться а какие нет, рекомендую пользоваться системой проверки robots.txt в Яндекс Вебмастере. Кроме того ее удобно использовать как своеобразный конструктор роботса.

Мой пост оказался полезным? Можно поделиться с друзьями в соц. сетях:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>