Услуги
Контакты
+38 (068) 477-477-0
seo@proposition.digital
Днепр
ул. Княгини Ольги 22, оф. 724
ул. Княгини Ольги 22, оф. 724
Понедельник – Пятница:
с 9.00 до 18.00
с 9.00 до 18.00
Robots.txt – файл, содержимое которого показывает поисковым роботам какие страницы сайта можно сканировать, а какие нет. От того как составлен robots.txt зависит индексация всего сайта и отдельных его разделов в частности.
В этой статье мы разберем как правильно составлять файл robots.txt и рассмотрим примеры составления некоторых случаев.
Общие правила как создать robots.txt:
1. Формат файла – создается обычный текстовый файл .txt, с кодировкой UTF-8.
2. Расположение файла – файл robots.txt необходимо размещать в корне сайта/поддомена, во вложенных папках файл robots не будет считываться поисковыми роботами.
В случае размещения на поддомене все записи в файле robots.txt будут действительны только для сканирования поддомена.
3. Формат записей – каждая запись состоит из поля, двоеточия и значения. Разделитель записей – новая строка.
4. Запись файла начинается с указания User-agent, в котором указывается, для какого поискового робота действительна эта группа. Для отдельного поискового робота действительна только одна группа записей.
Полный список поисковых роботов Google можно взять тут: https://support.google.com/webmasters/answer/1061943?hl=ru
Некоторые сайты лучше закрывать от лишних роботов:
Содержимое файла robots.txt индексируется и можно в поиске найти много разных списков поисковых роботов разных поисковых систем.
5. В файле robots.txt можно оставлять комментарии. Для этого строка записи должна начинаться с диеза # и все что будет после него не будет учитываться при сканировании роботами до конца записи.
Основная оптимизация файла robots.txt заключается в указании поисковым роботам разрешения/запрета на индексирование сайта или отдельных категорий/страниц. Для этого применяется директивы:
Важные правила по использованию Disallow в robots.txt
URL | allow: | disallow: | Вердикт | Комментарии |
---|---|---|---|---|
http://example.com/page | /p |
/ |
allow | |
http://example.com/folder/page | /folder/ |
/folder |
allow | |
http://example.com/page.htm | /page |
/*. |
undefined | |
http://example.com/ | /$ |
/ |
allow | |
http://example.com/page.htm | /$ |
/ |
disallow |
Открыть индексацию всех страниц сайта для всех поисковых роботов:
User-Agent: * Host: domain.com
Открыть индексацию сайта только для поискового робота Google:
User-Agent: Googlebot Allow: / User-agent: * Disallow: / Host: domain.com
Закрыть индексацию сайта для всех поисковых роботов:
User-agent: * Disallow: /
Закрыть индексацию сайта только для поискового робота Google:
User-agent: Googlebot Disallow: / User-agent: * Allow: / Host: domain.com
1. Закрыть от индексации категорию и все её содержимое для всех поисковиков
User-agent: * Disallow: /cat/
или
User-agent: * Disallow: /cat/*
Регистр учитывается!
2. Закрыть от индексации все страницы категории, кроме определенной подкатегории и все что в нее вложено:
User-agent: * Allow: /cat/page1 Disallow: /cat/
1. Закрыть от индексации страницу /page.html для всех поисковых роботов
User-agent: * Disallow: /page.html
2. Закрыть от индексации все страницы сайта, кроме определенной page.html
User-agent: * Allow: /page.html Disallow: /
3. Закрыть от индексации все страницы передачи параметров
User-agent: * Disallow: /*?*
4. Закрыть от индексации страницы фильтра, которые отрабатывают по вложенности /filter/
User-agent: * Disallow: */*/filter/*/
5. Закрыть от индексации страницы расширения .php
User-agent: * Disallow: /*.php$
Для этого в корень поддомена необходимо поместить свой robots.txt с содержимым:
User-agent: * Disallow: /
User-agent: * Disallow: /*.doc$ Disallow: /*.pdf$
1. Закрыть от индексации все картинки:
User-agent: Googlebot-Image Disallow: /
2. Закрыть от индексации картинки определенного формата:
User-agent: Googlebot-Image Disallow: /*.gif$
Карта сайта указывается отдельно, где прописывается абсолютный путь к карте сайта (или файлу индекса) на сервере
Sitemap: https://proposition.digital/sitemap_index.xml
В панели вебмастера Google в разделе “Сканирование” – “Инструмент проверки файла robots.txt” не должно быть ошибок в текущей версии файла robots.txt
После изменений, необходимо отправить файл на проверку еще раз.
Для этого нажимаем “Отправить” и следуем шагам:
Также, можно предварительно проверить отдельный URL на доступность любого из бота Google:
Ошибок в вашем файле быть не должно и все необходимые для индексации URL должны быть доступны.