Настройка ROBOTS.txt

26 Апреля 2019

Что такое robots.txt?

ROBOTS.TXT - Стандарт исключений для роботов - файл в текстовом формате.txt для ограничения доступа роботам к содержимому сайта. Файл должен находиться в корне сайта (по адресу /robots.txt). Использование стандарта необязательно, но поисковые системы следуют правилам, содержащимся в robots.txt. Сам файл состоит из набора записей вида

	 <поле>:<необязательный пробел><значение><необязательный пробел>

где поле - название правила (User-Agent, Disallow, Allow и проч.)

Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF)

Как правильно настроить ROBOTS.TXT?

В данном пункте приведены основные требования по настройке файла, конкретные рекомендации по настройке здесь, примеры для популярных CMS здесь

  • Размер файла не должен превышать 32 кБ.
  • Должна использоваться кодировка ASCII или UTF-8.
  • В правильном файле robots.txt должны обязательно присутствовать хотя бы одно правило, состоящие из нескольких директив. Каждое правило обязательно должно содержать следующие директивы:
    • для какого робота данное правило (директива User-agent)
    • к каким ресурсам у данного агента есть доступ (директива Allow), либо к каким ресурсам нет доступа (Disallow).
  • Каждое правило и директива должны начинаться с новой строки.
  • Значение правила Disallow/Allow  должно начинаться либо с символа /, либо с *.
  • Все строки, начинающиеся с символа #, либо части строк начиная с данного символа считаются комментариями и не учитываются агентами.

Таким образом минимальное содержание правильно настроенного файла robots.txt выглядит так:

User-agent: * #для всех агентов
Disallow: #запрещено ничего = разрешен доступ ко всем файлам

Как создать/изменить ROBOTS.TXT?

Создать файл возможно с помощью любого текстового редактора (например, notepad++). Для создание либо изменения файла robots.txt обычно требуется доступ к серверу по FTP/SSH, впрочем, многие CMS/CMF имеют встроенный интерфейс управления содержимым файла через панель администрирования (“админку”), например: Bitrix, ShopScript и другие.

Для чего нужен файл ROBOTS.TXT на сайте?

Как видно из определения, robots.txt позволяет управлять поведением роботов при посещении сайта, т.е. настроить индексирование сайта поисковыми системами - это делает данный файл важной частью SEO-оптимизации вашего сайта. Самая важная возможность robots.txt - запрет на индексацию страниц/файлов несодержащих полезную информацию. Либо вообще всего сайта, что может быть необходимо, например, для тестовых версий сайта.

Основные примеры того, что нужно закрывать от индексации будут рассмотрены ниже.

Что нужно закрывать от индексации?

Во-первых, всегда следует запрещать индексация сайтов в процессе разработки, чтобы избежать попадания в индекс страниц, которых вообще не будет на готовой версии сайта и страниц с отсутствующим/дублированным/тестовым контентом до того как они будут заполнены.

Во-вторых, следует скрыть от индексации копии сайта, созданные как тестовые площадки для разработки.

В-третьих, разберем какой контент непосредственно на сайте нужно запрещать индексировать.

  1. Административная часть сайта, служебные файлы.
  2. Страницы авторизации/регистрации пользователя, в большинстве случаев - персональные разделы пользователей (если не предусмотрен публичный доступ к личным страницам).
  3. Корзина и страницы оформления, просмотра заказа.
  4. Страницы сравнения товаров, возможно выборочно открывать такие страницы для индексации при условии их уникальности. В общем случае таблицы сравнения - бессчетное количество страниц с дублированным контентом.
  5. Страницы поиска и фильтрации возможно оставлять открытыми для индексации только в случае их правильной настройки: отдельные урлы, заполненные уникальные заголовки, мета-теги. В большинстве случаев такие страницы следует закрывать.
  6. Страницы с сортировками товаров/записей, в случае наличия у них разных адресов.
  7. Страницы с utm-, openstat-метками в URl (а также всеми прочими).

Синтаксис ROBOTS.TXT

Теперь остановимся на синтаксисе robots.txt более подробно.

Общие положения:

  • каждая директива должна начинаться с новой строки;
  • строка не должна начинаться с пробела;
  • значение директивы должно быть в одну строку;
  • не нужно обрамлять значения директив в кавычки;
  • по умолчанию для всех значений директив в конце прописывается *, Пример:
    User-agent: Yandex
    Disallow: /cgi-bin* # блокирует доступ к страницам
    Disallow: /cgi-bin # то же самое
    	
  • пустой перевод строки трактуется как окончание правила User-agent;
  • в директивах «Allow», «Disallow» указывается только одно значение;
  • название файла robots.txt не допускает наличие прописных букв;
  • robots.txt размером более 32 Кб не допускается, роботы не будут загружать такой файл и посчитают сайт полностью разрешенным;
  • недоступный robots.txt может трактовуется как полностью разрешающий;
  • пустой robots.txt считается полностью разрешающим;
  • для указания кириллических значений правил используйте Punycod;
  • допускаются только кодировки UTF-8 и ASCII: использование любых национальных алфавитов и прочих символов в robots.txt не допускается.

Специальные символы:

  • #

    Символ начала комментирования, весь текст после # и до перевода строки считается комментарием и не используется роботами.

    *

    Подстановочное значение обозначающее префикс, суффикс либо значение директивы полностью - любой набор символов (в том числе пустой).

  • $

    Указание на конец строки, запрет достраивания * к значению, наПример:

    User-agent: * #для всех
    Allow: /$ #разрешить индексацию главной страницы
    Disallow: * #запретить индексацию всех страниц, кроме разрешенной
    

Список директив

  1. User-agent

    Обязательная директива. Определяет к какому роботу относится правило, в правиле может быть одна или несколько таких директив. Можно использовать символ * как указание префикса, суффикса или полного названия робота. Пример:

    #сайт закрыт для Google.Новости и Google.Картинки
    User-agent: Googlebot-Image
    User-agent: Googlebot-News
    Disallow: /
    #для всех роботов, чье название начинается с Yandex, закрываем раздел “Новости”
    User-agent: Yandex*
    Disallow: /news
    #открыт для всех остальных
    User-agent: *
    Disallow:
    

    Здесь можно посмотреть список роботов поисковых систем

  2. Disallow

    В каждом правиле должна быть по крайней мере одна директива Disallow: или Allow:.

    Директива указывает какие файлы или каталоги нельзя индексировать. Значение директивы должно начинаться с символа / либо *. По умолчанию в конце значения проставляется *, если это не запрещено символом $.

  3. Allow

    В каждом правиле должна быть по крайней мере одна директива Disallow: или Allow:.

    Директива указывает какие файлы или каталоги следует индексировать. Значение директивы должно начинаться с символа / либо *. По умолчанию в конце значения проставляется *, если это не запрещено символом $.

    Использование директивы актуально только совместно с Disallow для разрешения индексации какого-то подмножества запрещенных к индексированию страниц директивой Disallow.

  4. Clean-param

    Необязательная, межсекционная директива. Используйте директиву Clean-param, если адреса страниц сайта содержат GET-параметры (в URL отображается после знака ?), которые не влияют на их содержимое (например, UTM). С помощью данного правила все адреса будут приведены к единому виду - исходному, без параметров.

    Роботы Google не учитывают данную директиву.

    Синтаксис директивы:

    Clean-param: p0[&p1&p2&..&pn] [path]
    

    p0… - названия параметров, которые не нужно учитывать
    path - префикс пути страниц, для которых применяется правило


    Пример.

    на сайте есть страницы вида

     www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
     www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123
     www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
    

    При указании правила

    User-agent: Yandex
    Disallow:
    Clean-param: ref /some_dir/get_book.pl
    

    робот сведет все адреса страницы к одному:

     www.example.com/some_dir/get_book.pl?book_id=123
    
  5. Sitemap

    Необязательная директива, возможно размещение нескольких таких директив в одном файле, межсекционная (достаточно указать в файле один раз, не дублируя для каждого агента).

    Используется для указания ссылки на xml-карту сайта. Должен быть указан полный URL.

    Пример:

    Sitemap: https://example.com/sitemap.xml
    
  6. Crawl-delay

    Директива позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Поддерживаются дробные значения

    Минимально допустимое значение для роботов Яндекс - 2.0.

    Роботы Google не учитывают данную директиву.

    Пример:

    User-agent: Yandex
    Crawl-delay: 2.0 # задает тайм-аут в 2 секунды
    User-agent: *
    Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
    
  7. Host

    Директива указывает главное зеркало сайта. На данный момент из популярных поисковых систем поддерживается только Mail.ru.

    Пример:

    User-agent: Mail.Ru
    Host: www.site.ru # главное зеркало с www
    

Примеры robots.txt для популярных CMS

ROBOTS.TXT для 1С:Битрикс

В CMS Битрикс предусмотрена возможность управления содержимым файла robots.txt. Для этого в административном интерфейсе нужно зайти в инструмент “Настройка robots.txt”, воспользовавшись поиском, либо по пути Маркетинг->Поисковая оптимизация->Настройка robots.txt. Также можно изменить содержимое robots.txt через встроенный редактор файлов Битрикс, либо через FTP.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Битрикс, но не является универсальным и требует адаптации в зависимости сайта.

Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param.

User-Agent: Yandex
Disallow: */index.php
Disallow: /bitrix/
Disallow: /*filter
Disallow: /*order
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*bitrix_include_areas=
Disallow: /*clear_cache=
Disallow: /*clear_cache_session=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*ORDER_BY
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*print_course=
Disallow: /*?action=
Disallow: /*&action=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*backurl=
Disallow: /*back_url=
Disallow: /*BACKURL=
Disallow: /*BACK_URL=
Disallow: /*back_url_admin=
Disallow: /*?utm_source=
Disallow: /*?bxajaxid=
Disallow: /*&bxajaxid=
Disallow: /*?view_result=
Disallow: /*&view_result=
Disallow: /*?PAGEN*&
Disallow: /*&PAGEN
Allow: */?PAGEN*
Allow: /bitrix/components/*/
Allow: /bitrix/cache/*/
Allow: /bitrix/js/*/
Allow: /bitrix/templates/*/
Allow: /bitrix/panel/*/
Allow: /bitrix/components/*/*/
Allow: /bitrix/cache/*/*/
Allow: /bitrix/js/*/*/
Allow: /bitrix/templates/*/*/
Allow: /bitrix/panel/*/*/
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Clean-Param: PAGEN_1 /
Clean-Param: PAGEN_2 / #если на сайте больше компонентов с пагинацией, то дублировать правило для всех вариантов, меняя номер
Clean-Param: sort
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
User-Agent: *
Disallow: */index.php
Disallow: /bitrix/
Disallow: /*filter
Disallow: /*sort
Disallow: /*order
Disallow: /*show_include_exec_time=
Disallow: /*show_page_exec_time=
Disallow: /*show_sql_stat=
Disallow: /*bitrix_include_areas=
Disallow: /*clear_cache=
Disallow: /*clear_cache_session=
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*ORDER_BY
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*print_course=
Disallow: /*?action=
Disallow: /*&action=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*backurl=
Disallow: /*back_url=
Disallow: /*BACKURL=
Disallow: /*BACK_URL=
Disallow: /*back_url_admin=
Disallow: /*?utm_source=
Disallow: /*?bxajaxid=
Disallow: /*&bxajaxid=
Disallow: /*?view_result=
Disallow: /*&view_result=
Disallow: /*utm_
Disallow: /*openstat=
Disallow: /*?PAGEN*&
Disallow: /*&PAGEN
Allow: */?PAGEN*
Allow: /bitrix/components/*/
Allow: /bitrix/cache/*/
Allow: /bitrix/js/*/
Allow: /bitrix/templates/*/
Allow: /bitrix/panel/*/
Allow: /bitrix/components/*/*/
Allow: /bitrix/cache/*/*/
Allow: /bitrix/js/*/*/
Allow: /bitrix/templates/*/*/
Allow: /bitrix/panel/*/*/
Allow: /bitrix/components/
Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/panel/
Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта

ROBOTS.TXT для WordPress

В “админке” Вордпресс нет встроенного инструмента для настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP, либо после установки специального плагина (например, DL Robots.txt).

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Wordpress, но не является универсальным и требует адаптации в зависимости сайта.


Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;
  3. для большинства сайтов страницы архивов записей по автору и меток только создают дублирование контента и не создают полезного контента, поэтому в данном примере они закрыты для индексации. Если же на вашем проекте подобные страницы необходимы, полезны и уникальны, то следует удалить директивы Disallow: /tag/ и Disallow: /author/.

Пример правильного ROBOTS.TXT для сайта на WoRdPress:

User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *?utm
Disallow: *openstat=
Disallow: /tag/
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта

ROBOTS.TXT для OpenCart

В “админке” OpenCart нет встроенного инструмента для настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на OpenCart, но не является универсальным и требует адаптации в зависимости сайта.


Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Disallow: /*?filter_tag=
Disallow: /*brands
Disallow: /*specials
Disallow: /*simpleregister
Disallow: /*simplecheckout
Disallow: *utm=
Disallow: /*&page
Disallow: /*?page*&
Allow: /*?page
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*compare-products
Disallow: /*search
Disallow: /*cart
Disallow: /*checkout
Disallow: /*login
Disallow: /*logout
Disallow: /*vouchers
Disallow: /*wishlist
Disallow: /*my-account
Disallow: /*order-history
Disallow: /*newsletter
Disallow: /*return-add
Disallow: /*forgot-password
Disallow: /*downloads
Disallow: /*returns
Disallow: /*transactions
Disallow: /*create-account
Disallow: /*recurring
Disallow: /*address-book
Disallow: /*reward-points
Disallow: /*affiliate-forgot-password
Disallow: /*create-affiliate-account
Disallow: /*affiliate-login
Disallow: /*affiliates
Disallow: /*?filter_tag=
Disallow: /*brands
Disallow: /*specials
Disallow: /*simpleregister
Disallow: /*simplecheckout
Disallow: /*&page
Disallow: /*?page*&
Allow: /*?page
Allow: /catalog/view/javascript/
Allow: /catalog/view/theme/*/
Clean-Param: page /
Clean-Param: utm_source&utm_medium&utm_campaign /
Sitemap: http://site.com/sitemap.xml #заменить на адрес вашей карты сайта

ROBOTS.TXT для Joomla!

В “админке” Джумла нет встроенного инструмента для настройки robots.txt, поэтому доступ к файлу возможен только с помощью FTP.

Приведенный ниже пример может использоваться как стартовый набор robots.txt для сайтов на Joomla с включенным SEF, но не является универсальным и требует адаптации в зависимости сайта.


Пояснения:

  1. в директивах Allow указаны пути к файлам стилей, скриптов, картинок: для правильной индексации сайта необходимо, чтобы они были доступны роботам;
  2. разбиение на правила для разных агентов обусловлено тем, что Google не поддерживает директиву Clean-param;
User-agent: Yandex
Disallow: /*%
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /log/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /plugins/
Disallow: /modules/
Disallow: /component/
Disallow: /search*
Disallow: /*mailto/
Allow: /*.css?*$
Allow: /*.less?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Allow: /*.gif?*$
Allow: /templates/*.css
Allow: /templates/*.less
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.less
Allow: /media/*.js
Allow: /media/*.css
Allow: /media/*.less
Allow: /index.php?*view=sitemap* #открываем карту сайта
Clean-param: searchword /
Clean-param: limit&limitstart /
Clean-param: keyword /
User-agent: *
Disallow: /*%
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /log/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /plugins/
Disallow: /modules/
Disallow: /component/
Disallow: /search*
Disallow: /*mailto/
Disallow: /*searchword
Disallow: /*keyword
Allow: /*.css?*$
Allow: /*.less?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Allow: /*.gif?*$
Allow: /templates/*.css
Allow: /templates/*.less
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.less
Allow: /media/*.js
Allow: /media/*.css
Allow: /media/*.less
Allow: /index.php?*view=sitemap* #открываем карту сайта
Sitemap: http://ваш_адрес_карты_сайта

Перечень основных агентов

Бот Функция

Google

Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений

Яндекс

YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов

Bing

Bingbot основной индексирующий робот Bing

Yahoo!

Slurp основной индексирующий робот Yahoo!

Mail.Ru

Mail.Ru основной индексирующий робот Mail.Ru

Частые вопросы

Как проверить robots.txt своего сайта?

Проверка валидность robots.txt, а также проверка страниц сайта на возможность индексирования может быть осуществлена с помощью специальных инструментов поисковых систем:

Как посмотреть robots.txt чужого сайта?

Чтобы посмотреть robots.txt чужого сайта достаточно открыть в вашем браузере адрес вида сайт.ru/robots.txt. Также можно воспользоваться одним из онлайн-инструментов для проверки robots.txt чужого сайта, например, инструментом Яндекс.Вебмастера.

Текстовый файл robots.txt является общедоступным, что следует учитывать, и не использовать данный файл как средство сокрытия конфиденциальной информации.

Есть ли отличия robots.txt для Яндекс и Google?

Принципиальных отличий в обработке robots.txt поисковыми системами Яндекс и Гугл нет, но все же следует выделить ряд моментов:

  • как уже указывалось ранее правила в robots.txt носят рекомендательный характер, чем активно пользуется Google.

    В документации по работе с robots.txt Google указывает, что “..не предназначена для того, чтобы запрещать показ веб-страниц в результатах поиска Google. “ и “Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может демонстрироваться в Google”. Для исключения страниц из поиска Google необходимо использовать мета-теги robots.

    Яндекс же исключает из поиска страницы, руководствуясь правилами robots.txt.

  • Яндекс в отличие от Google поддерживает директивы Clean-param и Crawl-delay.
  • Роботы AdsBot Google не следует правилам для User-agent: *, для них необходимо задавать отдельные правила.
  • Многие источники указывают, что файлы скриптов и стилей (.js, .css) нужно открывать для индексации только роботам Google. На самом деле это не соответствует действительности и следует открывать эти файлы и для Яндекс: с 9.11.2015 Яндекс начал использовать js и css при индексации сайтов (сообщение в официальном блоге).

Как закрыть сайт от индексации в robots.txt?

Чтобы закрыть сайт в Robots.txt нужно использовать одно из следующих правил:

		User-agent: *
		Disallow: /
		
		User-agent: *
		Disallow: *
		

Возможно закрыть сайт только для какой-то одной поисковой системы (или нескольких), при этом оставив остальным возможность индексирования. Для этого в правиле нужно изменить директиву User-agent: заменить * на название агента, которому нужно закрыть доступ (здесь можно ознакомится с перечнем основных агентов).

Как открыть сайт для индексации в robots.txt?

В обычном случае, чтобы открыть сайт для индексации в robots.txt не нужно предпринимать никаких действий, просто нужно убедиться, что в robots.txt открыты все необходимые директории. Например, если ранее ваш сайт был скрыт от индексации, то следует удалить из robots.txt следующие правила (в зависимости от использованного):

  • Disallow: /
  • Disallow: *

Обратите внимание, что индексация может быть запрещена не только с помощью файла robots.txt, но и использованием мета-тега robots.

Также следует учесть, что отсутствие файла robots.txt в корне сайта означает, что индексация сайта разрешена.

Как указать главное зеркало сайта в robots.txt?

На данный момент указание главного зеркала с помощью robots.txt невозможно. Ранее ПС Яндекс использовала директиву Host, которая и содержало указание на основное зеркало, но с 20 марта 2018 Яндекс полностью отказался от ее использования. Сейчас указание главного зеркала возможно только с помощью 301-го постраничного редиректа.


Другие статьи
17  Мая  2017
Целевые страницы — от перехода к конверсии
Для успешного продвижения коммерческого сайта в Интернете просто привести пользователей недостаточно — нужно заставить сайт работать также, как это делает опытный продавец-консультант.
29  Апреля  2019
Что такое файл Sitemap xml
Картой сайта называют файл содержащий информацию для поисковых систем о тех страницах (документах), которые им нужно проиндексировать и информация о том, как часто появляются обновления на сайте, а также какие страницы являются наиболее важными.
17  Ноября  2017
Seo оптимизация сайта самостоятельно
Каждый, кто хоть раз начинал создавать свой сайт задумывался над seo раскруткой сайта самостоятельно.
26  Апреля  2019
SEO чек-лист (этапы работ) по продвижению сайта

Анализ конкурентов — важнейший пункт в продвижении сайта. От того, как будет выполнен анализ и аудит, будет зависеть дальнейшее продвижение проекта. Не стоит забывать, что на данном этапе разрабатывается стратегия продвижения сайта.

16  Ноября  2017
Продвижение и раскрутка сайта своими руками
Продвижение сайта, как полагают многие, позволит получить прибыль без каких-либо вложений. В статье даются советы с чего начать при раскрутке сайта под Яндекс своими руками и объясняется что такое оптимизация.
Получить предложение
Укажите сайт и контактные данные, наш бизнес-консультант подготовит для Вас стратегию продвижения
Нажимая на кнопку "Отправить заявку", вы соглашаетесь с Политикой конфиденциальности
Заказать книгу
Укажите контактные данные
Нажимая на кнопку "Отправить заявку", вы соглашаетесь с Политикой конфиденциальности
Вход на сайт
Стать партнёром
Укажите свои имя и телефон
Нажимая на кнопку "Отправить заявку", вы соглашаетесь с Политикой конфиденциальности
Рассчитать стоимость продвижения сайта!
Нажимая на кнопку "Отправить заявку", вы соглашаетесь с Политикой конфиденциальности