Чтобы ваш сайт правильно индексировался поисковыми системами, необходимо настроить файл robots.txt, который работает как инструкция для поисковых роботов.
Запрет индексации
Чтобы запретить индексацию некоторых страниц на сайте, используйте подобные конструкции. Используйте параметр Disallow, чтобы скрыть от индексации системные страницы, например, корзину, регистрацию, аутентификацию и пр.
Disallow: /
Скрыть от индексации весь сайт
Disallow: /cart
Скрыть от индексации корзину заказа
Подробнее про регулярные выражения в robots.txt
Разрешение индексации
Не обязательная и практически бесполезная конструкция, позволяющая разрешить индексацию страницы. Данная конструкция пригодится для случаев, когда вы хотите закрыть все страницы папки кроме одной
Allow: /system/images
Разрешить индексировать /system/images
User-agent
Эта директива указывает конкретного поискового робота, для которого будут действовать указания по индексации
User-agent: Yandex Disallow: /
Запрет индексации сайта только для поискового робота Яндекса
Список юзерагентов для роботов поисковых систем:
- Yandex - Яндекс
- Googlebot - Google
- Mail.Ru - Мэйл.Ру
Карта сайта
Чтобы установить ссылку на карту сайта в файле robots.txt, воспользуйтесь конструкцией. Правильно указывайте протокол (https или http)
Sitemap: http://САЙТ/sitemap.xml
Чтобы проверить правильность генерации файла, попробуйте валидатор robots.txt