Меню

Как правильно настроить robots txt для joomla

Robots.txt для Joomla

Joomla — довольно популярный движок среди вебмастеров, т.к. она бесплатна и обладает большими возможностями, множеством готовых решений. Разберем правильный robots.txt для Joomla.

Не буду приводить основные директивы и их описание, т.к. ознакомиться с ними можно в моей статье: настройка robots.txt .

Тот роботс, что идет в комплекте с движком является неплохим, т.к. в нем закрыты основные служебные директории, но много мусора остается открытым. А вот картинки в стандартном файле — закрыты, что не совсем хорошо.

Как выглядит стандартный robots для Joomla

Теперь разберем правильные файлы robots.txt для Джумлы с различными дополнениями. Не забываем, что для Яндекса желательно дописать отдельный «User-agent: Yandex» и продублировать в него все директивы.

Robots.txt для Joomla 2.5 и 3 с родным SEF

Закрываем стандартные служебные папки и убираем дубли с сайта и прочий мусор.

По поводу карты сайта можете ознакомиться с моей статьей: Зачем нужна карта сайта или как создать Sitemap.xml.
Не забываем, что в директиве «host» адрес сайта указывается без http:// и указывается главное зеркало сайта (если есть дубли с WWW и без — то следует предварительно склеить их 301 редиректом)

Robots.txt для Джумла + VirtueMart + SH404

Данные роботсы служат скорее для каркаса, который нужно допилить под свой сайт, т.к. у каждого проекта свои модули, которые могут плодить дубли страниц.

Когда будете вносить правки — всегда проверяйте их на корректность в Яндексе, чтобы избежать проблем.

Понравился пост? Сделай репост и подпишись!

Рекомендую к прочтению

Базовая SEO-оптимизация сайта на WordPress + Видео

Отдельные страницы с картинками в WordPress

Источник

Правильный robots.txt для Joomla

Здравствуйте уважаемые читатели блога Lessons-Joomla.ru. В этой статье поговорим как составить правильный файл robots.txt для Joomla. Он играет важнейшую роль для правильной, быстрой индексации вашего проекта, и если robots.txt составлен не верно, то некоторые страницы вашего сайта вообще могут быть исключены поисковиками, а дублированные и мусорные попадут в индекс, что естественно отрицательно скажется на поисковой выдаче и ваши усилия по оптимизации сайта пойдут прахом.

И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.

Давайте рассмотрим основные директивы и правила этого файла.

Директивы и правила написания файла robots.txt.

Файл начинается с наиболее важной директивы —User-agent – она содержит название поискового робота. Для всех поисковых роботов — User-agent: *, а для Яндекса добавляем в User-agent название Yandex — User-agent: Yandex.

Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.

Читайте также:  Как настроить тнв вручную

Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.

Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).

И последняя важная директива — Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.

Источник



Настройка robots.txt для Joomla 3

Рассмотрим как создать для Joomla 3+ правильный файл для поисковых роботов — robots.txt

Этот файл нужен для указания роботам того, что нужно индексировать на вашем сайте и чего НЕ нужно.

Изначально robots.txt имеет такой вид:

Чтобы понимать суть этого файла, давайте слегка разберём что здесь написано и какие операторы (команды) он поддерживает.

User-agent — это имя робота, для которого предназначена инструкция. По умолчанию в Joomla стоит * (звёздочка) — это означает, что инструкция предназначена для абсолютно всех поисковых роботов.

Наиболее распространённые имена роботов:

  • Yandex — все роботы поисковой системы Яндекса
  • YandexImages — индексатор изображений
  • Googlebot — робот Гугла
  • BingBot — робот системы Bing
  • YaDirectBot — робот системы контекстной рекламы Яндекса

Использовать отдельные инструкции для каждого робота в большинстве случаем нет необходимости. Если только на каких то специфичных проектах и для особенных задач.

Каждый робот понимает большую часть команд, и только для некотрых, например для робота Яндекса существуют собственные команды.

Поэтому смело можно ставить * (звёздочку) и писать инструкции для всех. Если какой-то робот не поёмёт что-то, он просто проигнорирует эту команду и будет работать дальше.

Disallow — запрещает индексировать содержимое указанной папки или URL.

Disallow: /images/ — запрет индексации всего содержимого папки images

Disallow: /index.php* — запрет индексации всех URL адресов, начинающихся с index.php

Allow — наоборот, разрешает индексацию папки или URL.

Allow: /index.php?option=com_xmap&sitemap=1&view=xml — разрешает индексацию карты сайта, созданной при помощи Xmap.

Такая директива необходима если у вас стоит запрет на индексацию адресов с index.php, а чтобы робот мог получить доступ к карте сайта, нужно разрешить этот конкретный URL.

Host — указание основного зеркала сайта (с www или без www)

Host: www.joomlatown.net — основной адрес этого сайта с www

Sitemap — указание на адрес по которму находиться карта сайта

По этому адресу находится карта сайта в формате xml

Clean-param — специальная директива, которая запрещает роботам Яндекса индексировать URL адреса с динамическими параметрами.

Динамические параметры, это различные переменные и цифры, которые подставляются к адресу, например при поиске по сайту.

Пример таких параметров:

И чтобы Яндекс не учитывал такие служебные страницы, в robots.txt задаётся директива Clean-param.
Всё тот же пример с поиском по сайту:

Clean-param: searchword / — директива запрещает индексировать все URL с параметром ?searchword

Crawl-delay — директива пока знакомая только Яндексу. Она указывает с каким интервалом сканировать страницы, интервал задаётся в секундах.

Может быть полезно если у вас много страниц и достаточно высокая нагрузка на сервер, поскольку каждое обращение робота к странице вашего сайта — это нагрузка на сервер. Робот может сканировать по несколько страниц в секунду и тем самым загрузить серврер.

Читайте также:  Как настроить джойстик под шутеры

Пример:
Crawl-delay: 5 — интервал для загрузки страницы — 5 секунд.

Прим: Но с crawl-delay нужно быть осторожнее, он может замедлить индексацию страниц сайта.

Специфичные директивы для Яндекса вы можете посмотреть здесь >>

Все директивы пишутся с новой строки, без пропуска.

Источник

Правильный ROBOTS.TXT для Joomla 3.x / 2.5 (Яндекс + Гугл)

​Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить «/robots.txt», полный вид выглядит так: «http://вашсайт.ru/robots.txt». Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt — файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt — залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота — User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex — User-agent: Yandex.

Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Источник

Файл robots.txt для Joomla

Разбор примеров файла robots.txt для сайтов на CMS Joomla: создание правил для исключения индексации страниц в зависимости от установленных компонентов и общих особенностей структуры URL-адресов в Joomla.

Содержание

Пример robots.txt для Joomla 3

Прогресс не стоит на месте, и Joomla 3-й серии не исключение. Относительно версии 2.5, Joomla 3 отличается улучшенным функционалом, в том числе в отношении SEO. В частности это касается файла robots.txt: его не придется переименовывать, опасаясь, что файл «обнулится» при обновлении CMS, к тому же в файле исправлены «косяки», которые наблюдались в robots.txt для Joomla 2.5 по умолчанию.

Запрет индексирования системных каталогов

Файл robots.txt в Joomla 3 по умолчанию содержит исключающие правила почти для всех системных каталогов CMS:

Можно заметить, что в коде нет исключающего правила для каталога /media . Учитывая, что содержание данного каталога практически не соответствует его названию (в основном он содержит системные файлы с серверным кодом для отдельных элементов Joomla), рекомендуем всё же добавлять для него исключение:

Запрет индексирования системных дублей

Категория uncategorised применяется для материалов Joomla, не определённых в категорию. Допустим, материал с алиасом about закреплен за пунктом меню с алиасом about . В результате материал about будет доступен по двум URL-адресам:

Не углубляясь в подробности процесса генерации дублей в Joomla, следует добавить в robots.txt инструкции, ограждающие поисковых роботов от них:

Читайте также:  Как настроить рацию р 168

Запрет страниц пагинации

Иногда имеет смысл исключать любые страницы с параметрами в URL-адресах, в том числе:

Делается это с помощью одной директивы:

Если к каким-то страницам, содержащим параметры в URL, потребуется открыть доступ для роботов, то можно добавить исключение. Например:

Оптимизированный robots.txt для Joomla 3

Обобщим все приведённые выше доводы и соберём их к одному виду. robots.txt со следующим списком директив подойдёт для большинства сайтов на CMS Joomla 3:

Указанные правила robots.txt также актуальны для сайтов на Joomla 2.5.

Пример robots.txt для Joomshopping

Рассмотрим пример, как следует оптимизировать файл robots.txt для интернет-магазина, построенного на CMS Joomla с использованием компонента электронной коммерции JoomShopping.

Запрет индексирования страниц компонента

Интернет-магазины на «голом» (без сторонних расширений) JoomShopping, как правило, имеют:

  • страницу виртуальной корзины URL-префикс по умолчанию: /cart/
  • страницы оформления заказа URL-префикс по умолчанию: /checkout/
  • страницы профиля клиента URL-префикс по умолчанию: /user/
  • страницу поиска по сайту URL-префикс по умолчанию: /search/

Все эти страницы не нужны в индексной базе поисковых систем, поэтому их следует исключить через robots.txt.

URL-префиксы для данных страниц можно кастомизировать через алиасы, создавая пункты меню. Если этого не делать, то для их исключения достаточно добавить в robots.txt следующие строки:

Следует отметить, что вариант с директивами без слеша в конце:

Запрет индексирования дублей

Если при создании товаров и категорий JoomShopping не вводить алиас, то они будут иметь URL-префикс /product/view для товаров и /category/view для категорий. Даже если не забывать вводить алиас, все товары и категории всё равно будут иметь свои дубли с указанными префиксами. Для того, чтобы исключить попадание дублей данных страниц в индекс, необходимо добавить в robots.txt исключающие директивы для указанных URL-префиксов:

Индексирование изображений компонента

Компонент JoomShopping для хранения изображений использует не системный каталог /images , размещенный в корне сайта, а свои каталоги из папки /components/com_jshopping/files . Чтобы роботы индексировали изображения товаров и категорий, в robots.txt необходимо добавить разрешение для соответствующих каталогов:

Оптимизированный robots.txt для JoomShopping

Добавив к правилам, созданным для компонента контента Joomla 3, директивы для компонента JoomShopping, получим следующий пример оптимизированного файла robots.txt, актуального для интернет-магазинов на Joomla:

Пример robots.txt для Joomla 2.5

Пакет Joomla 2.5.28 (последняя версия) содержит файл robots.txt в формате .dist . Необходимо удалить окончание .dist , чтобы файл имел формат .txt . Это сделано для того, чтобы файл не перезаписывался при обновлении CMS (это было актуально для Joomla 2.5).

Если не изменить формат файла, то сайт останется без robots.txt, т. е. поисковые роботы не получат инструкций по сканированию и индексированию файлов и каталогов сайта.

Файл robots.txt в Joomla 2.5 по умолчанию

После того, как файл robots.txt.dist преобразуется в robots.txt , можно открыть его в текстовом редакторе и увидеть следующее содержание:

Исключения для системных папок Joomla 2.5

Базовый файл содержит исключающие инструкции для абсолютно всех системных каталогов сайта, в том числе папки с изображениями и файлами шаблонов. Следует ли говорить, что в большинстве случаев роботам необходим доступ к изображениям для их индексации, а также к .css и .js файлам для оценки веб-страниц.

Чтобы файл был не столь воспрещающим, достаточно удалить соответствующие запреты, а именно строки:

Источник