A- A A+
Файл robots.txt

Устранять дубли страниц в Joomla возможно установкой различных расширений, внесением изменений в файлы .htaccess и robots.txt... Последним способом мы и воспользуемся.

Дубли и их последствия

Дубли страниц означают, что один и тот же материал доступен по двум и более адресам. Самый простой пример:

  • http://site.ru
  • http://site.ru/index.php

Причиной дублей являются разные факторы:

  • ошибки самой CMS;
  • неправильная структура пунктов меню и категорий;
  • индексация страниц относящихся к использованию поиска, печати, комментариям, ленты новостей, идентификаторам сессий и другим техническим моментам работы сайта.

В результате в индексе поисковиков появляются дубликаты страниц, что может привести к пессимизированию сайта (применению санкций).

Подготовка файла robots

Открываем файл robots.txt, который находится в корне сайта. По умолчанию присутствует во всех установочных пакетах Joomla! Если он имеет вид robots.txt.dist, переименуйте его путем удаления расширения ".dist".

Удаление дублей с robots.txt

После открытия нам будет представлен стандартный набор команд. Вверху находится техническая информация, которую смело стирайте, так чтобы первой строкой файла стала запись User-agent: *.

Удаление дублей с robots.txt

Следующим обязательный шаг, удаление строки images. Для чего это делается, описано в уроке Включаем индексацию изображений в Joomla!

Запрещаем дубли

Директива Disallow запрещает доступ поискового робота ко всему сайту или к отдельным страницам.

Не допускайте пустых строк

Между директивами User-agent: *, Disallow и Allow не должно быть пустых строк.

Удаление дублей с robots.txt

Обычно наибольшее количество дублей содержат в адресах знак вопроса - ?. Следующей директивой мы закрываем от индексации все страницы сайта с этим знаком: Disallow: /*?*. Звездочка означает любую (также пустую) последовательность символов.

Удаление дублей с robots.txt

Если необходимо какую-то страницу со знаком вопроса оставить для индексации, например, адрес карты расширения Xmap, добавляем директиву Allow, напротив которой указываем местонахождение карты.

Удаление дублей с robots.txt

В случаях закрытия такой записи, как index.php, пишем следующее Disallow: /index.php*.

Удаление дублей с robots.txt

Также, на сайтах Joomla! часто создаются дубли с цифрами, например:

    • http://site.ru/vlagostojkie-paneli
    • http://site.ru/111-vlagostojkie-paneli

Если у Вас такие адреса с цифрами не предусмотрены, необходимо прописать для каждой цифры отдельную директорию.

Удаление дублей с robots.txt

Указываем Host

Чтобы поисковый робот понимал основной адрес сайта (с www или без), необходимо сразу за последней директорией Disallow (Allow) указать Ваш хост - Host: (www)site.ru.

Удаление дублей с robots.txt

Про эту настройку подробно изложено в статье Адрес сайта с www и без.

Конечно, тема дублей не исчерпывается в рамках этого урока. Но, известен реальный пример, когда указанными манипуляциями с файлом robots.txt, через 2 месяца на сайте не осталось ни одного(!) дубля.

Пробуйте и избавляйтесь от мусора в поисковом индексе.

 

Комментарии  

#5 0 Луговской Александр 06.03.2015 13:31
Цитирую Fedor13:
...Нужно ли закрывать от индексации страницы блога?..

Закрывать страницы блога нет необходимости. Поисковики правильно индексируют блоги, а именно материалы с "Подробнее". А вот если Вы другим способом скроете часть текста, тогда могут быть проблемы.
Цитировать
#4 0 Fedor13 06.03.2015 12:49
Нужно ли закрывать от индексации страницы блога? Поясню, менюшка сайта выводит на блог категорий. В блоге выведены начала материалов, со ссылкой на полные материалы. Получается робот индексирует страницу блога с заголовками и началом материала, а потом и отдельно страничку материала. Получается куча дублей? Или не так?
Цитировать
#3 0 Олег2 03.01.2015 20:18
Прошла, спасибо.
Цитировать
#2 0 Луговской Александр 03.01.2015 06:11
Цитирую Олег2:
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /*?
Через валидатор гугля не проходит. И карта остается недоступной

Добавьте вначале и в конце строки два знака (* и $) - Allow: /*index.php?opt ion=com_xmap&vi ew=xml&tmpl=com ponent&id=1$
Цитировать
#1 0 Олег2 02.01.2015 09:01
Увы,
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /*?
Через валидатор гугля у меня не проходит. И карта остается недоступной
Цитировать

Добавить комментарий

Защитный код Обновить

Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter

МОЙ TELEGRAM-КАНАЛ

ПОДПИСАТЬСЯ!


Перенос на хостинг

Перенос на хостинг

Бесплатный видео-курс по переносу готового сайта на одну из лучших хостинг-площадок РУнета.

Смотреть (бесплатно)

Бессмертный сайт

Бессмертный сайт

2 урока, 16 минут, и Ваш сайт - БЕССМЕРТНЫЙ!

Узнать подробности!