Дубли страниц сайта

Дубли страниц на сайтах с любыми движками встречаются практически всегда. Это связано с тем, что разработчики сайта не учли множество нюансов связанных с SEO. Поэтому обычно вопросы с дублями решает оптимизатор совместно с вебмастерами.


Оглавление

1. Что такое дубли страниц на сайте

2. Почему важно бороться с дублями страниц

3. Как найти дубли страниц на сайте

 3.1. Программы сканнеры

 3.2. Онлайн сервисы

 3.3. Через запросы

 3.4. Потенциальные дубли

4. Как удалить дубли сайта из индекса

 4.1. Дубли за счет доступности сайта по www и без www

 4.2. Дубли за счет сортировок и лишних страниц каталога

  4.2.1. Через мета тег meta robots

  4.2.2. Через robots.txt

1. Что такое дубли страниц на сайте

Дубли страниц — это страницы с разными URL (адрес), но с одинаковым содержимом

Например, одна и та же страница доступна по адресам (код ответа 200)

/category/razdel.html
/category/razdel/

Подобных примеров с дублями страниц можно привести очень много. При этом даже если содержание страницы будет немного другое, очень важное значение имеет то, что название страницы, которое прописывается в <title> и <h1> может совпадать. Этого уже достаточно, чтобы создать себе сложности в поисковых системах.

Чаще всего проблемы с множеством дублей встречаются в интернет-магазинах. Их каталоги как правило выводится через страницы с номерами:

Адреса этих страниц как правило заканчиваются на page=N, где N-номер страницы. Тайтлы и заголовки никто у каждой страницы естественно не меняет. Итого на сайте может присутствовать десятки страниц с одинаковыми заголовками. Например:

/category/kosmetika?page=1
/category/kosmetika?page=2
/category/kosmetika?page=3

А еще часто добавляют и параметр сортировки sort=alf, тогда количество дублей начинает расти еще быстрее:

/category/kosmetika?page=1&sort=alf
/category/kosmetika?sort=alf&page=1
/category/kosmetika?sort=alf
/category/kosmetika?page=1

Возможны и другие варианты сортировок. Получаем, что один тайтл выводится на десятках и даже сотнях страниц с разными URL.





2. Почему важно бороться с дублями страниц

Поисковая машина ранжирует документы согласно своему алгоритму. К примеру, пользователь задал какой-то запрос в поисковике, а у Вас на сайте есть множество страниц с одинаковым заголовком. Какую из этих страниц надо выдать поисковой машине? Непонятно. Также это снижает внутренний вес других страниц. Снижается траст сайта.

Дубли страниц оказывают негативное влияние на весь сайт в целом. При этом решить эту проблему можно довольно простыми способами. Давайте для начала кратко рассмотрим варианты поиска дублей страниц.

3. Как найти дубли страниц на сайте

Хочу отметить тот факт, что я рекомендую искать дубли страниц не только уже проиндексированных страниц, но и будущих. Я кратко опишу некоторые приемы поиска дублей. Начнем с самых простых.

3.1. Программы сканнеры

Обычно программы-сканеры хорошо ищут дубли страниц внутри сайта переходя по ссылкам. В этом есть большой минус, т.к. если на какую-то доступную страницу нету ссылки, то сканнер просто не сможет ее найти.

Бесплатными сканнерами сайта являются:

  • Netpeak spider
  • Xenu

3.2. Онлайн сервисы

Существует несколько онлайн сервисов, которые сканируют сайт. Правда, скорее всего, для больших сайтов они не подойдут, поскольку будут иметь ограничения (например, бесплатный анализ не более 500 страниц).

В сервисах Яндекс Вебмастер и Google Вебмастер есть специальный разделы в оптимизации HTML, где можно найти повторяющиеся заголовки. Наверное, это один из самых доступных и легких способов для поиска дублей.

3.3. Через запросы

Также есть возможность попробовать поискать дубли через запросы в поиске Яндекса и Гугла повторяющиеся заголовки

Для Яндекса:
site: urlsite.ru title:(запрос)
Для Google:
site: urlsite.ru intitle:запрос

Где urlsite.ru – Ваш адрес сайта. Однако этот способ поможет выявнить глобальные проблемы движка, что впрочем мы и хотели.

3.4. Потенциальные дубли

Далеко не все страницы сайта, которые могли быть в индексе проиндексированы. Но лучше заранее предупредить возможность индексации дублей документов. Например, многие движки любят отдавать корректный ответ сервера по следующим адресам:

/category/razdel
/category/razdel/category/
/category/razdel/category/category/category/category/

Если у вас есть конкурент в выдаче (а он зачастую есть), то он может легко насолить Вам просто добавив пару ссылок на такие страницы. При этом появлятся катастрофичное число новых страниц сайта. Потому что как правило все ссылки на сайте относительные.

/category/razdel/tovar1.html
/category/razdel/category/tovar1.html
/category/razdel/category/category/category/category/tovar1.html

4. Как удалить дубли сайта из индекса

Дубли страниц бывают разные и бороться с ними нужно по разному. Рассмотрим все возможные случаи.

4.1. Дубли за счет доступности сайта по www и без www

Начнем с самого часто встречающейся ситуации, когда сайт доступен по www и без www. Например

www.site.ru/cat/
site.ru/cat/

Эту ситуацию легко поправить, прописав в .htaccess соответствующие директивы (см. редирект 301 с www на без www).

Редирект без www на страницу сайта с www (site.ru -> www.site.ru)

RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru
RewriteRule (.*) http://www.site.ru/$1 [R=301,L]

Для обратного редиректа с www на без www (www.site.ru -> site.ru)

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.site.ru
RewriteRule (.*) http://site.ru/$1 [R=301,L]

Советую прочитать статью какой вариант сайта выбрать: сайт с www или без www






Примечание

Помимо этих дублей советую прописать в .htaccess другие возможные варианты дублей. Я имею ввиду про добавление .html у директорий:

/category/index.html
/category/

А так же слэшей

/category
/category/

Как с этим бороться читайте в отдельных статьях:

  • 301 редирект для удаления/добавления слэша в конце URL
  • 301 редирект с index (.html и .php) на корень сайта “/”

4.2. Дубли за счет сортировок и лишних страниц каталога

Каждый такой случай нужно рассматривать более индивидуально, но общие рецепты можно написать можно. Рассмотрим два варианта.

4.2.1. Через мета тег meta robots

Если есть возможность прописать директиву meta на дублях страниц, то лучше всего это сделать:

<meta name="robots" content="noindex,nofollow">

Т.е. этот тег должен выводиться только на страницах:

/category/kosmetika?page=2
/category/kosmetika?page=3
/category/kosmetika?page=4
/category/kosmetika?page=4&sort=alf

Но не на всем сайте! Сделать это несложно. Например в php можно прописать

if($_GET['page'] != "" || $_GET['sort'] != "")
{
echo "<meta name="robots" content="noindex,nofollow";
}
else
{
echo "<meta name="robots" content="all";
}

4.2.2. Через robots.txt

В корне сайта есть файл robots.txt. В нем можно прописать правила индексирования сайта. При этом сделать это даже проще, чем прописывать теги meta. Но если первый способ сработает на 100%, то задавая запрет индексации через robots.txt мы даем лишь рекомендацию поисковым машинам не индексировать ненужные документы.



Читайте также:

• Внешняя оптимизация сайта

• Самостоятельная раскрутка интернет-магазина

• Теги <noindex>..</noindex>

• Как выбрать хороший домен

• Самостоятельное продвижение сайта для новичка

• Стратегия продвижения сайта

• Автоматизированные системы продвижения

• Ошибки при создании интернет-магазинов

← Перейти в каталог seo статей

Читайте также:

Copy Protected by Chetan's WP-Copyprotect.