Файл robots.txt для сайта

Файл Robots.txt – располагается в корневой папке сайта (например, site.ru/robots.txt). Он нужен исключительно для указания правил для правильной индексации сайта поисковыми системами. Обычному пользователю всё равно, что там написано.

Основные возможности robots.txt:

  • закрывать от индексации страницы (разделы сайта)
  • указывать зеркало сайта
  • указывать host
  • указывать ссылку на xml-карту сайта

Давайте для примера создадим файл robots.txt для Яндекса:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.VASH-SITE.ru
Sitemap: http://www.VASH-SITE.ru/sitemap.xml

Если бы мы создавали файл robots.txt для Google, то нужно было написать:

User-agent: Googlebot
Disallow: /cgi-bin
Host: www.VASH-SITE.ru
Sitemap: http://www.VASH-SITE.ru/sitemap.xml

Чтобы учесть всех поисковых роботов, нужно прописать так:

User-agent: *
Disallow: /cgi-bin
Host: www.VASH-SITE.ru
# здесь можно написать комментарий
Sitemap: http://www.VASH-SITE.ru/sitemap.xml

Теперь поясню, что мы прописали выше.

Директива User-agent позволяет сделать правила для конкретных роботов разных поисковых систем.

Директива Disallow: /cgi-bin – говорит о том, что поисковые роботы не должны индексировать все содержимое папки cgi-bin. Например, документ www.VASH-SITE.ru/cgi-bin/1.html или www.VASH-SITE.ru/cgi-bin/papka/1.html – не будут проиндексированы. Однако, Google может отходить от данного правила, поскольку он воспринимает это лишь как рекомендацию.

Примечание

В противовес директиве Disallow есть директива Allow, она наоборот разрешает индексирование. Правда ее актуальность практически отсутствуют, потому что по умолчанию весь сайт и так доступен к индексации.





Host: www.VASH-SITE.ru – указывается главное зеркало Вашего сайта. Например, я не люблю прописывать www и на всех своих сайтах прописываю host без www. Если Вы напишите несколько host-ов, то использоваться будет первый. См. какой вариант выбрать: сайт с www или без www

http://www.VASH-SITE.ru/sitemap.xml – указывается карта сайта в формате xml. Данный формат поисковые системы воспринимают очень хорошо, поэтому владельцам движков стоит использовать такую карту сайта. Для владельцев статических сайтов прописывать все в формате xml я не вижу смысла. См. как создать карту сайта

# – является признаком начала комментария. Распространяется только на одну строчку.

Использование * в robots.txt

По умолчанию в конце каждого правила автоматически добавляется “*”, однако иногда бывает важно конкретизировать что-то.

User-agent: Yandex
Disallow: /php-script/*.php
Disallow: /*lichnoe

  • В данном примере все файлы, которые содержатся в папке (и подпапках) /php-script и имеют расширения .php не будут проиндексированы.
  • Все папки, которые имеют название lichnoe, запрещены к индексации. Т.е. папки /articles/lichnoe, /2011/lichnoe, /lichnoe – будут запрещены к индексации.

Использование $ в robots.txt

User-agent: Yandex
Disallow: /primer$

В данном случае будет запрещена индексация /primer, но /primer.php – разрешен.

Файл robots.txt является открытой информацией для каждого. Любой пользователь может посмотреть его по адресу сайта с окончанием robots.txt: site.ru/robots.txt



Предлагаю к Вашему внимаю готовые robots.txt для распространенных движков:

• Robots.txt для WordPress

• Robots.txt для DLE

• Robots.txt для PHPbb

• Robots.txt для IPB

• Robots.txt для PHPShop

• Как правильно обрабатывать 404 ошибку

← Перейти в каталог CMS

Читайте также:

Copy Protected by Chetan's WP-Copyprotect.