SEO блог
seobeginner.ru


Файл robots.txt

категория: Поисковые системы

15июл2009

Спонсор статьи: Студия SMOpro - реклама в блогах и продвижение

файл robots.txt

В продолжение темы индексации сайта хочется рассказать о файле robots.txt Роботы поисковиков при заходе на веб-сайт сначала обращаются к нему и получают инструкции по индексированию. Присутствие этого файла не обязательно, но крайне желательно.

Важно правильно составить файл robots.txt, иначе ошибки в нём могут привести к ненужным последствиям. Для написания инструкций используется определенный синтаксис, который не разрешает к индексации, а только запрещает.

Файл robots.txt - текстовый файл с расширением .txt, содержащий инструкции по индексации для поисковых роботов

Создается и редактируется при помощи Блокнота.
Размещается файл robots.txt в корневой папке веб-сайта. Название должно быть в нижнем регистре (т.е. robots.txt, а не Robots.Txt и т.д.)

Пример правильного файла robots.txt

User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /admin/
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

User-agent: Googlebot
Disallow: /admin.php
Disallow: /hide.html
Sitemap: http://www.site.ru/sitemap.xml

User-Agent: *
Disallow: /

Директива User-agent указывает определенному поисковому роботу инструкции для выполнения. Если стоит *, то значит данные инструкции предписаны всем.
Директива Disallow запрещает к индексации отдельную папку или документ. Для того, чтобы запретить к индексации сайт полностью необходимо прописать "Disallow: /", а чтобы НЕ запрещать индексировать сайт, необходимо прописать "Disallow: "
Директива Host определяет основной домен для сайта. Внимание! Ее учитывает только Яндекс! Домен прописывается БЕЗ HTTP://
Директива Sitemap предназначена для указания карты сайта. Путь карты сайта прописывается полностью вместе с HTTP://

Следует понимать, что мы не сможем, например, разрешить к индексации только файл index.html, а все остальное закрыть. Хотя, конечно, можно, но для этого придется перечислять ВСЕ имеющиеся документы и папки, кроме самого index.html.

Это является основным минусом файла robots.txt, т.к. иногда возникает потребность в директиве Allow.

Постовой:

Компания «Портал Инфо» предлагает услуги веб дизайна и создания сайтов в Тюмени и Тюменской области



Поделись ссылкой на пост:

Понравилась заметка? Подписывайся на RSS


Оставлено 9 комментариев:

Да, файлик этот важен очень. Полезная статья. Постовые-то где? )

Э.. я правильно понимаю, что вы своим robots.txt запретили индексацию сайта всеми поисковиками, кроми яши и гугла? А как же набирающий обороты поисковик от M$?
Ктстати, у меня гугл проиндексировал каталоги с плагинами, после чего я внес соответсвующие изменения в свой роботс.тхт. Увы, каталоги и скрипты все еще имеются в выдаче поисковика.

Станислав, нету :( как передавали - второй цикл кризиса :) Покупайте...
web 2.0 portal, да правильно. Это как пример, где постарался рассмотреть различные варианты.
Насчет изменений, думаю надо просто время.

Да уж... приятного мало... Кстати, завтра вроде ап обещают ) так что готовимся )

Насколько я знаю, файл robots.txt - скорее рекомендация для поисковых пауков, нежели прямое указание.
Могу ещё добавить, что строка Disallow должна присутствовать всегда.
У меня была ситуация, когда я разрешил всем поисковикам доступ на весь сайт строками
User-Agent: *
Allow: /
А яндекс воспринял это как запрет к индексации всего сайта. Сделал так:
User-Agent: *
Disallow:
Начал индексировать.

У меня сайт на укозе, хотел добавить его в базу яндекса а он говорит мне что сайт запрещён для индексации. Скорее всего это из-за файла robots.txt но отредактировать его на укозе нельзя, что делать?

я тоже написал статейку про роботс.тхт, только не в общем как у тебя, а для новых блогов вордпресс)
не сочтите за рекламу :)
Link

с директивой хост никак не разберусь. прописано www.ifoxy.ru, а яндекс все равно делит на два адреса - с www и без.
Фигня какая-то.

На укозе месяц после создания сайта закрыты от индексации.
"У меня сайт на укозе, хотел добавить его в базу яндекса а он говорит мне что сайт запрещён для индексации".
Тот же вопрос. Как это обойти. не хочется терять целый месяц((

Комментирование этой темы закрыто.




Файл robots.txt

Получать обновления

 
Подписаться на блог SeoBeginner.ru через RSS Проследовать за мной в Twitter