Описание файла robots.txt

  




  

Прием в авторские монографии до 20 марта 2016 г.

Стандарты дисциплин по компьютерным сетям не предусматривают тщательного изучения поиксковых роботовю

Однако, отсутствие знаний особенностей работов поисковых систем.

Прежде всего, рассмотрим возможности файла robots.txt.

Как известно, файл robots.txt используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных.

Robots.txt — простой текстовый файл, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре.

Файл должен находиться, только в корневом каталоге, и иметь имя robots.txt

Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота.

В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми CR, CRNL, NL или r, rn, n). Каждая запись, в свою очередь, состоит из строк следующего вида:

Поле ":" значение

Каждая запись начинается одной или несколькими строками, где имя_поля=User-agent, после чего следует одна или несколько строк, где имя_поля=Disallow, имена полей, которые отличаются от двух указанных, игнорируются.

«#» знак комментария

Значением поля User-agent является имя робота, к которому применяются правила доступа.

Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;

Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: * .

В поле Disallow указывается частичный или полный путь (URL), который не будет посещен.

В строках с полем Disallow записываются не абсолютные, а относительные префиксы.

пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы.

Примеры

Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

User-agent: *
Disallow:

Эта директива запрещает всем роботам это делать:

User-agent: *
Disallow: /

Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого.

Мета тег robots.

<meta name="robots" content="index, follow"> - индексируется данная страница, робот идёт по ссылкам с этой страницы.

<meta name="robots" content="noindex, follow"> - страница не индексируется, но робот идет дальше по ссылкам.

<meta name="robots" content="index, nofollow"> - страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует.

<meta name="robots" content="noindex, nofollow"> - страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта – он не проиндексируется.

<meta name="robots" content="none"> - идентичное последнему. Сайт не индексируется.

Тег <noindex>, который позволяет не индексировать лишь определённый кусок кода страницы.

  

Rambler's Top100

  

Кравец Вера Владимировна
Главный редактор
vkravets@vsi.ru
vkravets@naukapro.ru

  
Кравец Вера Владимировна
vkravets@naukapro.ru

Спасибо за проявленный интерес!
Все права защищены. Copyright © 2006-2020. Вера Кравец.