Индексация страниц и разделов сайта поисковыми роботами яндекса
Введение
Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании Вашего ресурса. Узнать о нем поисковик может двумя способам:
- если Вы зарегистрируетесь в поисковой системе;
- либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.
После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса - 1 из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован Ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.
Успешная индексация сайта роботами поисковых систем - это то, чего Вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.
Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.
Роботы поисковой системы Яндекс
Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, т.е. о роботах поисковых систем. На вопрос: "а что такое робот поисковой системы и что он делает?". Яндекс отвечает следующим образом: "Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса".
Обладая знаниями о них, Вы с легкостью сможете подготовить Ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.
Яндекс появился в 1996г. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site - программа, производящая поиск на сайте, Яndex.CD - программа поиска документов на сd-диске.
Сама же поисковая система возникла осенью 1997г. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.
Поэтому в 1999г. был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа - в URL, в заголовках, в ссылках и т.п.
Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.
1. Yandex/1.01.001 (compatible; Win16; I) - основной индексирующий робот Яндекса. Это самый важный робот, функция которого - поиск и индексирование информации, найденной на просторах российского интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в 1-ю очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в инете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
2. Yandex/1.01.001 (compatible; Win16; P) - индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (//images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. 2-й путь, который как и 1-й скорее всего использует сервис Яндекс.Картинки - анализ имени файла. Например, посмотрите на лотосы на странице (//en.npftravel.ru/news/issue_117.html). Ни 1 упоминания слова "лотос" в теле документа, однако картинка все-таки была найдена по запросу "лотос" благодаря тому, что файл имеет имя lotos.jpg.
3. Yandex/1.01.001 (compatible; Win16; H) - робот, определяющий зеркала сайтов. Задача этого робота - определение степени схожести 2 документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только 1 сайт, в этом собственно и заключается процесс зазеркаливания. Т.е. сайт-зеркало представляет собой ничто иное, как полную копию сайта.
4. Yandex/1.03.003 (compatible; Win16; D) - робот, определяющий доступность страницы для индексации при добавлении ее через форму "Добавить URL".
5. Yandex/1.03.000 (compatible; Win16; M) - робот, посещающий страницу при ее открытии по ссылке "Найденные слова", ниже сниппета.
6. YaDirectBot/1.0 (compatible; Win16; I) - робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.
7. Yandex/1.02.000 (compatible; Win16; F) - робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.
Процесс индексации документа
Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для яндекса это страница webmaster.yandex.ru. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.
Если сайт добавляется впервые, то Яндекс выдаст сообщение:
"Адрес //example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска".
Если сайт уже посещался роботом-индексатором, то появится сообщение:
"Документ //example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта //example.com/ доступны в Яндексе к настоящему времени (* страниц)".
После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является "русскоязычность" ресурса. Поэтому, как пример, может возникнуть такая ситуация:
"Адрес //www.example.com/ не был внесен в базу Яндекса, так как сайт //www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст".
Если же все хорошо, то в логах сайта можно будет обнаружить строку:
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"
Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.
После добавления сайта на странице //webmaster.yandex.ru/ менее чем через 2 дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.
Управление индексацией
То, что Ваш сайт проиндексировался, - это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы Вы хотели видеть страницы Вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, Вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.
1. Управление индексацией при помощи файла robots.txt
Файл robots.txt является самым популярным инструмент, посредством которого Вы сможете эффективно управлять индексацией Вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.
2.Основная информация по файлу robots.txt
Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определенных, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
Основные требования:
- все буквы в названии файла должны быть прописными, т.е. должны иметь нижний регистр: robots.txt - правильно, Robots.txt или ROBOTS.TXT - не правильно;
- файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
- файл robots.txt должен быть размещен в корневом каталоге сайта.
Содержимое файла robots.txt
Файл robots.txt обязательно включает в себя две директивы: "User-agent" и "Disallow". Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву "Host" для определения основного зеркала сайта.
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Директива "User-agent"
Запись "User-agent" должна содержать название поискового робота. Пример записи "User-agent", где обращение происходит ко всем поисковым системам без исключений и используется символ "*":
User-agent: *
Пример записи "User-agent", где обращение происходит только к роботу поисковой системы Яндекс:
User-agent: Yandex
Робот каждой поисковой системы имеет свое название. Существует 2 основных способа узнать эти названия:
- на сайтах многих поисковых систем присутствует специализированный раздел "помощь веб-мастеру" (на Яндексе он тоже есть //webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
- при просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имен, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Названия основных роботов популярных поисковых систем:
- Google - "googlebot";
- Яндекса - "Yandex";
- Рамблера - "StackRambler";
- Yahoo! - "Yahoo! Slurp";
- MSN - "msnbot".
Директива "Disallow"
Директива "Disallow" должна содержать предписания, которые указывают поисковому роботу из записи "User-agent", какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи "Disallow".
Пример1. Сайт полностью открыт для индексирования:
Disallow: /
Пример 2. Для индексирования запрещен файл "page.htm", находящийся в корневом каталоге и файл "page2.htm", располагающийся в директории "dir":
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример 3. Для индексирования запрещены директории "cgi-bin" и "forum" и, следовательно, все содержимое данной директории:
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись "Disallow". Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример 4. Для индексирования запрещены директория "dir", а так же все файлы и директории, начинающиеся буквами "dir", т.е. файлы: "dir.htm", "direct.htm", директории: "dir", "directory1", "directory2" и т.д:
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи "Disallow". Так, например, поисковая система Google поддерживает в записи "Disallow" символы "*" (означает любую последовательность символов) и "$" (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
Пример 5. Запрет индексации файлов с расширением "htm":
Disallow: *.htm$
Директива "Host"
Директива "Host" необходима для определения основного зеркала сайта, т.е., если сайт имеет зеркало, то с помощью директивы "Host" можно выбрать url того сайта, под которым проиндексируется Ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
Пример 6. www.site.ru - основное зеркало:
Host: www.site.ru
Оформление комментариев в файле robots.txt
Любая строка в robots.txt, начинающаяся с символа #, считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример 7. Комментарий находится на 1 строке вместе с директивой:
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке.
Управление индексацией с помощью мета-тегов
С помощью мета-тегов тоже можно управлять индексацией страниц сайта.
Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы Вашего сайта:
- управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
- необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
- повышает вероятность нахождения страницы поисковиком по выбранному запросу(ам).
- управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что Ваш документ является динамичным и роботу следует индексировать его регулярно.
Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:
- контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
- определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
- указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
Есть еще 1 мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.
Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.
Проблемы при индексации страниц
Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных "выпадений" некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на 1-й взгляд, даже незначительная ошибка или упущение может привести к "значительным" последствиям - потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.
Динамические страницы, идентификаторы сессий.
Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система "видит" это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.html?id=3&show=for_print и index.html?show=for_print&id=3. Для пользователей - это одна и та же страница, а для поисковых систем - страницы разные. Также можно привести пример со страницей сайта: "версия для печати" с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы - это разные страницы, которые будут "склеены", и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница "для печати".
Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы "DirectoryIndex /index.htm" файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени "склеивают" индексную страницу с "корнем" директории.
Один из видов динамических страниц - страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от 1 страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.
Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий 1 и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом - это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.
Известно, что поисковые системы имеют алгоритмы "склейки" страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.
Решение.
Что касается динамических страниц, то нужно закрывать страницы "версия для печати" и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.
Что касается идентификаторов сессий, то решение данной проблемы простое - прописать с .htaccess следующие команды:
php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On
Неверная обработка 404 статуса
Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.
Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки - создание страницы, например 404.htm и запись в файле .htaccess "ErrorDocument 404 /404.htm". Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан "подводный камень". В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может "склеить" ее с любой другой страницей сайта.
Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.
Плагиат
Проблема. Размещение материалов сайта на других сайтах, а, как следствие, - "склеивание" и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном инете всем хорошо известно, что плагиат - это "воровство" контента и "присваивание" авторских прав, а, с точки зрения поисковой оптимизации, - это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь 1 - письмо с жалобой о нарушении авторских прав хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.
Другие проблемы
Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
- текст заключен в тег. Это специальный тег, запрещающий индексацию текста роботу Яндекса;
- текст расположен в скрипте, т.е между тегами;
- текст расположен в комментариях;
- очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб);
- ресурс не содержит русский текст (опять же, это касательно Яндекса).
Заключение
Каждому, кто ведет в инете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее - при его сопровождении.
Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?
Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах интернета.