Поисковые роботы. Комплексный подход к продвижению веб-сайтов
Поисковые роботы - это специальные программы, которые постоянно сканируют содержание сети интернет. Здесь нужно сделать небольшую, но очень важную поправку - роботы сканируют только текст, т.е. только веб-страницы на языках html, htm, shtml, xml и т.п. Все остальные файлы (архивы, графика, музыка, видео) роботы не трогают. Чаще всего вместо слова робот, используют слово поисковик, или поисковая машина, хотя это не верно. Поисковую машину в упрощённом виде можно представить как комплекс взаимосвязанных элементов, в которые обязательно входят:
1. Поисковый робот;
2. База данных;
3. Интерфейс для работы с пользователями (веб-сайт).
Дабы не запутать читателей, из этого списка я намеренно убрал такие элементы как обработчик запросов, различные дополнительные сервисы, которыми обладает каждый поисковик.
Зачем нужны роботы?
Интернет - это огромная сеть, содержащая огромное количество информации в которой хоть как ни будь, но нужно ориентироваться, т.е. иметь возможность найти в нужный момент времени нужные данные. Как раз для этого и нужны поисковики.
Чтобы поисковик знал, по какому адресу в интернете что лежит, ему нужно предварительно просмотреть все сайты и занести их содержание в собственную базу данных. Этим-то как раз и занимается поисковый робот. Затем, при получении запроса, поисковик просматривает собственную базу данных и выдаёт пользователю результаты по его запросу.
Казалось бы, столько шума из-за того, что по сайту разок пройдётся программа и его прочитает. Но роботы просматривают сайты не 1 и не два раза, они делают это постоянно, т.к. информация в сети постоянно изменяется, какие-то сайты появляются вновь, какие-то перестают работать, на некоторых страницах происходят изменения, поэтому, в базу данных поисковика необходимо постоянно вносить данные обо всех изменениях, произошедших в сети. В противном случае, через месяц результаты, выдаваемые в ответ на запросы, будут устаревшими, следовательно, неудовлетворительными.
Чем мощнее компьютер, на котором установлена программа-робот, тем большее количество страниц может быть просмотрено в единицу времени (например, в час, или в день). Такой просмотр страницы называется индексацией. Когда робот просмотрел все страницы сайта, говорят, что данный сайт проиндексирован. Но в интернете огромное количество веб-страниц, как робот успевает обходить все?
Роботы настраиваются таким образом, чтобы заходить на разные сайты с разным интервалом. Если сайт обновляется очень часто, то робот посещает его раз в день, или чаще. Если же раз за разом заходя на 1 и тот же сайт, робот не находит на нём никаких изменений и дополнений, то частота заходов на этот сайт в дальнейшем постепенно снижается. В итоге индексация сайта может происходить только раз в месяц, или реже.
Как робот ориентируется в сети?
Передвижение от сайта к сайту осуществляется по ссылкам. Когда робот в очередной раз просматривает в поисках обновлений сайт, он замечает на нём все ссылки, некоторые из них ему уже известны (т.е. адреса этих сайтов уже есть в его базе данных), а некоторые он видит впервые. Во втором случае робот либо немедленно переходит по новой ссылке, либо заносит её себе в "задания" и вернётся к ней через некоторое время.