Какую поисковую систему выбрать?
Какую поисковую систему выбрать? (Как искать и находить информацию в интернете)
Поиск информации в интернете
В Сети полным-полно статей с рекомендациями, как достичь наилучших результатов при поиске информации в интернете. Мы хотим написать лишь о тех чисто практических приемах и нюансах, которые наиболее часто находят свое применение при поиске информации для студенческих работ.
Какую поисковую систему выбрать?
В браузере Internet Explorer русской версии, входящей в состав Windows, предусмотрен легкий доступ к поисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым серверам. Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничимся рассказом о тех системах, которые стандартно вызываются на панели поиска Internet Explorer 4 - Rambler, Яndex, Апорт.
Rambler, rambler.ru
Поисковая система Rambler была изначально создана в фирме "Стек" для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания "СТЕК" образовалась в Научном Центре Биологических Исследований в г.Пущино (Московская область) в 1991г., а автором поисковой системы является Дмитрий Крюков.
Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.
Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15000 сайтов (имен DNS). Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и т.д.
Апорт! aport.ru
Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в российской части интернета, на русскоязычных серверах СНГ и мирового интернет. Как указывается в документе на сервере aport.ru, по состоянию на декабрь 1998г. индексная база содержала ссылки на примерно 2млн. документов. К сожалению, сервер содержит ограниченную информацию по алгоритмам работы данной поисковой системы, поэтому на этом мы вынуждены завершить этот короткий рассказ об Апорт.
Яndex, yandex.ru
Эта поисковая система интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как "яндекс") расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.
Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек интернет.
Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997г. и область поиска системы - русскоязычный интернет. Отличительные особенности системы, в соответствии с описанием на yandex.ru:
- полнотекстовый поиск с полным учетом морфологии русского и английского языков;
- мощный язык запросов (в том числе возможность поиска с расстоянием);
- возможность запроса на естественном языке;
- корректная обработка сленговых слов;
- возможность поиска похожего документа;
- очень компактный индекс;
- подсветка слов из запроса в найденных документах;
- развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
- высокая скорость поиска.
Как работает Яndex?
Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных это - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.
Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.
Морфология базируется на словаре из 90тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных.
Выбор поисковика зависит исключительно от личных предпочтений. Мы не используем Rambler (xrambler.ru) - уж очень напрягает разбираться потом со множеством окошек по всем поисковым системам. 99% ссылок повторится в каждой следующей поисковой системе. А с каждой минуткой, потраченной на разбирательство - что я уже видела, а что нет, - утекают кровные копеечки. Мы предпочитаем Yandex (ya.ru) и Google. Апорт! (aport.ru) тоже хорош, но его окошечки имеют тенденцию нагло выскакивать поверх всех окон, в то время, когда просматриваются странички по ссылкам, что отвлекает и раздражает.
Предпочтение Google и Yandex объясняется их хорошим алгоритмом поиска и тем, что они при кликании ссылок автоматически вызывают новое окно Explorer, что позволяет не тыкать без конца кнопку BACK (Назад). О другом хорошем свойстве поискового сервера Google речь пойдет ниже. Но, когда информации катастрофически мало, не стесняйтесь пойти на другой поисковый сервер и поискать с его помощью. Поисковые алгоритмы и принципы, по которым они индексируют страницы, у каждого сервера свои, и то, что на одном сервере не нашлось, на другом может выпасть прямо на первой-второй странице.
Итак, вывод - меняйте поисковые сервера.
Что искать?
Многие читали известный рассказ Р.Шекли "Верный вопрос". Ну чем не наша ситуация, только в "домашнем", камерном масштабе? Есть нечто (в нашем случае, всемирная паутина Internet), что может ответить практически на любой вопрос, предоставить любую информацию: "Ответчик мог ответить на любой вопрос, будь тот поставлен правильно".
Мы должны знать, что ищем. И хоть приблизительно ориентироваться, где это нужно искать: "Чтобы правильно задать вопрос, нужно знать большую часть ответа". Иначе нам угрожает быть просто заваленными ссылками, на разгребание которых мы потратим не один интернет-час.
Если нам нужны книги, учебники, лекции и справочная литература, то нужно начать с поиска виртуальных библиотек и тех сайтов, где выложены учебники и лекции, ограничивая таким образом круг поисков. Если нам нужен любой материал по теме, то в таком случае придется ввести название самой темы и потратить немало времени, разгребая изобилие ссылок. Запрос нужно составить грамотно и максимально точно. Следует варьировать формулировки искомой темы. Приведу пример из практики: в поисках информации по армии Китая, на "Китайская армия" или "армия Китая" почти ничего не выпадало, зато стоило ввести официальную аббревиатуру "НОАК" - ссылок появилось много. Нет ничего про "развитые европейские страны", попробуем ввести "страны ЕС", и т.д. Если есть план работы, можно и нужно искать не по теме работы, а по формулировкам пунктов плана (и не забывать сохранять результаты в отдельных папочках).
Как искать?
Итак, вопрос задан, и поисковая система предоставила нам всевозможные ссылки по нашему запросу. Из всего многообразия свалившихся ссылок на нужно выбрать только те, на которых теоретически может находиться нужная нам информация. Редкий случай, когда необходимое оказывается в первом же окошечке с голубой каемочкой. Чаще приходится искать дальше.
Как разумно воспользоваться этим богатством, не тратя время на лишнее и не упустив нужное? Внимательно смотрим на названия ссылок, комментарии и прочие пометки.
- Отбрасываем всевозможные банки готовых рефератов (опознать можно по названиям сайтов, слову "реферат", "заказ" в комментарии). В крайнем случае, когда на лекциях ни разу не были, и даже название предмета вспоминается с трудом, можно глянуть, чтобы примерно понять, о чем вообще следует писать на такую тему.
- Отбрасываем государственные образовательные стандарты, рабочие программы и вопросы к экзаменам. Их можно опознать по соответствующим словам, названиям файлов (типа tems.htm, program.htm…) и по виду цитаты: искомый текст бывает показан как часть списка. Как правило, там разве что можно скопировать рекомендуемую литературу для добавления в "Список литературы" своей работы, и то, смотря какого она года издания.
- Отбрасываем ссылки на всевозможные семинары и курсы обучения, т.к. там искомый текст будет представлен всего лишь как часть объема знаний, которые сулят обеспечить организаторы семинаров за большую плату, или список тем.
- Как ни странно, мало шансов на информацию по ссылкам на всевозможные вузы и кафедры. Как правило, там те же самые рабочие программы и списки тем курсовых. Но можно на всякий случай сходить, иногда на таких страницах бывают ссылки типа "Учебные материалы", "Дистанционное обучение", "Электронная библиотека". На сайтах дистанционного обучения бывают выложены тексты лекций и, как минимум, в программе курса можно найти списки рекомендуемой литературы.
- Частенько выпадают ссылки, ведущие на странички книжных интернет-магазинов (bolero, ozone, colibri и т.п.). С точки зрения написания работы ничего там полезного нет, но, поскольку многие преподаватели по поводу и без оного требуют, чтобы в списке литературы были издания "не ранее 2000 года", то можно сходить, чтобы скопировать для списка литературы свеженький учебник по теме (и даже знать, какого он был цвета). С другой стороны, если Вы ищете текст книги по конкретной теме, а Вам попадаются сплошь "витрины" книжных магазинов, не отчаивайтесь, продолжайте просматривать все страницы ссылок вплоть до 5-й, 10-й и т.п., потому что интернет-магазины, как правило, очень хорошо проиндексированы, раскручены и будут фигурировать на первых страницах поисковиков, а нужная Вам книга в некоммерческом варианте окажется "на задворках", но шанс найти ее вполне реален. Иногда помогает в строке поиска к названию книги добавить слова "скачать", "download" и т.п. Эта хитрость может привести Вас сразу на те страницы, где книги и тексты предложены в электронном виде для скачивания.
- Нечего делать на страницах со ссылок на библиотеки вузов, там обычно не книжки выложены, а электронные каталоги библиотек.
- Как правило, на страницах фирм и предприятий, на которые ведут многие ссылки, выпадают только рекламные тексты, но все же на них стоит обращать внимание, особенно при редкой теме - многие специализированные агентства и фирмы, кроме рекламы и контактной информации, размещают на своих сайтах сборники крайне полезных статей по нужной теме или, на худой конец, подборки ссылок на "коллег".
- В то же время крайне полезно бывает сходить по ссылке на сайты консалтинговых и рекламных фирм, которые часто размещают в качестве образцов готовые отчеты, исследования по конкретным предприятиям или сферам профессионального интереса. Зачастую там можно найти практически готовую практическую часть для работы.
- Очень полезны бывают ссылки на журналы - чаще всего можно скачать готовую статью по теме. Если газета/журнал тематические, то неплохо бы и в архиве публикаций порыться. Хотя попадаются хитрые журналы, которые размещают в Сети только заголовки и аннотации, а тексты - только за плату… Ну, тогда хоть в список литературы поместить такие статьи.
- Про книги и курсы лекций и говорить нечего - сами разберетесь. Разве что посоветовать обращать внимание: нет ли возможности скачать всю книгу или курс лекций целиком, чем листать их в онлайне "постранично".
- Очень ценные ресурсы - тематические сайты (порталы). На них могут быть выложены книги, справочные материалы и публикации специалистов отрасли.
Как сохранить?
Ссылки на все сайты, электронные библиотеки и порталы, где была найдена нужная и просто интересная информация, рекомендую сохранять в папке "Избранное" - они могут еще пригодиться.
Сразу, как нашлось что-то интересное и похожее на требуемый материал - сохраняем. То или не совсем то, будем разбираться после "охоты".
Обратите внимание на крайне полезную программу-надстройку над Internet Explorer под названием MyIE и ее клоны, которая позволяет нам открывать все ссылки на страницы интернета "в одном окне", вместо того чтобы копаться в панели задач среди десятков копий запущенного Internet Explorer и ему подобных браузеров. Кроме того, плюс MyIE состоит в том, что он по умолчанию открывает каждую ссылку в новом окне, что позволяет забыть, как страшный сон, бесконечные клики по кнопке "Назад". Есть у него и другие достоинства (см. ниже).
- Самый тривиальный способ сохранить текст со странички к себе на компьютер: сохранить страницу "Как html" или как "текстовый файл". [ФАЙЛ - СОХРАНИТЬ КАК - …] Для этого в окне сохранения придется специально выбрать "Только html" или "Текстовый файл" в строке "Тип файла". По умолчанию обычно стоит "html-страница полностью", но это неудобно: т.к. в этом варианте браузер норовит скачать на ваш компьютер все-все картиночки, включая рекламные, что занимает много лишнего времени в интернет и места на жестком диске. Полезно обращать внимание на то, под каким названием сохраняется страница, чтобы потом легко находить сохраненные данные. Обычно они вполне осмысленные, но попадаются или слишком длинные названия (более 256 символов), или чересчур короткие и неясные (типа 1.html). Тогда желательно внести хотя бы легкую корректуру в название, чтобы потом не ломать голову: "шо у меня там такое?". Но это не обязательно, если стоит задача просидеть в интернете как можно меньше, можно будет потом разобраться… В MyIE, кстати, есть отдельный пункт меню "Сохранить html", который сильно экономит время и нервы, но названия файлов получаются совсем "технические" - наборы цифр и букв.
- Если же на странице есть хорошие нужные рисунки, есть несколько вариантов действий:
- таки сохранить как "html-cтраница полностью". Таблицы потом легко скопируются, а рисунки можно будет вставить в работу из папки с файлами. После сохранения странички нужно обязательно проверить, как получилось - открыть сохраненную страничку. Бывает так, что страничка не желает сохраняться полностью, с файлами. Тогда можно попробовать сохранить только веб-страницу, без папочки с файлами [веб-страница, только HTML]. Рисунки пропадут, но таблички можно будет копировать. Тогда каждый нужный рисунок можно будет сохранить отдельно, нажав правую кнопку мыши и выбрав из меню "Сохранить рисунок как…"
- выделить нужный текст, проигнорировав окружающие его менюшки и рекламу, скопировать в буфер и выгрузить в документ Word. Мне этот вариант очень нравится, т.к. позволяет избежать закачки бесчисленных лишних картинок, и отпадает проблема, когда на время сохранения страницы браузер "становится" недоступен. Полученный документ MS Word крайне рекомендуется сохранить "как веб-страницу". В этом случае все картинки сохраняются в отдельных файлах (*.gif, *.jpg) на винте в отдельной папочке рядом с документом и с таким же названием, откуда потом их надо принудительно снова вставить в документ вместо уже имеющихся посредством меню "Вставка - Рисунок - Из файла", и тогда уж можно сохранять как обычный документ MS Word. Если это не сделать, при переносе такого документа на другой компьютер, увы, картинки из текста пропадают.
- третий вариант, который пользуется популярностью среди любителей использовать специальные программки для сохранения страниц из интернет, например, WebCatcher. Такая программа удобна тем, что ей можно дать команду сохранять страницу, с картинками или без картинок, при желании "включая все ссылки с этой страницы" (полезно, когда статья или книга разбита на куски, каждый на отдельной "странице"). Сохраняется все это богатство в "книгах" собственного формата, которые, впрочем, легко можно экспортировать в *.html или *.cfm (это файлы помощи Windows).
- если для работы нужна только картинка, то достаточно сохранить только папку с файлами: "веб-архив, один файл".
- Будьте внимательны, когда поисковик выдает ссылку, о которой в типе файла написано "pdf" или "doc". Часто такие ссылки есть и на страницах (под словом "скачать…", или когда указано название документа/книги, а рядом в виде ссылки - размер в кб доступного для скачивания документа/книги) Если это не окажется очередная "рабочая программа дисциплины", то, как правило, в таких файлах содержатся крайне полезные книги и прочие материалы. При работе с обычным браузером при нажатии такой ссылки обычно в отдельном окошке предлагается выбор - открыть или сохранить на жесткий диск. MyIE старается открыть ее для просмотра в отдельном окне в родном формате (но обычно это очень-очень долго, и потом все равно надо сохранять на диск). Самым лучшим вариантом мне кажется иметь в наличии программу для скачивания файлов из интернет, такую как ReGet, FlashGet и множество подобных им. Эти программы, запросив только папку, куда нужно сохранить документ, позволяют закачивать нужный файл без нашего дальнейшего участия. И даже продолжить закачку после того, как мы вышли из интернет, а потом снова зашли. В таком варианте достаточно нажать на подобного рода ссылку ПРАВОЙ кнопкой мыши и выбрать из выпадающего меню "закачать при помощи Reget" и т.п. У поискового сервера Google есть полезное свойство: рядом с описанием ссылки на документ в формате pdf или любой другой в формате, отличном от html, Google размещает ссылку "в виде html". Если открыть ее, то можно быстро и удобно (искомые слова выделяются цветом) составить себе представление, что это за документ, а не скачивать "кота в мешке".
- Если ссылка вывела на страницу с главой из книги или статьей из журнала, можно и нужно поискать и нажать ссылку "оглавление", "содержание": может быть, и в соседних главах окажется что-то нужное. Если таковой ссылки нет, не стесняемся и прямо в строке адреса аккуратно с конца удаляем название файла (например, выпало http://bibl/microek/glava1.html), есть шанс попасть в оглавление, или заменяем glava1 на glava2, чтобы переместиться в следующую главу, или на content, index, чтобы переместиться в оглавление. Заодно и узнаем, из какой же это книги такая полезная глава, а то ведь в работе ссылки на литературу надо делать.
- Если в результате поиска мы попали на очень полезную страничку явно тематического сайта, есть смысл сходить на главную страницу сайта и посмотреть, что еще на нем есть нужного и интересного. Если не нашлось ссылки "На главную", не беда: удаляем в строке адреса всё до первой косой черты (в нашем примере получится http://bibl/ или http://bibl/index.html) и нажать Enter. Ищем ссылки типа "Статьи", "Аналитика", "Публикации", "Архив".
- Иногда нам просто не оставляют выбора. Книга, учебник или лекции скачиваются в заархивированном виде, а там уже разбираешься, что тебе досталось.
Порой случается, что скачанный в zip-формате документ Microsoft Word во время работы с ним выбрасывает "флаг", что программа совершила ошибку и будет закрыта. И все - приходится перезагружаться. Неприятно, конечно, но текст можно спасти. Перезагрузив компьютер, нужно открыть этот документ и сохранить его в текстовом формате: "ФАЙЛ - СОХРАНИТЬ КАК - текстовый файл". Конечно, картинки-таблички потеряются, но с текстом можно будет спокойно работать.
И только после того, как проверили результат сохранения, окошко Microsoft Internet Explorer можно закрыть.
Что делать, если ссылка не работает?
Интернет - динамичная система. Каждый день в сети появляется и исчезает множество ресурсов. Тем не менее, ссылка на несуществующий адрес - это не повод для расстройства, а информация, которой может хватить, чтобы всё же найти интересующий вас документ - особенно, если вы знаете, что именно было расположено по неработающему адресу.
Итак, ссылка не сработала. Что делать? Вот типичные способы исправления неработающих ссылок.
Метод 1. Переместитесь вверх по дереву папок сайта.
http://worldbank.org.ru/rus/ Представительство Всемирного банка в России. Эта ссылка не работает.
Папка «rus» в адресе указывает нам на то, что это была русскоязычная страница представительства. Поднимемся на один уровень вверх по дереву папок - получим адрес http://worldbank.org.ru/. По этому адресу расположен англоязычная версия сайта, и тут же видна ссылка на интересующую нас русскоязычную версию.
Данный метод сработает, если интересующий вас документ просто переложили в другую папку на том же сайте.
Метод 2. Используйте поисковую машину.
http://ilis.ilo.org/ilis/ilisterm/ilintrte.html ILOTERM (справочник эквивалентных терминов на английском, французском, немецком и испанском языках, относящихся к трудовому праву и другим смежным областям социального знания). Эта ссылка не работает.
Введите слово ILOTERM в окошке любой поисковой машины, и первая же ссылка приведёт вас на новый адрес ILOTERM. http://google.ru/search?hl=ru&ie=UTF-8&q=ILOTERM&lr=
Данный метод сработает, если вы знаете уникальные, только ему присущие слова, которые интересующий вас документ содержит в тексте (а скорее - в заголовке).
Метод 3. Используйте интернет-архив (http://archive.org/).
http://novaman.ru/school/index.shtml Школа инновационных менеджеров. Эта ссылка не работает.
Зайдите на сайт интернет-архива http://archive.org/. Скопируйте адрес искомой странички в поле <> и нажмите на кнопку "Take me back".
Кликните по дате, каждая из которых работает как ссылка на копию искомого сайта.
Данный метод сработает, если, как в данном случае, копия в интернет-архиве полная, со всеми существовавшими на указанную дату страницами. Так бывает не всегда.
Метод 4. Используйте архивы (кэши) поисковых систем.
http://iiss.krgtu.ru/do/3e/econ/econ_kontrol.doc Тесты по экономической теории. Эта ссылка не работает.
Зайдите в поисковую машину, например, Google. И поищите искомую страничку/документ, например, просто скопируйте адрес искомой странички прямо в строку поиска и выполните поиск, или ищите страницу по её названию. Рядом с неработающей ссылкой на сам документ может стоять ссылка на текст документа в архиве (кэше) поисковой машины (в случае Google - "в виде HTML"). Кликайте туда.
Данный метод сработает, если интересующий вас документ убрали из интернета недавно, в течение последних 1-2 месяцев.