Что такое поисковая машина

Что такое поисковая машина

По области действия поисковые машины можно разделить на глобальные, которые осуществляют поиск на многих языках без учёта имени домена, илокальные, которые осуществляют поиск в пределах определённого домена, например, национального, на определенном языке.

Поисковые системы состоят из следующих основных частей:

Робот(Robot, или Spider). Это программа, которая посещает Web-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider автоматически возвращается через определенные периоды времени и индексирует страницу снова.

Индексы.Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское вместилище информации, где хранится преобразованная особым образом текстовая составляющая всех посещенных и проиндексированных Spider страниц.

Поисковая программа.В соответствии с запросом пользователя эта программа перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему найденные документы в порядке убывания релевантности.

К основным параметрам, характеризующим достоинства поисковых машин, относятся:

объем индексных файлов или широта охвата материала (число проиндексированных серверов и отдельных документов) – до 3 с лишним миллиардов документов;

степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших – от двух недель до полутора месяцев;

возможности для составления запроса – предопределяет долю релевантных документов в перечне полученных документов;

интеллектуальность системы ранжирования результатов поиска — перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ;

наличие дополнительных сервисных функций, облегчающих работу пользователя — возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т.д.

Достоинство автоматизированного поиска состоит в том, что он обеспечивает просмотр очень больших объемов информации.

Адреса наиболее популярных поисковых машин:

Зарубежные поисковые машины:

http://www.google.com/

http://www.altavista.com/

Система открыта в декабре 1995 года.

http://www.excite.com/

Система открыта в конце 1995 года

http://www.hotbot.com/

Система запущена в мае 1996 года.

www.lycos.com

Система запущена примерно в мае 1994 года.

Российские поисковые машины:

http://www.yandex.ru/(или http://www.ya.ru/) Сайт компании, Yandex.ru, был открыт 23 сентября 1997 года.

http://www.rambler.ru/ Rambler создан в 1996 году.

http://www.aport.ru/ действует в Интернете с 1996 года.

Метапоисковые системы

Метапоисковые системы сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым машинам, а затем суммируют результаты. Каждая из метапоисковых систем имеет свой язык запросов. Сформулированный на этом языке запрос она переводит на язык запросов каждой используемой машины поиска.

Адреса метапоисковых систем:

MetaCrawler-http://www.metacrawler.com/ Search.com–http://www.search.com/

Mamma http://www.mamma.com

MetaBot http://www.metabot.ru российская метапоисковая система

Наряду с метапоисковыми системами в настоящее время большое развитие получило «парное взаимодействие» между поисковыми машинами. Такие популярные русскоязычные поисковые машины как Апорт, Яндекс и Рамблер могут взаимодействовать друг с другом, с АльтаВиста и даже с некоторыми каталогами.

Постепенно поисковые серверы превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо поиска информации, такие серверы обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т.д.

Принцип работы, преимущества и недостатки поисковых машин

Наряду с кaтaлoгaми (и дaжe гоpaздo чaщe) иcпoльзуютcя пoиcкoвыe мaшины. Это уже более современный и удобный способ навигации и поиска в Сети. В отличие от каталогов, поисковая система — это полностью автоматизированная структура.

К преимуществам поисковых машин следует отнести: малое количество в результатах поиска устаревших ссылок; намного большее количество Web-узлов, по которым производится поиск; более высокая скорость поиска; высокая релевантность поиска; наличие дополнительных сервисных функций, облегчающих работу пользователя, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов «по образцу» и так далее.

В основу работы поисковых машин заложены совершенно иные технологические принципы. Задача поисковых машин — обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от каталогов, поисковые машины функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии «метод снежного кома». Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видеофайлы. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и cocтaвляют бaзу дaнных, к кoтopoй происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов. Браун Маркус.: Методы поиск информации в Интернете. — М.: Новый Издательский дом, 2005г. — 136стр.

Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту cтpaницы, a тaкжe чиcлo и aвтopитeтнocть внeшних ccылoк нa дaнную cтpаницу c дpугих caйтoв.

Однако у поисковых машин существуют некоторые недостатки: ограниченная область поиска. Если какой — либо сайт не был внесен в бaзу дaнных пoиcкoвoй мaшины, oн для неё не «существует», и его документы в результаты поиска попасть не могут; относительная сложность использования. Для того чтобы составленный запрос на поиск точно соответствовал тому, что именно требуется найти, нужно хотя бы немного представлять, как работает поисковая машина, и уметь использовать простейшие логические операторы. Поисковые каталоги в этом смысле проще и привычнее; менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией. Результаты работы пoиcкoвoй мaшины мeнee нaглядны; пocкoльку бaзу дaнных пoиcкoвoй мaшины пополняют программы — роботы, нечестные владельцы рекламных сайтов могут их «обмануть», из-за чего релевантность поиска может быть значительно снижена.

Читайте также:  Как восстановить удаленную группу в контакте

Поисковые машины (sеаrch еnginуs) более распространены чем каталоги, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных нaвыкoв, тaк кaк пpocтoй ввoд иcкoмoгo тepминa в пoиcкoвую cтpoку, cкopee вceгo, пpивeдeт к пoлучeнию cпиcка из coтeн тыcяч дoкумeнтoв, coдepжaщих дaннoe пoнятиe, что практически равносильно нулевому результату.(http://www.gogle.com/)

Данная поисковая машина запущена в 1998 году. В настоящий момент эта система пo вceм знaчимым пapaмeтpaм являeтcя eдинoличным лидepoм cpeди глoбaльных пoиcкoвых cиcтeм. Google является одной из самых популярных поисковых систем. Свое название эта поисковая система получила от слова «Googol», которое обозначает число, записанное как единица со 100 нулями. Google обладает поддоменами для большого количества стран — для России, например, это www.google.com.ru.

Поисковая машина Google найдет по запросу пользователя не только гипертекстовые документы, но и файлы формата doc, pdf, mp3 и так далее. Google может похвастаться своим качественным «движком», который осуществляет поиск в Интернете по запросам пользователей. Релевантность — степень соответствия найденных результатов поиска запросу — у Google часто выше, чем у российских поисковиков, например Яндекса. Именно по этой причине все больше пользователей Интернета начинают использовать Google в качестве основной поисковой системы. Поисковик Google использует алгоритм ссылочного ранжирования PageRank, который определяет авторитетность сайта при формировании списка результатов поиска. PageRank схож с индексом цитирования у Яндекса и зависит от качества и количества ссылок на этот сайт. Благодаря PageRank пользователи находят в Интернете именно то, что ищут.

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами.

Поисковые системы сейчас — это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Эти системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя:

пространственный масштаб, в котором работает ИПС;

Большинство пользователей поисковых систем никогда не задумывались о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют… Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому требуется периодическое обновление. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.

Поисковая система — это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это — «Яндекс», «Рамблер», «Апорт».

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма. База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени — владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности. Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.

В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:

фиксация информационной потребности на естественном языке;

выбор нужных поисковых сервисов сети и точная формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

выполнение созданных запросов;

предварительная обработка и выборка полученных списков ссылок на документы;

обращение по выбранным адресам за искомыми документами;

предварительный просмотр содержимого найденных документов;

сохранение релевантных документов для последующего изучения;

извлечение из релевантных документов ссылок для расширения запроса;

изучение всего массива сохраненных документов;

если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

Задача любой поисковой системы — доставлять людям ту информацию, которую они ищут. Научить людей делать «правильные» запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна «думать» также как думает пользователь при поиске информации. Поисковые системы в большинстве своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых систем.

Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.

В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.

Читайте также:  Приложение steam уже запущено на этом компьютере

Таким образом, два главных процесса, выполняемых поисковой системой — это индексирование сайтов, страниц и поиск. В общем, процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано с большими объемами информации, которая подвергается обработке больших компьютерных комплексов. Главный фактор, определяющий количество участвующих в поиске серверов, — поисковая нагрузка. Это объясняет некоторые «странности» возникающие при поиске информации.

Поисковые системы состоят из пяти отдельных программных компонент:

spider (паук): браузероподобная программа, которая скачивает web-страницы;

crawler: «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице;

indexer (индексатор): «слепая» программа, которая анализирует web-страницы, скаченные пауками;

the database (база данных): хранилище скаченных и обработанных страниц;

search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук — это программа, которая скачивает web-страницы. Он работает точно как браузер, при соединении с web-сайтом и загрузке страницы. Паук не имеет никаких визуальных компонент.

Crawler: Как и паук скачивает страницы, он может найти все ссылки на странице, его задача — определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

Database: База данных — это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.

Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас — именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен проанализировать все web-пространство за одно погружение, но для этого требуется очень много времени.

После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети. Скачивать документы по очереди не имеет смысла, так как это малоэффективно.

Технически модуль скачивания бывает либо мультимедийным (Altavista Merkator), либо используется асинхронный ввод-вывод (GoogleBot). В мультитредовой схеме скачивающие треды называются «червями» (worms), а их менеджер — «погоняльщиком червей» (wormboy).

Целью скачивания является уменьшение сетевого трафика при максимальной полноте. Абсолютно все поисковые роботы подчиняются файлу robots.txt, где web-мастер может ограничить индексацию страниц роботом.

У моделей скачивания в поддержке есть другие модули, выполняющие вспомогательные функции. Они помогают уменьшать трафик, увеличивать глубину поиска, обрабатывают часто обновляемые ресурсы, хранят URL и ссылки, чтобы повторно не скачивать ресурсы. Существуют модули отслеживания дубликатов. Они помогают отсеивать страницы с повторной информацией. Т.е. если робот находит дубликат уже существующей страницы или со слегка измененной информацией, то он не идет дальше по ссылкам страницы. Есть отдельный модуль определения кодировки и языка документа.

После того как страница было скачена, она обрабатывается html-парсером. Он оставляет лишь ту информацию от документа, которая действительно важна для поиска: текст, шрифты, ссылки и т.д. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Индексированная база данных необходима для того, чтобы поисковая система могла быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. По своим базам указателей поисковая система в доли секунды разыскивает подходящие web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам. Но основная проблема современного Интернета связана с изобилием web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице. Несколько тысяч — это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. Строго говоря, все поисковые системы черпают исходную информацию из одного и того же web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной web-странице система присваивает рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения. Высокие рейтинги получают web-страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова впервые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные web-мастера избегают в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст отодвигается назад. Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества web-страницы является тот факт, что на нее есть ссылки с каких-то других web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими web-страниц и учитывают его при ранжировании. Создатели web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа web-мастера способна значительно поднять посещаемость web-страницы.

Читайте также:  Как написать степень на телефоне

К числу самых признанных поисковых систем принадлежит AltaVista, мощнейший аппаратный и программный потенциал, которой позволяет проводить поиск по любому слову из текста web-страницы или статьи в телеконференции (данные 1998 г.). AltaVista содержит сведения о 30 миллионах web-страниц и статьях из 14 тысяч телеконференций.

Данная система использует довольно сложный механизм составления запроса, включающий комбинации отдельных слов, словосочетаний и знаков пунктуации: кавычек, точек с запятой, двоеточия, скобок, плюса и минуса или привычных булевых операторов AND, OR, NOT и NEAR (последние в рамках усложненного поиска — Advanced search). Их сочетание дает возможность наиболее точно составить поисковое предписание.

Так, знак плюс, стоящий перед словом означает, что этот термин обязательно должен присутствовать в документе, знак минус, наоборот, — отсевает все материалы, содержащие это понятие. Система допускает поиск по целой фразе (в этом случае все словосочетание заключается в кавычки), а также поиск с усечением окончаний, при этом в конце слова ставится "*". Пользователям также предоставлена возможность ограничивать запрос по дате создания/последнего обновления документа. Поиск по всем словам текста декларирован и в HotBot, который на сегодня является самым мощным поисковым средством именно для World Wide Web (содержит сведения о 54 миллионах документов). Углубленный поиск — Expert Search в HotBot дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предлагающего различные варианты составления поискового предписания. Можно осуществить поиск по сочетанию в документе нескольких различных терминов, поиск по отдельной фразе, поиск конкретного лица или электронного адреса. Для детализации запроса возможно применение условий SHOULD — "может содержать", MUST -"должен обязательно содержать", MUST NOT — "не должен содержать" по отношению к каким-либо понятиям.

Интересным поисковым средством является Excite, также обеспечивающий полнотекстовый поиск на более чем 50 миллионах web-страниц. Особенность работы с ним заключается в том, что запросы в эту систему водятся на естественном языке (конечно же на английском) так, как если бы мы спрашивали человека. Специальная система, сконструированная на основе Интеллектуального извлечения понятий (Intelligent Concept Extraction) анализирует запрос и выдает ссылки на релевантные, по ее компьютерному мнению, документы. Практика, однако, показывает, что Excite корректно обрабатывает только односложные запросы. Для получения информации по многосложной тематике лучше пользоваться другими поисковыми средствами.

Одной из современных систем, обеспечивающих поиск по всем словам текста является OpenText. Пользователь, однако, может по желанию ограничить рамки поиска только главными и наиболее значимыми фрагментами web-страницы: заглавием, первым заголовком, резюме, электронным адресом (URL). Это очень удобно, если требуется найти лишь главные работы по какой-либо широкой тематике.

Как и в предыдущих случаях наиболее трудные запросы выполняются с помощью усложненного поиска — Power Search. Его интерфейс позволяет довольно просто составить поисковое предписание, используя многоступенчатое меню. Это меню представляет собой строки для ввода терминов с указанием того в каких полях должны содержаться искомые данные в сочетании с привычными операторами AND (и), OR (или), BUT NOT (но не), NEAR (рядом с) и FOLLOWED BY (следует за).

В последние годы сложилась и практика коммерческого рейтингования. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интернета) сегодня примерно таков, каким был западный сектор в 1994-1995 гг. Поэтому сегодня в России особых проблем с поиском информации нет, и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодолеть.

Из поисковых указателей в России сегодня действуют три «кита». Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт» (www.aport.ru).

Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам web-страниц, он давно толком не обновлялся и выдает устаревшие результаты. Сегодня «Рамблер» — это популярный портал, лучшая в России классификационно-рейтинговая плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска средства не вкладываются. Самый большой указатель лежит в основе системы «Яндекс» — примерно 27 миллионов web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы. По уровню актуальности «Яндекс» сегодня — безусловный лидер. Система «Апорт» выигрывает на третьем этапе: в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.

Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.

Ссылка на основную публикацию
Что такое ogg формат
Ogg — Dateiendung: .ogg, .oga, .ogv, .ogx MIME Type … Deutsch Wikipedia .ogg — Dateiendung .ogg, .oga, .ogv, .ogx MIME...
Что значит включена переадресация вызова когда звонишь
Что такое переадресация звонков? Что значит «Переадресация звонков»? Данная услуга позволяет всегда оставаться на связи, за счёт перенаправления исходящих звонков....
Что значит восьмиядерный процессор
Дизайн и эргономика важны для гаджетов, но в то же время каждый пользователь понимает, что сердцем любого электронного устройства являются...
Что такое pppoe соединение на роутере
PPPoE (англ. Point-to-point protocol over Ethernet ) — сетевой протокол канального уровня (второй уровень сетевой модели OSI) передачи кадров PPP...
Adblock detector