Отчет №3

 

Освоение инструментария поиска информационных ресурсов

Поиско́вая систе́ма — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

По данным компании Net Applications в декабре 2007 года использование поисковых систем на Западе распределялось следующим образом:
Google — 77,04 %
Yahoo — 12,46 %
MSN — 3,33 %
Microsoft Live Search — 2,57 %
AOL — 2,12 %
Ask — 1,38 %
AltaVista — 0,13 %
Excite — 0,07 %
Lycos — 0,02 %
All the Web — 0,02 %

В вышеприведенный отчёт не входят российские поисковики, такие как, например, Яндекс, Рамблер или Nigma.

По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов. Яндекс попал в статистику и находится на 9-ом месте.

История

Одним из первых инструментов поиска в интернете (до WWW) был Archie.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией.

Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

Популярные поисковые системы

Всеязычные:
Google (34,4 % Русскоязычного сегмента)
Bing (0,9 % Русскоязычного сегмента)
Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины:
Inktomi
AltaVista
Alltheweb
Англоязычные и международные:
AskJeeves (механизм Teoma)
Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.
Яндекс (46,3 % Рунета)
Mail.ru (8,9 % Рунета)
Rambler (3,3 % Рунета)
QIP.ru (0,6 % Рунета)
Nigma (0,5 % Рунета)
Генон (0,1 % Рунета)
Gogo.ru (<0,1 % Рунета)
Aport (<0,1 % Рунета)

Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм — так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Рейтинг основных поисковых систем.

Рейтинг глобальных поисковых систем (по данным Nielsen NetRatings).

Основные поисковые системы


//www.google.com/ — 46.2%
http://www.yahoo.com/ — 22.5%
http://search.msn.com/ — 12.6%
http://www.aol.com/ — 5.4%
http://www.myway.com/ — 2.2%
http://www.ask.com/ — 1.6%
http://search.netscape.com/ — 1.6%

Прочие поисковые системы (7.9%)


http://home.iwon.com/
http://www.dogpile.com/
http://www.earthlink.com/
http://www.alltheweb.com/
http://www.hotbot.com/
http://www.teoma.com/
http://www.altavista.com/
http://www.gigablast.com/
http://www.looksmart.com/
http://www.lycos.com/
http://dmoz.org/
http://www.about.com/
http://www.britannica.com/
http://www.excite.com/
http://www.webwombat.com.au/
http://www.webcrawler.com/
http://www.pepesearch.com/
http://www.aeiwi.com/
http://www.links2go.com/
http://www.searchking.com/
http://www.qango.com/


Рейтинг российских поисковых систем (по данным SpyLog).

Основные поисковые системы


//www.yandex.ru/ — 54.8267%
//www.rambler.ru/ — 21.7645%
//www.google.com/ — 15.6207%
http://www.mail.ru/ — 4.5466%
http://www.aport.ru/ — 1.5788%

Прочие поисковые системы (1,6627%)


http://www.msn.com/
http://www.yahoo.com/
http://www.metabot.ru/
http://www.altavista.com/
http://www.meta.ua/
http://www.alltheweb.com/
http://www.bigmir.net/
http://www.ask.com/
http://www.cnet.ru/find/
http://www.aol.com/
http://www.lupa.ru/
http://www.overture.com/
http://www.toursearch.ru/


Рейтинг французских поисковых систем (по данным Nielsen NetRatings).

http://www.wanadoo.fr/ — 37.7%
http://www.msn.com/ — 33.9%
http://www.free.fr/ — 33.1%
//www.google.com/ — 32.3%
http://www.yahoo.com/ — 23.4%
http://www.lycos-europe.com/ — 22.0%
http://www.tiscali.fr/ — 21.2%
http://www.voila.fr/ — 20.8%
http://www.club-internet.fr/ — 14.0%
http://www.aol.com/ — 12.2%


Рейтинг немецких поисковых систем (по данным Nielsen NetRatings).

http://www.t-online.de/ — 34.2%
//www.google.com/ — 34.1%
http://www.msn.com/ — 29.5%
http://web.de/ — 19.7%
http://www.yahoo.com/ — 15.0%
http://www.freenet.de/ — 13.8%
http://www.aol.com/ — 13.4%
http://www.lycos-europe.com/ — 11.3%
http://www.arcor.de/ — 6.3%
http://www.tiscali.de/ — 5.1%


Рейтинг итальянских поисковых систем (по данным Nielsen NetRatings).

http://www.virgilio.it/ — 28.8%
http://www.msn.com/ — 28.3%
http://www.libero.it/ — 26.0%
//www.google.com/ — 22.8%
http://www.yahoo.com/ — 17.1%
http://www.tiscali.it/ — 15.0%
http://it.supereva.com/ — 10.0%
http://www.lycos-europe.com/ — 8.7%
http://www.kataweb.it/ — 6.5%
http://www.lycos.com/ — 4.2%


Рейтинг нидерландских поисковых систем (по данным Nielsen NetRatings).

http://www.msn.com/ — 42.3%
http://www.startpagina.nl/ — 29.3%
//www.google.com/ — 27.3%
http://www.planet.nl/ — 15.1%
http://www.ilse.nl/ — 14.5%
http://www.yahoo.com/ — 13.7%
http://www.wanadoo.nl/ — 12.4%
http://www.hetnet.nl/ — 11.5%
http://www.lycos-europe.com/ — 11.4%
http://www.tiscali.nl/ — 9.0%


Рейтинг испанских поисковых систем (по данным Nielsen NetRatings).

http://www.msn.com/ — 35.6%
//www.google.com/ — 30.2%
http://www.terra.es/ — 20.7%
http://www.yahoo.com/ — 20.5%
http://www.wanadoo.es/ — 17.9%
http://www.ya.com/ — 13.5%
http://www.lycos-europe.com/ — 10.6%
http://www.eresmas.com/ — 10.5%
http://www.hispavista.com/ — 6.3%


Рейтинг шведских поисковых систем (по данным Nielsen NetRatings).


http://www.msn.com/ — 42.7%
//www.google.com/ — 16.0%
http://www.passagen.se/ — 15.5%
http://www.spray.se/ — 14.5%
http://www.eniro.se/ — 21.1%
http://www.yahoo.com/ — 12.8%
http://www.lunarstorm.se/ — 12.3%
http://se.altavista.com/ — 10.0%
http://www.startsidan.telia.se/ — 7.5%


Рейтинг швейцарских поисковых систем (по данным Nielsen NetRatings).

http://www.msn.com/ — 33.6%
//www.google.com/ — 32.0%
http://www.bluewin.ch/ — 28.2%
http://www.yahoo.com/ — 14.8%
http://www.search.ch — 11.9%
http://www.lycos-europe.com/ — 7.3%
http://www.tiscali.ch/ — 6.7%
http://www.free.fr/ — 4.2%
http://www.t-online.ch/ — 4.1%
http://ch.altavista.com/ — 3.3%


Рейтинг английских поисковых систем (по данным Nielsen NetRatings).


http://www.msn.com/ — 41.9%
//www.google.com/ — 32.3%
http://www.yahoo.com/ — 26.0%
http://www.ifind.freeserve.com/ — 17.0%
http://www.ask.com/ — 13.8%
http://www.aol.com/ — 12.6%
http://www.friendsreunited.co.uk/ — 8.9%
http://www.lycos.com/ — 8.0%
http://www.tiscali.co.uk/ — 7.0%
http://www.lycos-europe.com/ — 6.4%

© an-zankovich
Создать бесплатный сайт с uCoz