|
Отчет №3
|
Освоение инструментария поиска информационных ресурсов
Поиско́вая систе́ма — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
По данным компании Net Applications в декабре 2007 года использование поисковых систем на Западе распределялось следующим образом: Google — 77,04 % Yahoo — 12,46 % MSN — 3,33 % Microsoft Live Search — 2,57 % AOL — 2,12 % Ask — 1,38 % AltaVista — 0,13 % Excite — 0,07 % Lycos — 0,02 % All the Web — 0,02 % В вышеприведенный отчёт не входят российские поисковики, такие как, например, Яндекс, Рамблер или Nigma. По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов. Яндекс попал в статистику и находится на 9-ом месте.
История
Одним из первых инструментов поиска в интернете (до WWW) был Archie. Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона. Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс. В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией. Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.
Популярные поисковые системы
Всеязычные: Google (34,4 % Русскоязычного сегмента) Bing (0,9 % Русскоязычного сегмента) Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины: Inktomi AltaVista Alltheweb Англоязычные и международные: AskJeeves (механизм Teoma) Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. Яндекс (46,3 % Рунета) Mail.ru (8,9 % Рунета) Rambler (3,3 % Рунета) QIP.ru (0,6 % Рунета) Nigma (0,5 % Рунета) Генон (0,1 % Рунета) Gogo.ru (<0,1 % Рунета) Aport (<0,1 % Рунета) Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм — так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.
Рейтинг основных поисковых систем.
Рейтинг глобальных поисковых систем (по данным Nielsen NetRatings). Основные поисковые системы
//www.google.com/ — 46.2% http://www.yahoo.com/ — 22.5% http://search.msn.com/ — 12.6% http://www.aol.com/ — 5.4% http://www.myway.com/ — 2.2% http://www.ask.com/ — 1.6% http://search.netscape.com/ — 1.6% Прочие поисковые системы (7.9%)
http://home.iwon.com/ http://www.dogpile.com/ http://www.earthlink.com/ http://www.alltheweb.com/ http://www.hotbot.com/ http://www.teoma.com/ http://www.altavista.com/ http://www.gigablast.com/ http://www.looksmart.com/ http://www.lycos.com/ http://dmoz.org/ http://www.about.com/ http://www.britannica.com/ http://www.excite.com/ http://www.webwombat.com.au/ http://www.webcrawler.com/ http://www.pepesearch.com/ http://www.aeiwi.com/ http://www.links2go.com/ http://www.searchking.com/ http://www.qango.com/
Рейтинг российских поисковых систем (по данным SpyLog). Основные поисковые системы //www.yandex.ru/ — 54.8267% //www.rambler.ru/ — 21.7645% //www.google.com/ — 15.6207% http://www.mail.ru/ — 4.5466% http://www.aport.ru/ — 1.5788% Прочие поисковые системы (1,6627%)
http://www.msn.com/ http://www.yahoo.com/ http://www.metabot.ru/ http://www.altavista.com/ http://www.meta.ua/ http://www.alltheweb.com/ http://www.bigmir.net/ http://www.ask.com/ http://www.cnet.ru/find/ http://www.aol.com/ http://www.lupa.ru/ http://www.overture.com/ http://www.toursearch.ru/
Рейтинг французских поисковых систем (по данным Nielsen NetRatings). http://www.wanadoo.fr/ — 37.7% http://www.msn.com/ — 33.9% http://www.free.fr/ — 33.1% //www.google.com/ — 32.3% http://www.yahoo.com/ — 23.4% http://www.lycos-europe.com/ — 22.0% http://www.tiscali.fr/ — 21.2% http://www.voila.fr/ — 20.8% http://www.club-internet.fr/ — 14.0% http://www.aol.com/ — 12.2%
Рейтинг немецких поисковых систем (по данным Nielsen NetRatings). http://www.t-online.de/ — 34.2% //www.google.com/ — 34.1% http://www.msn.com/ — 29.5% http://web.de/ — 19.7% http://www.yahoo.com/ — 15.0% http://www.freenet.de/ — 13.8% http://www.aol.com/ — 13.4% http://www.lycos-europe.com/ — 11.3% http://www.arcor.de/ — 6.3% http://www.tiscali.de/ — 5.1%
Рейтинг итальянских поисковых систем (по данным Nielsen NetRatings).
http://www.virgilio.it/ — 28.8% http://www.msn.com/ — 28.3% http://www.libero.it/ — 26.0% //www.google.com/ — 22.8% http://www.yahoo.com/ — 17.1% http://www.tiscali.it/ — 15.0% http://it.supereva.com/ — 10.0% http://www.lycos-europe.com/ — 8.7% http://www.kataweb.it/ — 6.5% http://www.lycos.com/ — 4.2%
Рейтинг нидерландских поисковых систем (по данным Nielsen NetRatings). http://www.msn.com/ — 42.3% http://www.startpagina.nl/ — 29.3% //www.google.com/ — 27.3% http://www.planet.nl/ — 15.1% http://www.ilse.nl/ — 14.5% http://www.yahoo.com/ — 13.7% http://www.wanadoo.nl/ — 12.4% http://www.hetnet.nl/ — 11.5% http://www.lycos-europe.com/ — 11.4% http://www.tiscali.nl/ — 9.0%
Рейтинг испанских поисковых систем (по данным Nielsen NetRatings). http://www.msn.com/ — 35.6% //www.google.com/ — 30.2% http://www.terra.es/ — 20.7% http://www.yahoo.com/ — 20.5% http://www.wanadoo.es/ — 17.9% http://www.ya.com/ — 13.5% http://www.lycos-europe.com/ — 10.6% http://www.eresmas.com/ — 10.5% http://www.hispavista.com/ — 6.3%
Рейтинг шведских поисковых систем (по данным Nielsen NetRatings).
http://www.msn.com/ — 42.7% //www.google.com/ — 16.0% http://www.passagen.se/ — 15.5% http://www.spray.se/ — 14.5% http://www.eniro.se/ — 21.1% http://www.yahoo.com/ — 12.8% http://www.lunarstorm.se/ — 12.3% http://se.altavista.com/ — 10.0% http://www.startsidan.telia.se/ — 7.5%
Рейтинг швейцарских поисковых систем (по данным Nielsen NetRatings). http://www.msn.com/ — 33.6% //www.google.com/ — 32.0% http://www.bluewin.ch/ — 28.2% http://www.yahoo.com/ — 14.8% http://www.search.ch — 11.9% http://www.lycos-europe.com/ — 7.3% http://www.tiscali.ch/ — 6.7% http://www.free.fr/ — 4.2% http://www.t-online.ch/ — 4.1% http://ch.altavista.com/ — 3.3%
Рейтинг английских поисковых систем (по данным Nielsen NetRatings).
http://www.msn.com/ — 41.9% //www.google.com/ — 32.3% http://www.yahoo.com/ — 26.0% http://www.ifind.freeserve.com/ — 17.0% http://www.ask.com/ — 13.8% http://www.aol.com/ — 12.6% http://www.friendsreunited.co.uk/ — 8.9% http://www.lycos.com/ — 8.0% http://www.tiscali.co.uk/ — 7.0% http://www.lycos-europe.com/ — 6.4%
|