Организация поисковой системы во всемирной глобальной сети

Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 16.06.2015
Размер файла 1,3 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Плохие программные реализации роботов

Нагрузка на сеть и серверы иногда увеличивается плохой программной реализацией особенно недавно написанных роботов. Даже если протокол и ссылки, посланные роботом, правильны, и робот правильно обрабатывает возвращенный протокол (включая другие особенности вроде переназначения), имеется несколько менее очевидных проблем.

Автор наблюдал, как несколько похожих роботов управляют вызовом его сервера. В то время, как в некоторых случаях негативные последствия были вызваны людьми, использующими свой сайт для испытаний (вместо локального сервера), в остальных случаях стало очевидно, что они были вызваны плохим написанием самого робота. При этом могут произойти повторные запросы страниц в том случае, если нет никаких записей об уже запрошенных ссылках (что является непростительным), или когда робот не распознает, когда несколько ссылок синтаксически эквивалентны, например, где различаются DNS псевдонимы для одного и того же адреса IP, или где ссылки не могут быть обработаны роботом, например " foo/bar/ ../baz.html " является эквивалентным "foo/baz.html".

Некоторые роботы иногда запрашивают документы типа GIF и PS, которые они не могут обработать и поэтому игнорируют.

Другая опасность состоит в том, что некоторые области Сети являются почти бесконечными. Например, рассмотрим сценарий, который возвращает страницу со ссылкой на один уровень, расположенный ниже. Он начнет, например, с " /cgi-bin/pit / ", и продолжит с " /cgi-bin/pit/a / ", " /cgi-bin/pit/a/a / ", и т.д. Поскольку такие ссылки могут заманить в робота в ловушку, их часто называют "черными дырами".

Проблемы при каталогизации информации

Бесспорен тот факт, что базы данных, наполняемые роботами, популярны. Автор непосредственно регулярно использует такие базы данных для нахождения нужных ему ресурсов. Однако, имеется несколько проблем, которые ограничивают применение роботов для исследования ресурсов в Сети. Одна из них заключается в том, что здесь находится слишком много документов, и все они постоянно динамически изменяются.

Одной из мер эффективности подхода к поиску информации является "отзыв" (recall), содержащий информацию о всех релевантных документах, которые были найдены. Брайен Пинкертон утверждает, что отзыв в индексирующих системах Интернет является вполне приемлемым подходом, так как обнаружение достаточно релевантных документов не проблема. Однако, если сравнивать все множество информации, доступной в Интернет, с информацией в базе данных, созданной роботом, то отзыв не может быть слишком точным, поскольку количество информации огромно и она очень часто изменяется. Так что практически база данных может не содержать специфического ресурса, который доступен в Интернет в данный момент, и таких документов будет множество, поскольку Сеть непрерывно растет.

Определение роботом, какую информацию включать / исключать

Робот не может автоматически определить, была ли данная страница в Сети включена в его индекс. К тому же веб-сервера в Интернет могут содержать документы, которые являются релевантными только для локального контекста, документы, которые существуют временно, и т.д. На практике роботы сохраняют почти всю информацию о том, где они побывали. Заметьте, что, даже если робот смог определить, должна ли указанная страница быть исключена из его базы данных, он уже понес накладные расходы на запрос самого файла, а робот, который решает игнорировать большой процент документов, очень расточителен. Пытаясь исправить эту ситуацию, Интернет-сообщество приняло " Стандарт исключений для роботов". Этот стандарт описывает использование простого структурированного текстового файла, доступного в известном месте на сервере ("/robots.txt") и используемого для того, чтобы определить, какая из частей их ссылок должна игнорироваться роботами. Это средство может быть также использовано для того, чтобы предупредить роботов о черных дырах. Каждому типу роботов можно передавать определенные команды, если известно, что данный робот специализируется в конкретной области. Этот стандарт является свободным, но его очень просто осуществить и в нем имеется значительное давление на роботов с попыткой их подчинения.

Формат файла /robots.txt.

Файл /robots.txt предназначен для указания всем поисковым роботам индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id), и указывают для каждого робота или для всех сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл /robots.txt, должен указать подстроку Product Token поля User-Agent, которую каждый робот выдает на HTTP-запрос индексируемого сервера. Например, нынешний робот Lycos на такой запрос выдает в качестве поля User-Agent:

Lycos_Spider_(Rex)/1.0 libwww/3.1

Если робот Lycos не нашел своего описания в /robots.txt - он поступает так, как считает нужным. При создании файла /robots.txt следует учитывать еще один фактор - размер файла. Поскольку описывается каждый файл, который не следует индексировать, да еще для многих типов роботов отдельно, при большом количестве не подлежащих индексированию файлов размер /robots.txt становится слишком большим. В этом случае следует применять один или несколько следующих способов сокращения размера /robots.txt:

- указывать директорию, которую не следует индексировать, и, соответственно, не подлежащие индексированию файлы располагать именно в ней

- создавать структуру сервера с учетом упрощения описания исключений в /robots.txt

- указывать один способ индексирования для всех agent_id

- указывать маски для директорий и файлов

Записи (records) файла /robots.txt

Общее описание формата записи.

Uer-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]*

[# comment string ]? NL]

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

[

#comment string NL

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

]*

[NL]+

Параметры

Описание параметров, применяемых в записях /robots.txt

- [...]+ Квадратные скобки со следующим за ними знаком + означают, что в качестве параметров должны быть указаны один или несколько терминов. Например, после "User-Agent:" через пробел могут быть указаны один или несколько agent_id.

- [...]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть указаны ноль или несколько терминов. Например, можно писать или не писать комментарии.

- [...]? Квадратные скобки со следующим за ними знаком ? означают, что в качестве параметров могут быть указаны ноль или один термин. Например, после "User-Agent: agent_id" может быть написан комментарий.

- ..|.. означает или то, что до черты, или то, что после.

- WS один из символов - пробел (011) или табуляция (040)

- NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)

- User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.

- Disallow: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются полные пути к неиндексируемым файлам или директориям.

- # начало строки комментариев, comment string - собственно тело комментария.

- agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.

- path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.

Расширенные комментарии формата.

Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

User-Agent: *

Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Каждый поисковый робот будет определять абсолютный URL для чтения с сервера с использованием записей /robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.

Пример:

User-Agent: *

Disallow: /

User-Agent: Lycos

D isallow: /cgi-bin/ /tmp/

В примере 1 файл /robots.txt содержит две записи. Первая относится ко всем поисковым роботам и запрещает индексировать все файлы. Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные - разрешает. Таким образом сервер будет проиндексирован только системой Lycos [12].

Определение порядка перемещения по Сети

Определение того, как перемещаться по Сети является относительной проблемой. Учитывая, что большинство серверов организовано иерархически, при первом перемещении вширь по ссылкам от вершины на ограниченной глубине вложенности ссылок, более вероятно быстрее найти набор документов с более высоким уровнем релевантности и услуг, чем при перемещении в глубину вложенности ссылок, и поэтому этот метод намного предпочтительнее для исследования ресурсов. Также при перемещении по ссылкам первого уровня вложенности более вероятно найти домашние страницы пользователей с ссылками к другим, потенциально новым, серверам, и поэтому при этом существует большая вероятность найти новые сайты [13].

Подведение итоговых данных

Проиндексировать произвольный документ, находящийся в Сети, очень сложно. Первые роботы просто сохраняли название документа и якоря (anchor) в самом тексте, но новейшие роботы уже используют более продвинутые механизмы и вообще рассматривают полное содержание документа.

Эти методы являются хорошими общими мерами и могут автоматически применяться для всех страниц, но, к сожалению, не могут быть столь же эффективны, как индексация страницы самим ее автором. Язык HTML обеспечивает автора документа средством для того, чтобы присоединить к нему общую информацию. Это средство заключается в определении элемента <META>, например " <meta title = "keywords" value = " Обслуживание автомобиля Форда " >. Однако, здесь не определяется никакая семантика для специфических значений атрибутов данного HTML-тэга, что серьезно ограничивает его применение, а поэтому и его полноценность. Это ведет к низкой "точности" относительно общего количества запрошенных документов, которые являются релевантными для конкретного запроса. Включение особенностей типа применения булевских операторов, нахождение весов слов, как это делается в WAIS или обратной связи для релевантности, могут улучшить точность документов, но учитывая, что информация, находящаяся в данный момент в Интернет, чрезвычайно разнообразна, эта проблема продолжает быть серьезной и наиболее эффективные пути ее решения пока не найдены [14].

1.6 Обзор и рейтинги основных мировых поисковых систем

По данным исследования проводившегося на конец 2009 года доминирующие место в рейтинге стабильно занимает компания Google. В декабре на долю гиганта пришлось 41,3 миллиардов поисковых запросов, это - 62,4% рынка. Второе место (с большим отрывом) у Yahoo! - 8,5 миллиардов запросов, 12,8% рынка и крупнейшего китайского поисковика Baidu.com - 3,4 млрд. запросов, 5,2% рынка. К слову, уверенные позиции последнего связаны с тем, что на территории Китая заблокированы и Google, и Yahoo! [15]

Таблица 1.1

Рейтинг основных мировых поисковых систем

Название поисковой системы

Число запросов, миллионов.

Доля, процентов

Всего в интернете

66221

100,0

Google

41345

62,4

Yahoo!

8505

12,8

Baidu.com

3428

5,2

Microsoft

1940

2,9

NHN Corporation

1572

2,4

eBay

1428

2,2

Time Warner Network

1062

1,6

Ask Network

728

1,1

Yandex

566

0,9

Alibaba.com

531

0,8

Диаграмма 1.1. Рейтинг мировых поисковых систем (2009 год)

Рейтинг основных Российских поисковых систем

На сегодняшний день самой популярной русскоязычной поисковой системой является Яндекс - 62% всех поисковых запросов.

Далее представлена таблица рейтинга пяти наиболее посещаемых систем поиска в России (по данным на март 2011г.) [16].

Таблица 1.2

Рейтинг основных Российских поисковых систем

Название поисковой

системы

Число запросов, миллионов.

Доля, процентов

Всего в Рунете

22,299

100

Яндекс

13,825

62

Google

5,798

26

Mail.ru

1,338

6

Rambler

0,78

3,5

Другие

0,557

2,5

Диаграмма 1.2. Рейтинг основных Российских поисковых систем (март 2011г.)

Обзор основных мировых поисковых систем

На сегодняшний день всемирная сеть Интернет насчитывает огромное множество поисковых систем во всех странах мира, из них всех можно выделить несколько самых крупных и пользующихся наибольшей популярностью среди пользователей:

Google

Лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов и индексирует более 8 миллиардов веб-страниц.

Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска [17].

Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее [18].

Yahoo

Одна из самых первых Поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более 200 миллионов адресов электронной почты по всему миру, анонсировал запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. "Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности", - объясняет Эрик Петерсон, аналитик компании Jupiter Research.

Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. "Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер", - обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка) [19].

Baidu

Baidu - лидер среди китайских поисковых систем. По количеству обрабатываемых запросов поисковый сайт Байду стоит на 3 месте в мире (3 миллиарда 428 миллионов; с долей в глобальном поиске 5,2 %). Хотя компания работает только в единственной стране: Китае! Но точно, что этот рынок растет неистово быстро: Уже в конце года в Китае свыше 170 млн. пользователей займутся поиском информации в Интернете. Аналитик J.P. Морган Дик Вей исходит в своем актуальном анализе из того, что это число вырастет в течение следующих трех, четырех лет до 100 млн. пользователей. Гигантский рынок с экстремально высокими доходами для Baidu. Сравнивают только прибыль, которую Google достигает в США с очень похожей бизнес-моделью [20].

Обзор основных поисковых систем территории СНГ

Основное отличие русскоязычных поисковых систем от иностранных одно - это то, что глобальные поисковые системы, поддерживающие поиск на русском языке, не поддерживают русскую морфологию. В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных:

Yandex

Яндекс - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании "Яндекс" началась в 1990 году с разработки поискового программного обеспечения в компании "Аркадия". За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году "Аркадия" стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Слово Яндекс придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. "Яndex" означает "Языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове "Index" перевести с английского первую букву ("I" - "Я"), получится "Яndex".

В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

Помимо поисковой системы, сегодня Яндекс - огромный портал с целым набором широко используемых сервисов, такими как каталог, Яндекс. деньги, и другие. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яндекс, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе. Сегодня Яндекс имеет внутри мощный поисковый робот, позволяющий производить поиск по самым различным критериям [21].

Rambler

Rambler - Старейшая поисковая система российского Интернет, запущена в 1996 году, на сегодня - вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Рамблер - один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Рамблер, Рамблер-почта, Рамблер-ICQ или Рамблер-ТВ. По сути сегодня Рамблер - больше, чем просто поисковая система и набор сервисов, это крупная медиагруппа. Поисковая машина "Рамблер" начала работу в октябре 1996 года, на стартовом этапе содержала всего 100 тысяч документов. "Рамблер" не был первой отечественной поисковой системой, однако в первый год своего существования (когда весь русский веб с приемлемой степенью правдоподобия индексировался "Рамблером", "Апортом", "Русской поисковой машиной", а также шведской и калифорнийской AltaVista) вынес основной груз поисковых запросов. Вторая версия "Рамблера" начала разрабатываться летом 2000 года, в марте нынешнего года приняла достаточно законченные очертания. В нее были введены функции, давно уже имевшиеся в конкурирующих системах. Она учитывает координаты слов, обучена строгой и нечеткой морфологии, связывает поиск с каталогом, в качестве которого используется Top100 (http://top100.rambler.ru/), группирует результаты поиска по сайтам, ищет по числам. Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса", и в 3 раза меньшее, чем у "Апорта" [22].

Апорт

Апорт - Третья популярности на сегодня поисковая система с обращением более 16 миллионов посетителей в месяц. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Разнообразные специализированные поиски (Знакомства, Товары, Новости, Рефераты, MP3 и др.) дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Русскоязычной части Интернет каталогов Интернет-ресурсов "Апорт-каталог".

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам... Короче, день рождения и фактический старт системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов. Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблер", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.

Важнейшими свойствами первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проиндексированных страниц из собственной базы (что означает возможность просмотра страниц, уже несуществующих в оригинале).

Апорт 2000" стал первой российской поисковой машиной, практически реализовавший две базовых технологии американской поисковой машины Google. Первая - учет "ранга страницы" (Page Rank), который характеризует ее популярность (вычисляется по количеству ссылок на ресурс из внешнего Интернета: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь"). Вторая - обработка запроса, ориентируясь на HTML-код страницы. В "Апорт 2000" учитывается также вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.

Можно отметить и то, что "Апорт" первым устроил поиск по новостным лентам (какие бы ложные сведения о приоритете "Яндекса" в этом сервисе не распускал в свое время Internet.ru). И, наконец, еще одно первенство "Апорта" - использование платной нулевой строки в выдаче (кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе "Russian Search"). Однако в "Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска. Пользователи "Апорта" (в отличие завсегдатаев "Яндекса") мало пользуются расширенным поиском (на 8000 загрузок простой страницы приходится 300 вызовов страницы "Расширенный поиск").

Организация масштабируемости в архитектуре "Апорт 2000" такова, что можно дробить поисковую базу "Апорта" на несколько отдельных баз, каждый маленький "Апорт" работает на своем компьютере. "Апорт 2000" считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что можно время от времени наблюдать [23].

Mail.ru

Национальная почтовая служба Mail.ru - это не только поисковая система но и один из крупнейших порталов российского Интернета. Ежедневная аудитория Mail.ru - более 5 миллионов пользователей. Общее число регистраций со дня основания около 60 миллионов. Mail.ru - самый быстроразвивающийся российский Интернет-ресурс. Через почтовые ящики Mail.ru ежедневно проходит более 25 миллионов писем. Mail.ru занимает лидирующую позицию среди бесплатных почтовых сервисов, предоставляя своим пользователям почтовый ящик неограниченного размера с защитой от спама и вирусов, переводчиком, проверкой правописания, архивом для хранения фотографий и многое другое.

В 1998-м году программисты, работающие в питерском офисе американской софтверной компании DataArt, создали новое ПО для почтового веб-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Чтобы протестировать сервис, его временно выложили в открытый доступ для российских пользователей, а сервис вдруг стал стремительно набирать популярность.

20 февраля 2001 года произошло слияние двух крупных игроков российского Интернет-рынка, компаний Port.ru и netBridge под брендом Port.ru. В результате объединения родилась компания, которая сразу заняла лидирующие позиции среди российских Интернет - холдингов по доле рынка и охвату аудитории.

Первоочередная задача любой поисковой системы - доставлять людям именно ту информацию, которую они ищут.

Основные характеристики поисковых систем:

1. Полнота

2. Точность

3. Актуальность

4. Скорость поиска

5. Наглядность

В состав поисковой системы входят компоненты:

1. Модуль индексирования

2. База данных

3. Поисковый сервер

Подводя итог можно сказать что, как правило, несмотря на обилие поисковых систем, пользователь предпочитает обращаться к услугам лишь одной - двух из них (точно также как при обилии газет или новостных сайтов, которые регулярно просматриваются лишь некоторые, привычные и любимые). Самой популярной поисковой системой в мире является Google. Но по оценкам аналитиков, на просторах бывшего СССР чаше используется Яндекс [24].

1.7 Перспективы дальнейшего развития поисковых систем

Новая парадигма поиска состоит не просто в нахождении документов, где можно вычитать интересующую информацию, а в ориентации на конечные факты и новые знания, представляющие определенную ценность. Они могут быть разного рода: первичные сведения, предназначенные для дальнейшего анализа и обработки, какие-то факты (например, данные о возрасте человека или его месте работы, и даже - учитывая технологические возможности интернета - фрагмент его речи или видеоизображение).

Но это ещё не всё. Ценные знания содержатся и в том, что прямо или косвенно относится к искомому объекту. Если говорить о поиске человека, пользователь одновременно может интересоваться его связями, семьей или карьерой. Вместе с тем, необходимо помнить, что не всякая информация общедоступна. При разработке новых моделей поисковых систем требуется внедрение в нее механизма защиты от предоставления сведений, которые могут быть использованы мошенниками в корыстных целях.

Итак, поисковые системы нового поколения должны быстро и четко обрабатывать большой объем данных, отличать факты от данных, обладать механизмами фильтрации информации в зависимости от объектов (понимать разницу между именем Петр и Петровским парком), учитывать историческую хронологию запроса (в запросе о Пугачеве различать знаменитого бунтаря и примадонну), учитывать синонимы и, наконец, обрабатывать полученную информацию с учетом возможностей каналов связи и без предъявления завышенных требований к мощности компьютеров.

То, что интеллектуальный поиск возможен, убеждают успехи в области машинного перевода с одного языка на другой. Любой пользователь интернета знает, что перевод текста с минимальным смысловым анализом гораздо более эффективен, чем просто перевод последовательности иностранных слов. И программы такого уровня, способные осуществлять перевод с сохранением смысла, заложенного в текст, уже есть. А это значит, что схожие по действию механизмы смыслового анализа документов могут применяться в системах поиска информации. Сами же интеллектуальные поисковые системы очень скоро будут доступны любому пользователю Интернета.

Основный и базовый метод поиска сегодня - по образцу, или pattern match. Именно он используется в широкодоступных поисковых системах, таких как Яндекс и Google, и повсеместно распространен. Его главный недостаток для всех очевиден: поисковик выдаёт зашлакованный случайными совпадениями результат, а ссылки на документы не соответствуют контексту запроса.

Использование этого метода превращает поисковую систему в навигационную. Иначе говоря, поисковик не выдает пользователю желаемой информации, он лишь указывает ссылки на сайты, которые содержат ключевые слова. Возможно, пользователь найдет там какие-то нужные данные. Содержимое сайтов индексируется, поиск идет по документам с минимальным учетом комбинаций и, тем более, смысловой нагрузки слов запроса.

Другой популярный метод - поиск по досье. В этой системе возможен ввод запроса в виде фактов или утверждений. Поиск производится по соответствию цели поиска содержанию документа. В результате осуществляется контекстный поиск информации, но с ограниченными возможностями. Дело в том, что базы досье не предназначены для широкого круга пользователей. Сами они имеют ограниченный размер, совокупность внесённых в них данных относительно невелика. Среди доступных ресурсов, использующих такой метод поиска - энциклопедии, справочники по составу сотрудников учреждений, адресные справочники и так далее. Примером использования этого метода может служить система zoominfo.com

Одним из новых веяний в поисковых системах является использование концепции tag cloud.

Следующий аналитический механизм - поиск в информационных массивах группы связанных данных. Пока этот метод должного распространения не получил, хотя является весьма привлекательным и перспективным. Пример использования - LiveJournal MindMap.

Наконец, четвёртый метод - использование фискально-полицейских систем. Поиск производится по специализированным базам адресной, регистрационной и налоговой информации. Этот метод способен обрабатывать огромные массивы данных, но предназначен исключительно для специалистов-аналитиков. Примеры использования - NetMap, Visual Links, программа i2 Analyst's Notebook и другие.

Пока объединение всех четырёх методов в той или иной степени удалось системам, используемым разведкой и полицией. Но именно этот путь - объединения известных методов - и приведет к появлению общедоступных, мощных и более совершенных поисковых инструментов нового поколения.

Методы усовершенствования поиска

Одно из наиболее существенных улучшений поисковых механизмов - обеспечение выдачи релевантных документов. В данном случае под релевантностью понимается соответствие документов смыслу запроса. При этом релевантность может иметь смысл только с точки зрения конкретного пользователя.

Например, если человек хочет снять офис, его интересует непосредственно объявление о сдаче помещения соответствующего формата, а не справка о том, что в Москве их ежегодно арендуется более 5 000 штук. "Идеальным" ответом будет адрес сдаваемого помещения, цена и контакты для связи с арендодателем. Но на данном этапе развития это едва ли возможно.

Чтобы обеспечить соответствие ответов, поисковые машины используют различные пути. Например, Google пытается отслеживать запросы пользователей и запоминать их поведение (то есть учитывать частоту запросов по различным темам). Но в результате выдаются не наиболее релевантные, а модные, популярные или разрекламированные ссылки. Поиск сопутствующей справочной информации в этом случае становится более эффективным, но для нахождения знаний этот метод не годится.

Сейчас уже ведутся опыты по практическому использованию кластерного поиска. Результаты запроса раскладываются по отдельным смысловым группам для того, чтобы понять: что же на самом деле нужно пользователю, какую именно информацию он ищет в интернете.

Еще один подход - поиск с обратной связью. Этот метод напоминает систему мастеров, шаблонов, которые пользователь преодолевает шаг за шагом. Это очень перспективное направление, которое способно обеспечить максимальную релевантность ответа на любой запрос. Но в конце развития этого метода - система жёстко детерминированных меню, не подразумевающая какой-либо гибкости (то есть поиск сводится к вводу простых ответов типа "да / нет", а не менее определённых "и / или").

Наконец, для обеспечения релевантности ответов используется добавление синонимов к самим запросам перед их выполнением. То есть перед поиском к запросу добавляются схожие по смыслу и разные по форме слова, которые облегчают релевантный поиск.

Второе важное улучшение поисковых систем, которое можно заметить уже сегодня - грамматический разбор запроса и текстов, в которых производится поиск.

При грамматическом анализе запроса фраза разделяется на взаимосвязанные объекты, а не просто на отдельные слова. В результате основным объектом поиска становится знание, ответ на вопрос, а не просто нахождение документов как таковых. То есть ответ на конкретный вопрос становится главной задачей, а вывод ссылок выполняет вспомогательную, иллюстративную функцию.

Сложности разработки

Для полного грамматического разбора запроса необходимо произвести лингвистический анализ документов, чтобы получить набор элементарных утверждений (или "фактов") о наличии нужных атрибутов и связей. Это связано с переработкой значительных массивов данных, что и объясняет трудности в реализации этих механизмов.

Ещё одна проблема - формализация запроса. Чтобы точно выполнить запрос, необходимо понять его смысл, цель. В каком виде должны быть представлены знания, чтобы ответы носили универсальный характер. Какого-либо специального языка для представления знаний наука до сих пор не выработала. Поиск в этом направлении ведётся, но перспективы пока остаются туманными.

Пока не решена и проблема визуализации ответов. Интерфейс поисковой системы должен быть максимально простым, но и максимально информативным. Требования предъявляются крайне противоречивые. Это равносильно тому, чтобы попытаться построить мощный персональный компьютер, который бы мог быстро понять и освоить пятилетний ребёнок. Задача трудновыполнимая, но всё же... выполнимая. Ведь когда-то и дистанционный пульт управления телевизором казался невероятно сложным устройством.

Наконец - идентификация объектов. Это самая сложная задача, в решении которой особых успехов пока не достигнуто. Как определить соответствие одного и того же документа (или объекта) к разным группам утверждений. Например, одна и та же веб-страница может содержать информацию о турах, об истории Египта, о гостиницах и так далее. Но при этом поисковые запросы могут касаться только туров, только гостиниц или только информации о стране.

Главное условие, которое отличает существующую систему поиска от поисковой системы нового поколения - это успешное решение именно проблемы идентификации. Его выполнение еще впереди, и не факт, что это произойдет в ближайшем будущем. Но рано или поздно это произойдет [25].

2. Разработка структуры поисковой системы «Бета-поиск»

2.1 Обоснование выбора инструментария реализации информационной системы

Исходя из тематики дипломной работы, создана демонстрационная поисковая машина под названием «Бета-поиск», которая реализует механизм поиска информации во Всемирной Глобальной сети. Структуру данной программы можно условно разделить на 3 части, присущие каждой информационно-поисковой системе в сети Интернет:

- агент, который перемещается по Сети и собирает информацию;

- база данных, которая содержит всю информацию, собираемую агентом;

- поисковый механизм, который используется как интерфейс для взаимодействия пользователя с базой данных (строка поиска и выдача его результатов).

Используемые технические и программные средства

Программа «Бета-поиск» написана с использованием языка программирования Object Pascal в визуальной среде программирования Borland Delphi 7.

Delphi - это комбинация нескольких важнейших технологий:

- Высокопроизводительный компилятор в машинный код;

- Объектно-ориентированная модель компонент;

- Визуальное построение приложений из программных прототипов;

- Масштабируемые средства для построения баз данных.

Компилятор, встроенный в Delphi, обеспечивает высокую производительность, необходимую для построения приложений в архитектуре “клиент-сервер”. Он предлагает легкость разработки и быстрое время проверки готового программного блока, характерного для языков четвертого поколения (4GL) и в то же время обеспечивает качество кода, характерного для компилятора 3GL. Кроме того, Delphi обеспечивает быструю разработку без необходимости писать вставки на Си или ручного написания кода [26].

В процессе построения приложения разработчик выбирает из палитры компонент готовые компоненты. Еще до компиляции он видит результаты своей работы - после подключения к источнику данных их можно видеть отображенными на форме, можно перемещаться по данным, представлять их в том или ином виде. В этом смысле проектирование в Delphi мало чем отличается от проектирования в интерпретирующей среде, однако после выполнения компиляции получаем код, который исполняется в 10-20 раз быстрее, чем то же самое, сделанное при помощи интерпретатора. Кроме того, в Delphi компиляция производится непосредственно в родной машинный код, в то время как существуют компиляторы, превращающие программу в так называемый p-код, который затем интерпретируется виртуальной p-машиной. Это не может не сказаться на фактическом быстродействии готового приложения.

Основной упор объектно-ориентированной модели программных компонентов в Delphi делается на максимальном реиспользовании кода. Это позволяет разработчикам строить приложения весьма быстро из заранее подготовленных объектов, а также дает им возможность создавать свои собственные объекты для среды Delphi. Никаких ограничений по типам объектов, которые могут создавать разработчики, не существует. Действительно, все в Delphi написано на нем же, поэтому разработчики имеют доступ к тем же объектам и инструментам, которые использовались для создания среды разработки. В результате нет никакой разницы между объектами, поставляемыми Borland или третьими фирмами, и объектами, которые можно создать [27].

В стандартную поставку Delphi входят основные объекты, которые образуют удачно подобранную иерархию из 270 базовых классов. Данная программная среда является визуальной, что позволяет наблюдать за происходящими действиями в момент программирования и производить оформление программы в режиме «реального времени». Приложение имеет 32-разрядную архитектуру. Код программы является платформо-зависимым и разработан для операционных систем семейства Windows [28].

В процессе разработки использовались стандартные графические и не визуальные компоненты среды Delphi 7.

Для хранения индексов web-страниц разработана база данных средствами Microsoft Access. СУБД Access предназначена для разработки баз данных реляционного типа для локального их использования на персональных компьютерах и для работы с этими базами. В ней предусмотрены все необходимые средства для определения и обработки данных, а также для управления ими при работе с большими объемами информации.

Для подключения базы данных и использовании ее в Delphi задействованы не визуальные компоненты TADOConnection, TADOQuery и TADOTable, основанные на технологии ADO. Технология ADO обеспечивает универсальный способ доступа к гетерогенным источникам данных. Благодаря тому, что функции ADO реализованы на основе интерфейсов OLE DB и СОМ, приложению для доступа к данным не требуется дополнительных библиотек, кроме инсталлированного ADO [29].

Взаимодействие пользователя с базой данных происходит через интерфейс, работающий на запросах языка SQL. Через данный язык запросов происходит более эффективное взаимодействие с базой данных.

2.2 Проектирование информационно-поисковой системы

Схема работы программы

Работа программы осуществляется на основной форме. Навигация по функциональным элементам осуществляется с помощью вкладок.

Наиболее удобным способом описания иерархической структуры является графическое представление в виде дерева, в котором представлено взаимодействие функциональных элементов, изображенное на рисунке 2.1. Данный вид представления позволяет легко ознакомиться с работой интерфейса программы, ее функциональными возможностями и взаимодействием элементов.

Размещено на http://www.allbest.ru/

Рисунок 2.1 - Структура программы.

Описание базы данных

Приложение «Бета-поиск» имеет в своем составе базу данных, состоящую из таблицы «Index», назначением которой является хранение и редактирование индексов web-страниц (таблица 2.1).

Таблица 2.1

Таблица Index

Поле

Тип

Дополнительно

Описание

site

Текстовый

Ключевое

Наименование web-страницы

keywords

Поле MEMO

Список ключевых слов, имеющихся на соответствующей web-странице

Rating

Числовой

«Рейтинг» web-страницы, т.е. количество ее запросов

Описание алгоритмов и процедур

Программа предоставляет интерфейс к таблице базы данных и стандартные средства для управления данными с помощью компонентов, использующих технологию ADO (Active Data Objects).

Механизм доступа к данным через ADO и многочисленные объекты и интерфейсы реализованы в VCL Delphi в виде набора компонентов, расположенных на странице ADO. Все необходимые интерфейсы, обеспечивающие работу компонентов, объявлены и описаны в файлах OleDB.pas и ADODB.pas в папке \Delphi7\Source\Vcl [30].

Компонент TADOConnection обеспечивает соединение с источниками данных через провайдеры OLE DB. Компоненты TADOTable и TADOQuery обеспечивают использование наборов записей в приложении. Свойства и методы компонентов позволяют создавать полнофункциональные приложения.

Компонент TADOConnection обеспечивает доступ к хранилищу данных компонентам ADO, инкапсулирующим набор данных

Применение этого компонента дает разработчику ряд преимуществ:

- все компоненты доступа к данным ADO обращаются к хранилищу данных через одно соединение;

- возможность напрямую задать объект провайдера соединения;

- доступ к объекту соединения ADO;

- возможность выполнять команды ADO;

- выполнение транзакций;

- расширенное управление соединением при помощи методов-обработчиков событий.

На странице ADO Палитры компонентов Delphi, кроме компонентов соединения есть стандартные компоненты, инкапсулирующие набор данных и адаптированные для работы с хранилищем данных ADO в соответствии с рисунком 2.2. Это компоненты:

TADODataSet-универсальный набор данных;

TАDOtаblе-таблица БД;

TADOQuery-запрос SQL;

TAoostoredProc-хранимая процедура.

Как и положено для компонентов, инкапсулирующих набор данных, их общим предком является класс TDataSet, предоставляющий базовые функции управления набором данных.

Рисунок 2.2 - Иерархия классов наборов данных ADO

Компоненты ADO обладают обычным набором свойств и методов, а необходимый для доступа к данным через ADO механизм наследуют от своего общего предка-класса TCustomADODataSet. Кроме этого, класс TCustomADODataSet содержит ряд общих для всех потомков свойств и методов, рассмотреть которые будет очень полезно. Поэтому сначаларассмотрим класс TCustomADODataSet и только потом перейдем к компонентам ADO [31].

Компонент TADOTable

Компонент ТАDOTаblе обеспечивает использование в приложениях Delphi таблиц БД, подключенных через провайдеры OLE DB. По своим функциональным возможностям и применению он подобен стандартному табличному компоненту.

Имя таблицы БД задается свойством

property TableName: WideString;

Другие свойства и методы компонента обеспечивают применение индексов (этой возможности лишен любой компонент запроса).

Так как не все провайдеры ADO обеспечивают прямое использование таблиц БД, то для доступа к ним может понадобиться запрос SQL. Если свойство

property TableDirect: Boolean;

имеет значение True, осуществляется прямой доступ к таблице. В противном случае компонент генерирует соответствующий запрос.

Свойство

property Readonly: Boolean;

позволяет включить или отключить для таблицы режим "только для чтения" [32].

Компонент TADOQuery

Компонент TADOQuery обеспечивает применение запросов SQL при работе с данными через ADO. По своей функциональности он подобен стандартному компоненту запроса.

Текст запроса задается свойством

property SQL: TStrings;

Параметры запроса определяются свойством

property Parameters: TParameters;

Если запрос должен возвращать набор данных, для его открытия используется свойство

property Active: Boolean;

или метод

procedure Open;

В противном случае достаточно использовать метод

function ExecSQL: Integer; ExecSQL

Число обработанных запросом записей возвращает свойство

property RowsAffected: Intege[33].

В работе с компонентом TADOQuery использован язык запросов SQL.

Язык SQL (Structured Query Language) - язык структурированных запросов, который по своей сути ориентирован на доступ к данным, и его обычно включают в состав различных средств разработки. Среда Kylix не осталась в стороне. Более того, все ее компоненты для работы с базами данных поддерживают язык SQL.

Язык SQL существует в нескольких стандартах. Наиболее поддерживаемыми и распространенными являются стандарты SQL-89 и

SQL-92. Последний стандарт также называют стандартом ANSI. Из-за наличия множества стандртов языка существует множество его диалектов.

В языке SQL нет многих типов команд, которые присущи большинству языков программирования. Так, в нем нет операторов цикла, перехода и т. д.

SQL-запрос - это команда на языке SQL.

Все SQL-запросы можно условно разделить на два вида:

1) статический SQL-запрос - включается в код приложения во время его разработки и не изменяется во время выполнения приложения. Единственным способом изменить что-либо в запросе такого типа является включение в SQL-запрос параметров и их дальнейшее изменение в ходе работы приложения;


Подобные документы

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.