Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных

Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 19.05.2011
Размер файла 942,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Рисунок 6.1 - Рабочее место оператора (вид сбоку)

Рисунок 6.2 - Рабочее место оператора (вид сверху)

Заключение

поисковая система информационная база

В результате выполнения дипломной работы разработана информационно-поисковая система словарного типа, способная осуществлять релевантный поиск документов.

В дипломной работе произведен анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. На основе произведенных исследований разработана структура новой поисковой системы и информационно-поисковой базы для нее.

Разработаны алгоритмы поиска информации и оценки релевантности найденных документов. Действие алгоритмов основана на учете различных конструктивных особенностей документов - в первую очередь тэгов. Каждому виду тэгов был поставлен в соответствие некий вес, который используется в дальнейшем для определения релевантности документов. Были проведены исследования по определению этих весовых коэффициентов, в ходе которых был определен набор, дающий наилучшее качество поиска для большинства запросов. Каждый алгоритм был исследован на показатели точности и полноты. “Частичный” алгоритм имеет самые высокие показатели по этим критериям - в подавляющем числе случаев оба показателя составляют 100%. Алгоритм “подобие” позволяет находить документы с высоким уровнем релевантности.

В рамках поисковой системы реализован индексатор документов и два поисковых агента - приложение Windows и клиент для Интернет-браузера. Поисковая система функционирует на основе СУБД MySQL 4. Поисковые агенты реализованы на Borland Delphi 7 и PHP 4.

Рабочий вариант системы расположен на Интернет-сервере http://www.vanta.ru/rubikon/. Поисковая система (программная часть) зарегистрирована в областном фонде алгоритмов и программ.

Разработанная система может быть полезна как для исследований в области поиска документов и оценки релевантности, так и для промышленного использования. Оценка экономической эффективности дала срок окупаемости менее 1 года.

Список использованных источников

1. Энциклопедия поисковых систем. http://www.searchengines.ru

2. http://www.kokoc.com/

3. Поисковая система Aport. http://www.aport.ru/info/

4. Поисковая система Yandex. http://www.yandex.ru

5. Поисковая система Rambler. http://www.rambler.ru

6. Сидоренко Е.В., Шарапов Р.В. Модель индексирования и поиска документов Солтона // Проблемы передачи и обработки информации в сетях и системах телекоммуникации. Материалы 11 Международной науч-техн. конф. -Рязань: РГРТА, 2002. С. 176-178

7. Сидоренко Е.В., Шарапов Р.В. Организация словарных информационно-поисковых систем // Проблемы передачи и обработки информации в сетях и системах телекоммуникации. Материалы 11 Международной науч-техн. конф. -Рязань: РГРТА, 2002. С. 180-182

8. Сидоренко Е.В., Шарапов Р.В. Мета-поиск в сети Интернет - взаимодействие с поисковыми системами // Данные, информация и их обработка: Сборник научных статей / Под ред. С.С.Садыкова, Д.Е.Андрианова - М.: Горячая линия - Телеком, 2002. С. 102-106

9. Сидоренко Е.В., Шарапов Р.В. Особенности построения поисковых систем по изображениям // Данные, информация и их обработка: Сборник научных статей / Под ред. С.С.Садыкова, Д.Е.Андрианова - М.: Горячая линия - Телеком, 2002. С. 107-111

10. В.Ю.Добрынин. Методические указания к курсу Теория информационно-логических систем. Информационный поиск. http://ir.apmath.spbu.ru

11. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска. http://ir.apmath.spbu.ru, http://meta.math.spbu.ru

12. Kожичкин Евгений Сергеевич. Поисковая система, основанная на нейронной сети. http://miem.edu.ru/

13. Капустин В.А. Основы поиска информации в Интернете / Методическое пособие. http://www.edc.samara.ru/gr/basics.htm

14. Талантов Михаил Профессиональный поиск в Интернете: полнота, достоверность, скорость. http://nur.yamal.ru/internet/search/prof_search01.shtml

Размещено на Allbest


Подобные документы

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Проектирование алгоритмов и программных кодов для различных элементов пользовательских форм информационно-аналитической системы. Исследование структуры базы данных. Связь между таблицами. Разработка графического интерфейса программы и справочной системы.

    курсовая работа [2,4 M], добавлен 10.01.2015

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Анализ информационно-поисковых систем автоматизации производства. Построение инфологической и логической модели базы данных технологического оборудования для сборочно-монтажных работ. Выбор языка программирования приложения БД. Алгоритм работы программы.

    дипломная работа [2,5 M], добавлен 18.12.2013

  • Анализ современных информационно-поисковых систем автоматизации производства. Основные виды, требования и параметры технологического оборудования для сборочно-монтажных работ. Разработка физической модели базы данных технологического оборудования.

    дипломная работа [1,5 M], добавлен 02.09.2014

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.