Автоматизация работы турагенства

Обзор поисково-информационных систем турагентств. Этапы автоматизации сервиса турагентства: считывание данных из базы данных и ее заполнение, разработка поискового устройства по выбору туров. Отработка связи турагента с клиентом и администратором.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 06.07.2014
Размер файла 6,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

РЕФЕРАТ

автоматизация турагенство поисковый

Дипломная работа содержит страниц машинописного текста, рисунков, таблиц.

Цель работы - разработать проект программного комплекса для автоматизации поисково-информационного сервиса турагентства.

Объект автоматизации - работа турагенства.

Турагенство предоставляет клиенту информацию об имеющихся турах (в том числе и о горящих турах) и комментарии побывавших в поездке, необходимых документах для выезда по выбранному туру, консультации при заполнении заявки на тур, информацию об агенстве и его сотрудниках.

В ходе работы были проанализированы поисково-информационные системы турагентств, принципы работы турагентств. Осуществлена автоматизация поисково-информационного сервиса турагентства: организовано считывание данных из базы данных и ее заполнение, разработано поисковое устройство по поиску туров. Кроме пользовательской части, создана отдельная административная часть сайта, которая упрощает обработку пользовательских данных. Реализована взаимосвязь турагента с клиентом, турагента с администратором.

Экономический эффект от внедрения проекта ПК составляет 5393,5 грн. в год. Годовая экономия составляет 14644,45 грн. Срок окупаемости капиталовложений равен 1,52 года.

ПОИСКОВО-ИНФОРМАЦИОННЫЙ СЕРВИС, АДМИНИСТРАТОР, ТУРАГЕНТСТВО, ТУРАГЕНТ, ПОИСК ТУРА, КЛИЕНТ, БАЗА ДАННЫХ.

ВВЕДЕНИЕ

Информационные технологии являются фактором, который влияет на деятельность фирмы. Их использование способствует более качественному обслуживанию клиентов, управлению фирмой, снижает стоимость продукции и услуг, повышает эффективность управленческих решений и, таким образом, повышает конкурентоспособность [1]. Кроме того, информационные технологии дают преимущества выхода на новые рынки товаров, услуг, финансов, работы.

Интернет с каждым годом открывает новые возможности, в частности в сфере ведения бизнеса. Поэтому все больше компаний переносят часть делового общения в интернет, используя технологию онлайн-консультации.

Среди особенностей онлайн-консультации можно отметить [2]:

- отсутствие географических, часовых барьеров, что позволяет продвигать услуги на новые уровни;

- более высокий уровень конкуренции с другими фирмами;

- клиент сам выбирает нужную для него информацию и при этом не забирает время у работников фирмы.

В последнее время у граждан Украины появилось больше возможностей путешествовать не только по Украине и за рубежом. Чтобы подобрать страну отдыха нужно выделить время для похода в турагентство, для этого существуют сайты турагентств. На сайтах размещена необходимая информация для клиентов.

Работе туристического агентства включает выполнение ряда операций, которые требуют больших затрат времени, если выполнять их вручную. К таким операциям можно отнести поиск конкретных туров, вычисление стоимости туров, анализ заявок клиентов.

Эту проблему можно решить с помощью разработки программного комплекса для автоматизации поисково-информационного сервиса турагентства. Ценность создаваемой программы в предоставлении клиенту возможности через сайт осуществлять поиск тура, а затем отправлять заявку на понравившийся тур. Программный комплекс обеспечивает анализ данных с выявлением наиболее ценной для пользователя информации, а также предоставляет пользователю данные в наиболее информативном виде.

Таким образом, данная разработка обеспечивает пользователю сокращение времени на поиск данных о туре и его заказ. На основе полученной информации пользователю легче принять соответствующее решение. Кроме того, база данных, созданная в рамках ПК, обеспечивает работникам туристического агентства анализ поданных заявок, комментариев людей, побывавших в туре.

Для достижения поставленной цели необходимо решить следующие задачи:

- провести анализ поисково-информационных сервисов турагентства;

- проанализировать математические модели поиска;

- разработать техническое задание по созданию ПК для автоматизации поисково-информационного сервиса турагентства;

- спроектировать логическую и физическую модели ПК для автоматизации поисково-информационного сервиса турагентства;

- провести анализ и выполнить сравнение фреймворков, выбрать подходящий;

- разработать ПК для автоматизации поисково-информационного сервиса турагентства.

1. ОБЩАЯ ЧАСТЬ

1.1 Анализ состояния вопроса автоматизации поисково-информационных сервисов турагентства

1.1.1 Описание работы турагентства

Цели туристического агентства: качественное обслуживание с целью привлечения клиентов, получение максимальной прибыли. Эти цели обеспечиваются выполнением следующих задач: предоставление информации об агентстве, предоставление данных о сотрудниках, обеспечение просмотра туров, снабжение каждого тура необходимыми документами, установление обратной связи с клиентом, заполнение заявки с оплатой тура, реализация горящих туров сотрудниками агентства [3].

Туристическое агентство - организация, оказывающая услуги по организации туров.

Клиент - это лицо, которое обратилось в туристическое агентство, чтобы воспользоваться его услугами.

Турагент - работник туристического агентства, который обслуживает клиентов.

Администратор - работник туристического агентства, который ведет администрирование базы данных.

Тур - это комплекс различных услуг, предоставляемых туристу. В число которых входят:

- Организация проживания туриста на отдыхе - бронирование отелей, вилл, кемпингов.

- Организация транспортного обслуживания - бронирование и покупка для туриста авиабилетов, железнодорожных билетов и прочих билетов или услуг транспортных компаний, позволяющих добраться до места отдыха или перемещаться по маршруту путешествия.

- Организация экскурсионного обслуживания - оплата услуг собственных или привлеченных гидов и экскурсоводов, а также покупка входных билетов в музеи, театры, парки и прочие места, посещение которых осуществляется на возмездной основе.

Различают туры выходного дня, горящие туры, автобусные, экскурсионные, оздоровительные, горнолыжные, свадебные туры, круизы.

Каждый клиент может подобрать тур под свои требования: страна, отель, количество ночей, количество людей, тип питания, категория отеля (звезда), место вылета или отъезда.

Горящие туры - это туры, по которым отправление назначено на ближайшие 1-4 дня и которые можно приобрести с хорошей скидкой. Сброс цены начинается не раньше, чем за 3-5 дней до вылета и чем ближе вылет, тем ниже цена. Понятие «горящий тур» не значит некачественный тур.

Туристический рынок работает по биржевому принципу - происходит постоянная сверка спроса и наполняемости, а затем коррекция цен. Даже на стандартные туры (не горящие) цены обновляются туроператорами каждый день. А на горящие - несколько раз в день. Сброс цены может быть связан с тем, что туроператоры покупают места в отелях и самолетах блоками, с запасом перед началом сезона, чтобы потом в сезон не переплачивать, если спрос окажется выше.

Горящие туры из Украины - это туры в безвизовые страны и страны с упрощенным визовым режимом (виза покупается в аэропорту либо оформляется консульством за 1-2 дня). "Горят" как правило, Египет, Турция, Доминикана, Куба, Бали, Таиланд. В страны с обычным визовым режимом (Шенген и т.д.) горящих туров не бывает, но бывают скидки 20-30 % от стандартной цены (за 2-3 недели до выезда).

Виза (лат. - разрешение) - специальная разрешительная надпись в заграничном паспорте либо другом дорожном документе, заменяющем паспорт. Свидетельствует о праве обладателя визы на въезд и пребывание в стране. Выдается компетентными государственными органами, как правило, Консульскими учреждениями, а в некоторых случаях иммиграционными службами (либо органами иностранной полиции) непосредственно на границе.

Виза имеет форму вклейки, защищенной от подделки, реже - форму печати. В этикетке визы содержатся следующие пометки: государство или государства, в которых может пребывать обладатель визы в течение периода ее действия, даты первого дня въезда и последнего дня возможного пребывания, место и дата выдачи, вид визы.

Разновидности виз: туристические, служебные, частные, рабочие, студенческие, транзитные, иммиграционные визы.

Для поездки в тур клиенту необходимо собрать требуемые документы. Типы документов определяет страна и турагент. Для каждой страны необходимы свои документы.

Заработок агентства составляет от 10 % до 12 %, реже -- от 8 % до 15 % от общей стоимости тура. Обычная практика -- это когда турагентство переводит туроператору сумму уже за вычетом своей комиссии. Но по некоторым формам договора туроператор оплачивает (возвращает) агентству его комиссию периодически [4].

1.1.2 Анализ основных компонентов информационно - поисковой системы и ее функционирования

1.1.2.1 Структура ПИС для интернет

В связи с бурным ростом различных источников информации все большее значение приобретает проблема выделения нужных данных из огромного числа документов. Часто вопрос стоит уже не в том, чтобы найти книгу или статью, где упоминается интересующая человека информация, а в выборе из сотен и тысяч подобных источников наиболее подходящий и наиболее полно освящающих нужный вопрос документов [2]. Решить эту проблему позволяют информационно-поисковые системы (ПИС).

Система выполнена в виде веб-сайта, на котором размещен интерфейс (фронт-энд). Основные причины существования ПИС:

- большой объем информации;

- ее недостаточная или чересчур подробная структуризация;

- широкий тематический профиль информационных массивов.

Информационно - поисковая система состоит из следующих основных компонентов [5]:

1 Spider (паук) - браузероподобная программа, которая скачивает веб-страницы так же как и браузер пользователя. Отличие заключается в том, что браузер отображает информацию, которая содержится на странице (текстовую, графическую и так далее), паук же не имеет никаких визуальных компонент и работает непосредственно с html-текстом страницы.

2 Crawler (краулер) - программа, которая автоматически переходит по всем ссылкам, найденным на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

3 Indexer (индексатор) - программа, которая анализирует веб-страницы, которые скачали пауки. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются разные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и так далее.

4 Database (база данных) - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

5 Search engine results engine (система выдачи результатов) - занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Именно с этим компонентом поисковой системы взаимодействует оптимизатор, стараясь улучшить позиции сайта в выдаче.

6 Web server (веб-сервер), который осуществляет взаимодействие между пользователем и сдачей компонентов поисковой системы. На рисунке 1 приведена схема передачи и запросов в ПИС для Internet.

Детальная реализация поисковых механизмов может отличаться один от другого (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы).

1.1.2.2 Этапы поисковой процедуры

Поисковый процесс представлен четырьмя стадиями: формулирование (происходит в начале поиска); действие (поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к новому поиску).

Рисунок 1 - Структура ПИС для Internet

На первом этапе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги).

Информационные потребности пользователя могут относится к разным областям, которые могут быть узкоспециализированными, так и достаточно типовыми [2]. На практике основная часть информационных потребностей приходится именно на типовые области применения:

- поиск отдельных web-страниц;

- поиск новостей;

- поиск людей и организаций;

- поиск литературных произведений;

- поиск программного обеспечения;

- поиск музыкальных произведений;

- поиск графических изображений;

- поиск видеоинформации;

- поиск коммерческой информации.

На втором этапе оперативная часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их обработки. В этом случае аналитик - профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи.

Основной задачей второго этапа является формирование эффективных запросов к ПИС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык, несмотря на то что у различных языков этого типа много общего, - например, схожий набор булевых операций.

Третий этап поиска в сети интернет является определяющим, - от его реализации зависит, будет ли найденное решение пертинентно (характеристика степени соответствия содержания документа задаче использования). На этом этапе пользователь работает с конечными документами, полученными в виде отклика ПИС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

Полученные в результате обработки запросов отклики ПИС требуют, с одной стороны, скрупулезной работы пользователей-аналитиков, с другой стороны, развитых средств автоматизации аналитической работы, обеспечивающих:

- итеративное уточнение запросов;

- поиск по подобию;

- ранжирование выдаваемых документов;

- построение графических отчетов, визуализацию.

Рассмотрим принцип действия поисковых машин. Создав и разместив в сети Интернет какой-либо веб-сайт, разработчик регистрирует его адрес в поисковой системе, иными словами -- вносит URL стартовой странички этого сайта в поле на поисковом сервере, предназначенное для регистрации новых «поступлений». Вслед за этим спайдер просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс называется индексацией веб-страниц. Как правило, индекс поискового сервера содержит только адреса веб-страниц и краткую «аннотацию», поясняющую их содержимое, почерпнутую из текста индексируемых документов. Спустя определенное время робот автоматически проводит переиндексацию, чтобы удалить из базы данных устаревшие и недействительные ссылки.

Пользователь, обращаясь к услугам поисковой машины, просто вводит в поле текстового запроса ключевые слова или некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку «искать». По данной команде поисковый сервер передает управление другой программе, которая называется поисковым механизмом. Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия.

Для увеличения вероятности обнаружения интересующих пользователя данных наиболее «продвинутые» версии подобных программ могут самостоятельно просклонять и проспрягать ключевые слова, увеличив тем самым количество искомых словоформ.

Например, получив запрос со словом «идти», поисковый механизм может расширить диапазон поиска, включив в список ключевых слов производные от исходного глаголы: «пойти», «шел», «шла», «пойдет» и т. д. Ссылки на веб-страницы, в описании которых поисковый механизм обнаруживает подобные слова, автоматически включаются им в файл отчета. Этот файл предоставляется пользователю в виде перечня, содержащего гиперссылки на найденные ресурсы с краткими текстовыми аннотациями для каждой из них.

Основополагающими характеристиками функционирования информаци-онно-поисковых систем являются полнота и релевантность - степень соот-ветствия обнаруженных ссылок исходному запросу.

Сегодня информации в сети больше, чем ее успевают проиндексировать поисковые системы. Это означает, что информационный хаос увеличивается, и существующие подходы не соответствуют требованиям растущего информационного пространства. Вместе с тем, чем больше ресурсов соответствующего профиля включает база данных системы, тем выше должна быть ее полнота. Существует два аспекта полноты. Понятие полноты динамической базы данных из интернета, тесно связано с оперативностью обновлений информации. Сеть интернет представляет собой своеобразный “живой организм”. Если база данных ПИС не будет обновляться постоянно и оперативно, то имеющиеся в ней ссылки на документы станут мертвыми, т.е. по адресам, представленным в этих ссылках, документы могут либо не существовать, либо будут размещены с соответственно другим содержанием. Полнота охвата ресурсов сети - это первый аспект характеристики качества сетевой ПИС. Второй аспект связан с полнотой информации, предъявляемой пользователю по его запросу к ПИС (рисунок 2). Если предположить, что по запросу пользователя Q в базе данных находится Р документов, соответствующих этому запросу, а предъявлено для просмотра всего N документов, то полнота ПИС определяется по формуле П=(N/P)*100%. Если П выходит больше 100%, пользователю выдано минимум N-P документов, не соответствующих его запросу, т.е. нерелевантных [2].

Рисунок 2 - Два аспекта полноты охвата ПИС ресурсов Internet

1.1.2.3 Лингвистическое обеспечение поисково-информационных систем

На всех этапах развития полнотекстовых ПИС лингвистическое обеспечение играло важную роль. Именно средства лингвистики выступают интерфейсами между естественным языком и формальными поисковыми механизмами ПИС. Лингвистическое обеспечение включает такие основные элементы:

- языки представления данных в ПИС, которые определяют архитектуру, синтаксис и семантику представления информации в базах данных ПИС;

- информационно-поисковый язык, т.е. язык, на котором обращается пользователь к системе, чтобы получить интересующий его отклик.

Язык запросов - это специальный набор служебных команд, позволяющих максимально конкретизировать передаваемый поисковой системе запрос с использованием простейших логических функций объединения или исключения слов. Наиболее распространенными для большинства поисковых запросов являются команды так называемого логического объединения и исключения. Команды «+» и «-» позволяют принудительно добавлять или исключать какие-либо слова из текста запроса. Слово, помеченное знаком «+», должно обязательно присутствовать в искомом документе, а помеченное символом «-» -- обязательно отсутствовать. Например, если вы хотите найти объявления о продаже недорогих автомобилей марки «Жигули», запрос можно сформулировать так: продам Жигули +недорого. Поисковая система будет искать все сообщения о продаже автомобилей этой марки, в тексте которых встречается слово «недорого».

Оператор «логическое И», обозначающийся знаком амперсанд (&), позволяет перечислять слова, которые должны встречаться в пределах одного предложения искомого документа. Например, запрос коммерческое & предложение заставит поисковую систему искать документы, включающие предложения, содержащие оба этих слова. Следует отметить, что в файл отчета могут попасть данные с различной степенью релевантности, то есть в результирующем списке вы сможете найти как документы, в тексте которых присутствует фраза «наше коммерческое предложение действительно до 31 декабря», так и фраза «Оценив коммерческое положение своей семьи и размер предлагаемого приданого, он сделал ей предложение». Учтите, что степень релевантности с точки зрения поискового механизма тем выше, чем ближе стоят искомые слова друг к другу в обнаруженной фразе и чем меньше между ними встречается других слов [2]. Поэтому ссылки на документы, содержащие выражения, подобные первому, будут размещены в начале файла отчета, а подобные второму -- в его конце.

1.1.2.4 Структура сайта

Навигационное меню. Как правило, любой сайт имеет навигационное меню. Использование ключевых слов в ссылках меню позволит предоставить дополнительные веса тем страницам, на которые ведет ссылка [6].

Главная страница сайта. Оптимизация главной страницы сайта (имя домена, index.html) осуществляется под наиболее важные для вас словосочетания. Эта страница имеет наибольшие шансы попасть в топ поисковых систем. На главную страницу сайта может приходиться к 30-40% общего поискового трафика.

Ключевое слово в названии страницы. Существует мысль, что использование ключевых слов в названии html-файла страницы может положительно обозначиться на ее месте в результатах поиска. Естественно, это касается только англоязычных запросов.

Подкаталоги. Если сайт имеет воздержанное число страниц (несколько десятков), то лучше, чтобы они находились в корневой директории сайта. Поисковые системы считают такие страницы важнейшими.

Число страниц сайта. Общее правило - чем больше, тем лучше. Увеличение числа страниц сайта улучшает его видимость в поисковых системах. Кроме того, постепенное добавление новых информационных материалов на сайт воспринимается поисковыми системами как развитие сайта, который может дать дополнительные преимущества при ранжировании. В таблице 1 приведен глоссарий предметной области «Туристическое агентство».

Таблица 1 - Глоссарий предметной области «Туристическое агентство»

Термин

Описание

Информационный поиск

Направление исследований, изучающее вопросы поиска документов, обработки результатов поиска, а также целый ряд смежных вопросов: моделирования, классификации, кластеризации документов [2]

Документ

Порция информации, которой оперируют информационно- поисковые системы [2]

Поисково-информационная система

Комплекс программных средств, обеспечивающих избирательный отбор по заданным признакам документов, хранимых в электронном (оцифрованном) представлении [2]

Поисковое устройство

Информационно - поисковая система, поставляемая заказчику в виде автономного автоматно - программного комплекса [2]

Поисковый механизм

Основной компонент любой информационно-поисковой системы. Программный модуль, осуществляющий поиск в базе данных по запросу пользователя [2]

Туристическое агентство

Организация, оказывающая услуги по проведению туров

Турагент

Работник туристического агентства, который обслуживает клиентов

Клиент

это лицо, которое обратилось в туристическое агентство или на его сайт, чтобы воспользоваться туристическими услугами

Термин

Описание

Тур

Комплекс различных услуг, предоставляемых туристу (организация проживания туриста на отдыхе - бронирование отелей, вилл, кемпингов, организация транспортного обслуживания - бронирование и покупка для туриста авиабилетов, организация экскурсионного обслуживания)

Пакет документов

Все поданные документы клиента, необходимые для тура

Заключение договора и

Между турагентством и клиентом заключается договор,

1.1.2.5 Анализ существующих поисково-информационных сервисов турагентств

Работа туристического агентства связана с поиском и бронированием туров для своих клиентов. Искать туры приходится сотни, а то и тысячи раз в день, а бронировать считанные разы. Причем запросы клиентов настолько разнообразны, что менеджеру, для того чтобы найти ответ, нужно очень уверенно ориентироваться на туристическом рынке [7].

Было время, когда туроператоры просто выпускали свои предложения и рассылали их по факсу. Эти времена ушли в далекое прошлое, и теперь каждый уважающий себя туроператор имеет свой сайт по продвижению в сети Интернет, где и публикует информацию о своих предложениях. Каждый сайт устроен по-своему, имеет свою структуру и свой характер.

Условно сайты туроператоров можно разделить на два типа:

1-й тип - сайты туроператоров, на которых выложен список прайс-листов в формате Word или Excel где, в лучшем случае, есть навигатор по предложениям и можно послать заявку на запрос тура.

2-й тип - сайты туроператоров, на которых не только есть список прайс-листов, также реализована возможность подбирать туры с помощью поисковика и бронировать их в режиме online.

В таблице 2 представлена сравнительная характеристика работы сайтов туроператоров.

Таблица 2 - Сравнительная характеристика работы сайтов туроператоров

№ типа

Плюсы

Минусы

1

Наглядность при небольших объемах информации.

Затруднен поиск туров.

На поиск тура уходит много времени.

Демонстрация отеля оторвана от цены.

Наличие тура в продаже нужно уточнять дополнительно.

2

Информация от первоисточника - туроператора (ТО).

Возможность online-бронирования.

Нужно изучать характер работы поисковика у каждого ТО. Нужно знать, как работать с результатами поиска каждого ТО. При бронировании у всех туроператоров разные пароли. Выбор ограничен: у каждого ТО свои страны, свои курорты, свои отели, свои даты вылета. Нет возможности сравнивать предложения разных ТО между собой и невозможно предлагать клиентам самую выгодную цену на рынке.

Учитывая все плюсы и минусы поиска туров на сайтах туроператоров, агентства используют в своей работе поисковые системы по турам или комбинированный способ - поиск тура в поисковых системах, а бронирование на сайтах туроператоров.

Поисковые системы по турам консолидируют в своих базах данных информацию от множества туроператоров, давая агентству возможность видеть полную картину рынка. На сегодняшний день на туристическом рынке активно работают четыре поисковые системы: Tourindex (www.tourindex.ru), «Ехать» (www.exat.ru), «ТУРЫ.ру» (www.tury.ru).

Поисковые системы соединяют все составляющие тура - цену, программу тура, информацию по рейсам и отелям. Это дает возможность менеджеру, не обращаясь к дополнительным источникам, тут же продемонстрировать клиенту отель, дать полную информацию по рейсу и огласить программу тура - быстро и удобно. Поисковые системы реализовали возможность отмечать прямо в турах остановки продаж, что позволяет закрывать продажи туров, на которые невозможен вылет или размещение в отеле.

Минусы:

- не всегда верна актуальность и достоверность информации.

Плюсы:

- концентрация информации в одном месте;

- широта выбора и объемный охват рынка;

- возможность сравнивать предложения различных ТО между собой;

- возможность сразу выбирать лучшие цены;

- возможность «держать руку на пульсе рынка».

В плане поиска туров все вышеперечисленные поисковые системы предлагают рынку практически одинаковые возможности, отличаясь друг от друга лишь деталями. На сегодняшний день главная задача всех поисковых систем - добиться полного соответствия своей информации и информации туроператоров.

«TourIndex» - cистема по поиску и бронированию туров. Параметры поиска: город вылета, страна прибытия, тип тура. Большинство пользователей не устроит такой тип поиска [8]. Офис «TourIndex» находится в Москве, что не удобно для украинских турфирм. Эта система предлагает установить свой модуль для заказа туров (TourClient). На рисунке 3 представлена система «TourIndex».

Рисунок 3 - Система поиска туров «TourIndex»

«Ехать» - поисковая система по турам. Параметры поиска: город вылета, страна прибытия, тип тура, курорт, количество ночей, питание, тип отеля, отель, дата заезда, цена, размещение [9]. Параметры поиска устроят любого клиента, но нет модуля связи турагента и туроператора, поэтому бронирование тура будет осуществляется через почту, что не удобно. На рисунке 4 представлена система «Ехать».

Рисунок 4 - Поисковая система «Ехать»

«ТУРЫ.ру» - cистема по поиску и бронированию туров, разработала программное обеспечение, позволяющее осуществлять поиск и бронирование туров в едином информационном пространстве в режиме реального времени (рисунок 5).

Турагент, подобрав тур в системе, может его тут же забронировать. Эта бронь попадает в «Офис Online» туроператора, который ему предоставляется для работы в системе «ТУРЫ.ру» при заключении контракта. В своем «Офисе Online» туроператор обрабатывает заявки, делает подтверждения и общается с агентствами в режиме прямого эфира. Кроме того, туроператор имеет доступ к своей БД в системе, где может оперативно управлять своими турами, отслеживать их состояние, редактировать их, следить за своим расписанием, выставлять квоты мест на рейсах, отражать остановки продаж по рейсам и отелям, а также проводить маркетинговые исследования и оперативно реагировать на изменения на рынке.

БД туроператора из системы «ТУРЫ.ру» может также транслироваться прямо на его сайт, а выбор туров осуществляться с помощью поисковика, привычного для пользователей системы «ТУРЫ.ру» и сопряженного с единой системой бронирования. Такой подход позволяет совместить поиск и бронирование туров различных туроператоров в едином информационном пространстве [10].

Наиболее популярные модули поиска туров для турагентства: «TourClient», «IT-tour».

«TourClient» - автоматически обновляемые модули предоставляемые через систему «TourIndex». Модули «TourClient» - это программы, которые устанавливаются на сайт заказчика. Берут информацию из базы поисковой системы «TourIndex» (получить тестовый доступ) и каталога отелей TopHotels.

Рисунок 5 - Поисковая система «ТУРЫ.ру»

Система очень удобна и проста в использование, но является платной и не удобной к применению, так как страна поставщика Россия [8]. На рисунке 6 представлен модуль «TourClient».

Рисунок 6 - Модуль «TourClient»

«IT-tour» - бесплатный украинский модуль поиска туров, который предоставляет витрину горящих туров на сайт турагентства. Возможности этого модуля широки, к примеру:

- малая возможность для туриста оплаты этой заявки своей кредитной картой;

- возможность настройки списка стран и операторов, которые будут показываться в выносном поисковом модуле на сайте турагентства;

- возможность настройки шрифтов/цветовой схемы поискового модуля;

- возможность установки 2-х модулей поиска туров: быстрый поиск (на главную страницу сайта) и расширенный поиск;

- возможность установки модуля поиска горящих туров (на главную страницу сайта).

Бесплатный модуль имеет ряд ограничений на применение, такие как: баннер модуля будет отображен на вашем сайте, модуль должен быть встроен только на отдельную вкладку. Клиент может запутаться в выборе с модулем «IT-tour», поскольку сильно много параметров выбора и места выставления галочек не всегда заметны [11]. На рисунке 7 представлен модуль «IT-tour».

Рисунок 7 - Модуль «IT-tour»

1.2 Математические модели поиска в поисково-информационных системах

1.2.1 Виды моделей поиска

Модель поиска - это сочетание следующих составляющих [12]:

- способ представления документов;

- способ представления поисковых запросов;

- вид критерия релевантности документов.

Вариации этих составляющих определяют большое число всевозможных реализаций систем текстового поиска [13]. На данный период наиболее часто используются такие модели поиска как булева, векторная, вероятностная, гибридная (рисунок 8).

Рассмотрим два наиболее популярных подхода, один из которых базируется на теории множеств - булева модель, другой на векторной алгебре - векторная модель [14].

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 8 - Модели поиска в интернет

Достоинства булевой модели:

- простота реализации, позволяющая индексировать и выполнять поиск в массивах документов большого объема.

Недостатки булевой модели:

- крайняя жесткость и непригодность для ранжирования.

Достоинства векторной модели:

- учет весов повышает эффективность поиска;

- позволяет оценить степень соответствия документа запросу;

- косинусная метрика удобна при ранжировании.

Недостатки векторной модели:

- нет достаточного теоретического обоснования для построения про-странства термов;

- термины не могут быть полностью ортогональными так как не явля-ются независимыми друг от друга.

Оба подхода достаточно эффективны, но имеют общий недостаток, следующий из упрощения - смысл документа определяется множеством ключевых слов (терминов, понятий), входящих в него. Этот подход ведет к потере содержательных оттенков текстов, хотя и позволяют выполнить быстрый поиск и группировку документов по формальным признакам.

Достоинства вероятностной модели:

- хорошее теоретическое обоснование;

- при имеющейся информации дают наилучшие предсказания релевантности;

- могут быть реализованы аналогично векторным моделям.

Недостатки вероятностной модели:

- требуется информация о релевантности или ее приближенные оценки;

- структура документа описывается только термами;

- оптимальные результаты получаются только в процессе обучения на основе информации о релевантности.

На практике в поисково-информационных системах используются гибридные подходы. В них объединены возможности булевой и векторной моделей, а также добавлены методы семантической обработки информации (рисунок 9). Чаще всего процедура поиска выполняется в соответствии с булевой моделью, а результаты ранжируются по весам в соответствии с моделью векторного пространства [15].

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рисунок 9 - Гибридные подходы поиска

1.2.2 Количественная оценка релевантности

Количественные показатели релевантности - процент соответствия содержимого документа запросу, ранжирование (самый релевантный документ, менее релевантный, еще менее релевантный), позволяют существенно увеличить конечную эффективность использования документальной системы, предоставляя пользователю возможность после отбора документов сосредотачиваться на наиболее важных из них [15].

Для обеспечения релевантности необходимо провести фильтрацию результатов поиска. Однако в связи с этой задачей возникает ряд проблем:

- отсечение результатов, не соответствующих набору понятий;

- использование выделенных пользователем аспектов;

- использование расширенного синтаксиса поисковых систем;

- соответствие результатов конструкции аспект-сущность-атрибут;

- использование формул вычисления релевантности;

- использование персональных настроек пользователя;

- контроль соответствия персональным настройкам пользователя.

Остановимся на использовании формул вычисления релевантности. Определение количественных показателей релевантности документов в полнотекстовых ПИС основывается на тех или иных подходах по вычислению мер близости двоичных векторов документов и запросов.

Поисковый образ документа (ПОД) Dk представляется в системе двоичным вектором (формула 1):

(1)

где dk,i =1, если словоформа под номером i присутствует в k-м документе, и 0, если отсутствует.

Аналогичным образом представляются поисковые образы запроса (ПОЗ) Z пользователя (формула 2):

(2)

где zk = 1, если словоформа под номером k присутствует в запросе, zk=0, если отсутствует.

Критерии релевантности подразделяются по моделям представления и сопоставления документов и запросов, к которым относятся: булева модель, модель нечетких множеств, пространственно-векторная модель, вероятностно-статистическая модель [15]. В качестве показателя (меры) релевантности документов используется значение статуса выборки retrieval status value - RSV.

1.2.2.1 Булева модель поиска

В булевой модели критерием релевантности является полное совпадение векторов ПОД и ПОЗ [16]. RSV в булевой модели определяется как логическая сумма операций попарного логического произведения соответствующих элементов векторов ПОД и ПОЗ (формула 3):

(3)

где k = 1,..., N, N - количество документов в базе, L - количество словоформ в словаре, & - логическая операция «И».

Значением RSV в булевой модели может быть единица (релевантный документ) или ноль (нерелевантный документ).

Булева модель поиска - это модель информационного поиска, в ходе которого можно обрабатывать любой запрос, имеющий вид булева выражения, т.е. выражения, в котором термины (ключевые запросы) используются в сочетании с операциями: AND (логическое «и»), OR (логическое «или»), NOT (логическое отрицание).

В рамках данной модели документ представляется просто как множество слов. Иными словами, документ это объект, на основе которого строиться система информационного поиска. Группу документов называют коллекцией. Рассмотрим пример [17].

Пусть имеется коллекция, необходимо в ней найти документы, в которых встречается термин 1 (term1) и термин 2 (term2), но не содержится термин 3 (term3). Тогда самый простой способ реализации данной задачи - это последовательный пересмотр коллекции. В результате мы можем получить бинарную матрицу инцидентности (рисунок 10) «термин -- документ», где элемент матрицы равен единице, если термин имеется в документе, и 0, если термина в документе нет.

Рисунок 10 - Бинарная матрица инцидентности

На основании данной матрицы мы можем найти нужный документ. В рассматриваемом примере это Doc1. Если же коллекция очень большая, к примеру, состоит из миллиарда документов, то чтобы поместить в память компьютера бинарную матрицу инцидентности требуется много места. С другой стороны следует отметить, что данная матрица является разряженной, то есть имеет большое количество нулей. Поэтому целесообразно в памяти компьютера хранить только единицы. Именно так возникла концепция инвертированного индекса. Суть ее в следующем, нет необходимости хранить в памяти компьютера всю матрицу инцидентности, а требуется реализовать лишь следующую последовательность действий: сначала необходимо записать словарь терминов, лексиконов, затем для каждого термина перечислить его словопозиции. Для рассматриваемого нами примера мы получим следующее (рисунок 11):

Рисунок 11 - Инвертированный индекс

Чтобы ускорить поиск, используя булеву модель, следует заранее строить инвертированный индекс, осуществляя последовательно следующие шаги:

- собрать документы, которые следует индексировать

- разметить текст, превращая каждый документ в список лексем

- преобразовать полученные лексемы в нормальный вид

- проиндексировать документы, в которых имеются термины, и создать инвертируемый индекс.

Обработка запроса по инвертируемому индексу и базовой моделью булевого поиска происходит следующим образом. Предположим нам нужно обработать запрос term1 AND term2, тогда необходимо осуществить следующие этапы обработки поиска:

- обнаружить в словаре term1

- найти список словопозиций tern1

- обнаружить в словаре термин term2

- найти список словопозиций term2

- найти пересечение списков.

Запросы мы можем задавать самыми различными способами, используя конъюнкцию и дизъюнкцию, однако для оптимизации поиска следует вводимые запросы обработать и представить системе в оптимизированном виде, это существенно сократит время поиска.

В результате реализации модели булевого поиска мы получаем список документов, соответствующих заданному запросу, однако эти документы не отранжированы в соответствии с их релевантностью. То есть модель булева поиска позволяет лишь определить наличие или отсутствие термина в документе [18]. Также следует отметить, что данная модель не предусматривает различные опечатки со стороны пользователя.

1.2.2.2 Пространственно-векторная модель поиска

В пространственно-векторной модели определяемый показатель релевантности RSV может изменяться в диапазоне от 0 до N (N - число словоформ или терминов в словаре системы) и действительно количественно отражает степень релевантности документов. Так, в приведенном на рисунке 12 примере значение RSV1 = 2, а значение RSV2 = 1. Для выдачи пользователю конкретного набора релевантных документов информационно-поисковые системы ограничиваются выдачей документов, показатель релевантности которых запросу RSV превышает некоторый заранее установленный порог [19].

При таком подходе абсолютные значения показателя релевантности зависят не только собственно от самой степени релевантности, но и от количества N словоформ в словаре системы (рисунок 12).

На практике применяют нормализованный вариант RSV, определяя его с учетом ортогональности и ортонормированности поискового пространства как косинус угла между вектором ПОД и вектором ПОЗ (формула 4):

(4)

В этом случае RSV принимает значения от 0 до 1 и не зависит от объема словаря системы [20].

Глобальный словарь системы Поисковое многомерное пространство

Слово

1

Автомобиль

2

Государство

3

Отель

4

Столица

5

Цена

Рисунок 12 - Иллюстрация пространственно-векторной модели представления и сопоставления документов и запросов

Определенным недостатком такого подхода к расчету количественной меры релевантности является нечувствительность к степени соответствия отсутствующих словоформ (терминов) в ПОД и ПОЗ. Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе должно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа Д1(1,1,0,1,0,0) и Д2(1,1,1,1,1,1), то для запроса З(1,1,0,0,0,0) значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию является первый документ, а второй документ, скорее всего, затрагивает более широкую тематику, не обязательно интересующую пользователя [21].

Такой чувствительностью обладает показатель релевантности, определяемый следующим образом (формула 5):

(5)

где - дополнение к элементам .

Если вернуться к предыдущему примеру с документами Д1(1,1,0,1,0,0) и Д2(1,1,1,1,1,1), и запроса З(1,1,0,0,0,0) , то RSV для первого документа будет равным 5 (83%), а для второго документа 2 (33%), что выглядит убедительнее.

Более развитым, но и более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости словоформ (терминов) и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов.

В простейшем варианте подобного расширения пространственно-векторной модели различные словоформы в глобальном словаре системы дополняются специальными весовыми коэффициентами, отражающими важность соответствующей словоформы (термина) для конкретной предметной обласmu. Соответственно поисковые векторы документов и запросов в этом случае превращаются из двоичных векторов в обычные, т. е. с любыми значениями (а не только 0 или 1) своих компонент. Иногда такой подход называют «окрашиванием»* глобального словаря системы. Следует также заметить, что в случае перехода от глобального словаря (отражающего все слова и словоформы) к словарю терминов происходит вырождение полнотекстового характера ПИС и она переходит в категорию систем на основе тезаурусов.

На практике применяются также и другие подходы, расширяющие возможности двоичной (ортогональной и ортонормированной) пространственно-векторной модели. Такие подходы базируются на вероятностно-статистической модели.

1.2.2.3 Вероятностно-статистического модель поиска

Можно выделить две разновидности вероятностно-статистического подхода:

- придание весовых коэффициентов словоформам (терминам)

глобального словаря вне контекста конкретного документа;

- придание весовых коэффициентов компонентам векторов ПОД

по итогам индексирования конкретного документа (с учетом контекста конкретного документа).

Первый подход основан на анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ПИС [21]. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ПИС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры, такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в совокупность документов базы тех или иных словоформ или терминов.

Более сложные варианты развития первого подхода основываются на технологиях «обучения» и настраивания ПИС на конкретные предметные области. Традиционный способ обучения основывается на использовании обучающей выборки документов. Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубрикам каталогов библиотек и т. п. Далее осуществляется исследование обучающей выборки на предмет статистических показателей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является «окрашенность» (различные весовые коэффициенты словоформ) словаря системы.

Другой подход основывается на апостериорном выделении в поисковом пространстве «сгущений» векторов ПОД и последующем анализе совокупности и количественных данных вхождения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют особенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров - azgovorodele.ru. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.

При втором подходе к реализации вероятностно-статистической модели различия в весах значимости словоформ или терминов проявляются по результатам индексирования конкретного документа. В простейшем варианте анализируется, сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины считаются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где соответствующие словоформы или термины встречаются наиболее часто. Отдельной ветвью развития второго подхода является использование обратной, интерактивной связи с пользователем [22].

Рассмотрим пример реализации поиска на основе булевой модели в проектируемом ПК.

Предположим нам нужно обработать запрос по выбору тура по значению страны, города, отеля, соединенных логическим «И»: Страна И Город И Отель. В разработанном ПК реализованы следующие этапы обработки поиска:

- обнаружить в таблице БД «Страна» выбранную клиентом страну;

- обнаружить в таблице БД «Город» выбранный клиентом город;

- обнаружить в таблице БД «Отель» выбранный клиентом отель;

- по этим данным найти наименование тура (наличие межтабличных связей в БД обеспечит поиск);

- из таблицы «Тур» по найденному наименованию тура найти другие его параметры и в табличном виде вывести на сайте: Наименование тура, Отель, Дата выезда, Дата отъезда, Город выезда, Цена, Разряд отеля, Количество ночей в отеле.

1.3 Разработка структурно-функциональной модели для автоматизации поисково-информационного сервиса турагентства

Для представления бизнес-процесса используем контекстную SADT диаграмму. SADT (от англ. Structured Analysis and Design Technique) - это методология структурного анализа и проектирования, которая интегрирует процесс моделирования, управления конфигурацией проекта, использование дополнительных языковых средств и управление проектом со своим графическим языком [23, 24].

Процесс просмотра и поиска тура с помощью специального сайта выполняется несколькими исполнителями. Пользователь или он же потенциальный клиент имеет возможность просмотреть список всех туров, а также всю информацию и отзывы по ним. Клиент может подобрать тур по критериям которые он сам выбирает: страна, курорт, отель, категория отеля, тип питания, цена, количество людей, даты проведения отдыха. На сайте есть комментарии, которые клиент может прочитать и сделать выводы о отеле, а также может при желании оставить свой комментарий. Управление сайтом ведет администратор, он выполняет все функции связанные с заменой информации или обработки новой информации. Турагент работает только с клиентом, он не меняет содержание сайта и ничем не управляет, кроме заявок, которые оставили клиенты. Все пользователи сайта выполняют одно общее действие - поиск тура.

Контекстная структурно-функциональная диаграмма нулевого уровня для бизнес-процесса «Работа туристического агентства» представлена на рисунке 13. Описание диаграммы представлено в таблице 3.

На рисунке 14 изображена детализирующая SADT-диаграмма первого уровня бизнес-процесса «Работа туристического агентства».

Детализирующая структурная диаграмма расписывает основных пользователей бизнес-процесса, раскрывает нормативную базу для каждого пользователя, входы и выходы для каждого участника бизнес-процесса. Реализация активностей выполняется турагентом, клиентом, администратором. Главную активность бизнес-процесса можно разделить на 7 этапов:

- «Администрирование базы данных» - на входе есть информация о странах, отелях, турах. По окончание этапа выдаются данные по турам, странам, отелям. Исполнитель является администратор. Этап ограничивается форматом БД;

- «Поиск тура» - на этом этапе клиент выбирает под свои запросы тур, а по окончании этого этапа клиент уже с выбранным туром. На вход подаются требования клиента и данные по турам, странам, отелям. Главным исполнителем является клиент, который осуществляет поиск с ограничениями на возможности поиска. Этап завершается выбранным туром;

- «Составления списка документов» - турагент, руководясь тем, что клиент уже выбрал тур и турагент знает страну, он составляет список необходимых документов для клиента на эту страну и отдает клиенту. На вход подается выбранный клиентом тур и сведения о клиенте, исполнитель турагент, который руководствуется ограничениями законодательства Украины и законодательства выбранной страны. По окончание этого этапа определяется список документов клиента;


Подобные документы

  • Разработка базы данных для автоматизации работы с данными с применением СУБД Access 2010. Доступ к информации о турах (название, продолжительность, стоимость, наличие питания и экскурсий). Автоматизация управления работы фирмы по формированию туров.

    курсовая работа [914,5 K], добавлен 03.06.2019

  • Проблемы внедрения информационных технологий. Автоматизация работы пользователя. Основные этапы проектирования базы данных. Функционирование предметной области. Специализированные языки обработки данных. Обоснование выбора основных технических средств.

    курсовая работа [61,9 K], добавлен 08.02.2012

  • Создание базы данных с помощью ACCESS для автоматизации работы базы отдыха. Оценка возможностей пользователей при работе с данной базой. Построение информационно-логической модели базы данных. Разработка запросов для корректировки и выборки данных.

    курсовая работа [1,1 M], добавлен 19.10.2010

  • Общие требования и этапы разработки автоматизированных информационных систем. Особенности работы, технологии доступа и проектирование структуры базы данных. Разработка клиентского программного обеспечения для магазина, защита и сохранность данных.

    курсовая работа [650,9 K], добавлен 27.02.2013

  • Инструментальные средства для разработки структуры информационной базы данных "Программа автоматизации учета расчетов с поставщиками", пользовательский интерфейс СУБД Access. Разработка запросов отбора данных и вычислений, экранных форм коррекции данных.

    лабораторная работа [2,4 M], добавлен 15.11.2010

  • Рассмотрение вопроса автоматизации работы служб гостиницы. Разработка базы данных для работы с клиентами. Характеристика языка структурированных запросов SQL и его разновидности. Описание таблицы программы, ключей и диаграммы составленной базы данных.

    курсовая работа [1,6 M], добавлен 27.05.2014

  • Тенденция развития информационных систем и информационных технологий. Автоматизация работы менеджера по туризму в туристическом агентстве как основная цель разработки базы данных "Туризм и отдых". Основы проектирования структуры информационной системы.

    курсовая работа [5,4 M], добавлен 17.01.2013

  • Разработка концептуальной модели данных. Диаграмма потоков данных. Моделирование правил и поведения системы. Разработка структуры базы данных для автоматизации некоторых рутинных процессов налоговой инспекции, в частности заполнение налоговых деклараций.

    контрольная работа [453,2 K], добавлен 24.04.2014

  • Разработка базы данных и клиента для управления базой данных с целью автоматизации рабочего места менеджера по клининговым услугам для ООО "Мастер блеск". Обоснование выбора программного обеспечения для создания базы данных. Заполнение данных в таблицы.

    дипломная работа [1,8 M], добавлен 13.04.2014

  • Проектирование логической структуры базы данных методом нормальных форм, сущность связь. Сравнительный анализ спроектированной базы данных и базы данных существующих информационных систем. Выбор и обоснование состава технических и программных средств.

    курсовая работа [3,0 M], добавлен 22.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.