Оценка и анализ эффективности работы информационно-поисковых систем

Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 06.02.2014
Размер файла 77,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Если в системе имеются различные типы документов, заиндексированные с различной степенью полноты, необходимо протабулировать результаты поиска для каждого типа, чтобы точно выяснить влияние степени полноты, индексирования на коэффициенты полноты и точности поиска. Такое табулирование может оказать помощь в установлении «оптимального» уровня полноты индексирования. С другой стороны, оно, возможно, выявит неадекватность индексирования ряда документов.

Из этих данных отчетливо видна неадекватность индексирования (по отношению к сформулированным запросам) введенных в систему журнальных статей. Как и ожидалось, они заиндексированы с меньшей полнотой по сравнению с научно-техническими отчетами, в поисковых образах которых присутствует значительно большее число терминов. В подобной ситуации, вероятно, должна наблюдаться своего рода компенсация в виде большей точности поиска журнальных статей, однако это не так. В действительности, и полнота, и точность их поиска ниже соответствующих показателей для научно-технических отчетов. Чтобы выяснить причины такой аномалии, очевидно, необходимо провести определенный анализ. Вероятно, мы при этом обнаружим, что журнальные статьи (поскольку они в результате принятой методики описаны меньшим числом терминов) заиндексированы и менее полно, и менее специфично. Рассмотрим, например, статью по производству сосудов высокого давления. В ней описывается производство методом дуговой сварки в защитной среде и обсуждается использование различных защитных газов. Ввиду ограничения среднего числа приписываемых терминов мы индексируем статью термином «Дуговая сварка в среде защитных газов», но не отмечаем особыми терминами конкретные упоминаемые газы. Следовательно, при поиске по теме «Аргонная дуговая сварка сосудов высокого давления» статья не будет выдана, хотя она и релевантна данному запросу. Отсутствие гибкости при установлении среднего числа приписываемых в процессе индексирования терминов весьма опасно, особенно когда это приводит к слишком общему отражению содержания некоторых типов документов, как в приведенном примере.

Полнота индексирования является, конечно, относительным понятием. Представим себе поиск по предмету «Хрусталик глаза позвоночных», проводимый по термину «Хрусталик глаза» и терминам, относящимся к позвоночным. Один из найденных документов, признанный нерелевантным, касается тучных клеток и содержания гистамина в глазу крупного рогатого скота. При изучении документа обнаружено, что упоминание о хрусталике имеется в нем лишь в одном месте. В этом случае мы должны сказать, что данная неудача при поиске во многом обусловлена исчерпывающей полнотой поиска; поэтому по отношению к приведенному запросу приписывание документу термина «Хрусталик глаза» следует признать неоправданным. С другой стороны, возьмем гораздо более специфический запрос на документы, касающиеся содержания гистамина в хрусталике глаза. По отношению к этому запросу упомянутый выше документ является более релевантным и может действительно оказаться одним из немногих, содержащих сведения о численных значениях соответствующих величин. В этом случае присутствие в документе термина «Хрусталик глаза» полностью· оправданно. В целом можно сказать, что лучше ошибаться при индексировании в сторону большей полноты. Трудно найти документ по предмету Х, если термин Х не отражен при индексировании документа. Вместе с тем имеются, однако, и различные способы уменьшения полноты индексирования (и соответствующего повышения точности) при поиске. Наиболее очевидным из них является использование весовых коэффициентов.

2.3 Неудачи, обусловленные несовершенством процесса поиска

Существуют три основных типа неудач, относимых к самому процессу поиска:

1. явные ошибки включающие использование неподходящих терминов или неправильной стратегии поиска;

2. неудачи, обусловленные принятыми в поисковой стратегии уровнями специфичности и / или полноты;

3. потери, обусловленные тем фактом, что лицо, осуществляющее поиск, не использовало всех «разумных» способов для отыскания релевантных документов.

Неудача, связанная с не использованием всех разумных способов для отыскания релевантных документов, часто является основной причиной потерь. К этой причине следует отнести любой пропущенный релевантный документ, который мог бы быть найден по терминам или комбинациям терминов, если производящий поиск учел бы «разумные» возможности выбора терминов при составлении поискового предписания. На практике встречаются два вида неудач этого типа:

1. пропуск одного релевантного термина или комбинации терминов в формулировке запроса, которая во всех других отношениях хорошо отражает интересы потребителя;

2. пропуск целого аспекта запроса в том виде, как он сформулирован потребителем.

Первый тип менее опасен по своим последствиям, чем второй, но и он может существенно уменьшить коэффициент полноты поиска. Пусть, например, ищется материал по лечению (т.е. восстановлению) ампутированных кончиков пальцев. Лицо, осуществляющее поиск, не использовало ни одного термина, относящегося к понятию «Лечение», целиком полагаясь лишь на термины, относящиеся к понятиям «Пальцы» и «Ампутация». Однако не все документы по поврежденным кончикам пальцев заиндексированы термином «Ампутация» (который используется скорее в смысле терапевтической, чем травматической ампутации), и полнота поиска будет поэтому очень низкой. Или рассмотрим поиск материалов по эмбриологии хрусталика глаза. Лицо, осуществляющее поиск, координирует термин «Хрусталик глаза» с терминами, относящимися к эмбриологии, но не полностью отражает последнюю группу терминов (например, термины «Эмбрион» и «Куриный эмбрион» пропущены). В этом случае полнота поиска также снижается.

Более пагубные последствия возможны в случае пропуска лицом, осуществляющим поиск, целых аспектов темы, эксплицитно выраженных в запросе. Этот тип неудач особенно часто встречается в довольно длинных многоаспектных формулировках запросов. Основной причиной его, по-видимому, является небрежное чтение запроса.

В то время как пропуски нужных терминов в поисковом предписании приводят к потерям, использование неподходящих терминов будет вызывать шумы. Рассмотрим, например, поиск материалов по машинному распознаванию клеток. Лицо, осуществляющее поиск, координирует термины, относящиеся к «Обработке данных», с терминами, отражающими понятие «Клетка», но ошибочно включает в первую группу термин «Кибернетика». Этот термин не имеет отношения к поиску по теме «Распознавание клеток», которое по существу является частным случаем проблемы распознавания образов, поэтому такая ошибочная координация приведет к выдаче многих нерелевантных документов, в которых клетки трактуются как кибернетические системы.

Неподходящие комбинации терминов будут чаще всего появляться в относительно сложных поисковых предписаниях, в которых множество терминов одной логической суммы «пересекается» с множеством терминов второй суммы. В то время как общая стратегия поиска может быть вполне разумной, некоторые из комбинаций, являющиеся продуктом пересечения, могут оказаться неподходящими для данного поиска. Например, на запрос о литературе, касающейся деятельности медицинских школ, врачебных пунктов и органов здравоохранения в области планирования деторождения, поиск проводится по следующей комбинации:

[Термины, указывающие на область медицины] и

[Термины, отражающие планирование семьи]

К сожалению, в первую группу входят также термины, обозначающие медицинские специальности, среди которых имеется термин «Акушерство», в то время как термин «Беременность» включен во вторую группу. Не удивительно, что комбинация «Акушерство» u «Беременность» приводит к выдаче большого числа документов по охране материнства, и доля шумов при поиске составляет 90%.

Неправильная логика поиска может вызвать ряд неудач, хотя она и не должна быть их основной причиной. В довольно сложном булевом выражении, включающем суммы, произведения и отрицания, легко ошибиться и поставить и там, где подразумевается или (или наоборот), или же неумышленно связать при помощи символа и термин с самим собой.

Многие потери и шумы связаны с вариациями полноты и / или специфичности поискового предписания. Несомненно, что изменение полноты и специфичности является существенным элементом поисковой стратегии. Действительно, центральной проблемой поиска является принятие решения относительно оптимального уровня полноты и специфичности для каждого конкретного запроса. Чем менее специфична и полна формулировка, тем больше документов будет найдено; при этом полнота поиска будет иметь тенденцию повышаться, а точность - понипонижаться. Чем более специфична и полна формулировка, тем меньше документов будет найдено, полнота будет стремиться к понижению, а точность - к повышению. Для каждого конкретного запроса следует решить, в каком направлении лучше двигаться, другими словами, насколько потребитель на деле хочет приблизиться к полноте поиска, равной 100%, учитывая, что чем ближе мы подходим к этой цифре, тем большее число документов, вероятно, будет выдано и тем ниже будет вероятная точность поиска.

Полным, или исчерпывающим (exhaustive), поисковым предписанием является то, которое требует совместного появления всех запрашиваемых потребителем понятий в каком-то отношении (хотя и не обязательно на том же уровне специфичности, на котором сформулирован запрос). Рассмотрим поиск по различным специфическим кишечным микроорганизмам, вызывающим понос или дизентерию при белковой недостаточности или квашиоркоре. Данный запрос включает отношения между тремя отдельными понятиями: 1) определенные специфические кишечные микроорганизмы, 2) расстройство деятельности кишечника в форме поноса или дизентерии и 3) нарушения функций организма в форме белковой недостаточности или квашиоркора. Стратегия поиска для этого запроса была бы полной (исчерпывающей), если бы выдача документа осуществлялась только в тех случаях, когда он 1) заиндексирован термином «Белковая недостаточность» или «Квашиоркор»; 2) заиндексирован термином, отражающим наличие некоторого микроорганизма; 3) заиндексирован термином, отражающим понос или дизентерию. При такой полной формулировке запроса мы можем ожидать высокой точности поиска (т.е. большая часть найденных документов будет, вероятно, релевантной). С другой стороны, стратегия может быть слишком полной: она может требовать слишком многого, чтобы можно было ожидать, что какой-то релевантный документ действительно был заиндексирован с помощью всех понятий, на которые указывает потребитель. Ожидаемая полнота поиска будет более высокой для менее полной формулировки, скажем:

Белковая недостаточность и Термины, относящиеся к поносу

или

Квашиоркор

Полнота поискового предписания, очевидно, связана с уровнем координации (т.е. с числом совместно встречающихся терминов индексирования, требуемых для выдачи документа), но строго однозначного соответствия между полнотой и уровнем координации не может быть. Например, «Белковая недостаточность» и «Дизентерия» и «Кишечные микроорганизмы» является координацией трех терминов, исчерпывающей, или полной, в том смысле, что она охватывает все запрашиваемые потребителем соотносимые понятия. Однако эти понятия совершенно так же отражены в комбинации «Белковая недостаточность» и «Дизентерия, бактериальная», которая является координацией двух терминов. Более того, изменяя уровень координации, мы регулируем скорее специфичность, чем полноту поиска. Пусть запрашиваются материалы по «Метастатическому жировому некрозу как осложнению панкреатита». Формулировка «Панкреатит» и «Некроз» полная в том смысле, что она требует совместного появления двух специфицируемых понятий. Координация трех терминов - «Панкреатит» и «Некроз» и «Жировая ткань» является более специфичной по отношению к этому запросу. Очевидно, полные (исчерпывающие) формулировки приведут к потерям, в. то время как неполные формулировки будут вызывать шумы.

Аналогично специфичные формулировки будут вызывать потери, а недостаточно специфичные приведут к шумам. Неспецифичный поиск не означает, что для специфичного термина А1 мы используем непосредственно следующий за ним более общий термин А на иерархическом дереве. Многие поиски могут быть неспецифичными в том смысле, что в них требуемый специфичный термин А1 заменяется термином В1, принадлежащим к совершенно другой иерархии. Другими словами, вместо поиска только по термину А1 лицо, осуществляющее его, производит обобщение в виде А1 или В1.

Ясно, что при выборе поисковой стратегии опасен всякий догматизм. Не существует общезначимого «правильного» уровня общности. Однако всегда можно найти оптимальный уровень по отношению к поисковому требованию конкретного потребителя. С помощью детального анализа поисков, включающего исследование а) потерь, обусловленных специфичностью и / или полнотой стратегий, и б) шумов за счет недостаточной специфичности и / или полноты стратегий, мы можем помочь лицу, производящему поиск, решить, когда ему следует расширить поиск, каким способом лучше всего осуществить такое расширение и какие типы обобщения поиска не гарантируют получения ожидаемых результатов.

2.4 Неудачи при поиске, Обусловленные несовершенством

Взаимодействия потребителя с системой

Неправильно организованная взаимосвязь потребителя с системой может явиться серьезным источником потерь и шумов при поиске, особенно в очень больших системах. При оценке системы MEDLARS 25% всех потерь и 11% шумов были отнесены к этой причине. Потери, обусловленные неправильным взаимодействием, означают, что сформулированный запрос является более специфичным, чем действительная область информационных нужд потребителя. Документы, ценные для потребителя с точки зрения его нужд, не отыскиваются по той причине, что лицо, осуществляющее поиск, строго придерживается сформулированного запроса.

Шумы, являющиеся следствием несовершенного взаимодействия, означают, что сформулированный запрос имеет большую степень общности, чем действительные информационные потребности. В результате выдаются документы, не имеющие ценности для потребителя. Эти документы соответствуют сформулированному запросу, но бесполезны в силу какого-то дополнительного ограничения или условия, которое не было указано в формулировке запроса. В некоторых поисках возможно частичное пересечение между реальными и сформулированными в запросе информационными потребностями. В этих случаях также вероятно, что и потери, и шумы будут результатом несовершенного взаимодействия.

В ходе выполнения программы оценки несоответствие между сформулированным запросом и информационной потребностью определяется на основании следующих факторов:

1. оценок релевантности, выполненных потребителями, особенно причин отнесения одних документов к разряду имеющих ценность, а других - к разряду бесполезных;

2. представленных потребителем исправленных формулировок запросов после его ознакомления с результатами поиска;

3. любых документов, считавшихся потребителем релевантными до того, как производился поиск;

4. контактов с потребителем, когда они были необходимы, для выяснения отдельных моментов в процессе анализа результатов поиска.

Если в оцениваемой системе действительно существуют различные формы взаимодействия, полезно протабулировать поисковые результаты в соответствии с этими формами, как это сделано в табл. 7.

Гипотетические данные, приведенные в таблице, показывают, что «наилучшими» являются запросы, присылаемые по почте непосредственно потребителем. Запросы, сформулированные при личном посещении им центра или присылаемые через филиалы библиотеки, менее точно отражают реальные нужды потребителей. Это может быть подтверждено определением для каждого способа взаимодействия с потребителем доли всех обработанных поисков, в которых имеют место неудачи.

Вопрос об областях соприкосновения системы с ее потребителями является весьма важным.

2.5 Неудачи при поиске, обусловленные другими причинами

Основные причины неудач при поиске были рассмотрены в предыдущих разделах. Другие возможные причины, доля которых обычно гораздо меньше, включают следующие:

1. Неудачи, обусловленные процессами машинной обработки (1% от всех неудач при исследовании системы MEDLARS). К ним относятся: а) ненахождение релевантного документа, несмотря на то что его поисковый образ точно соответствует требованиям поискового предписания, и б) выдача нерелевантного документа, поисковый образ которого не соответствует требованиям поискового предписания. Такие неудачи могут быть результатом ошибок программирования, проблем, связанных с магнитными лентами, при поиске или процессов эксплуатации поискового массива.

2. Неудачи, обусловленные техническими аспектами работы персонала системы. Характер и точный тип неудач этой категории изменяются в широких пределах от системы к системе. Они, например, могут явиться следствием ошибок в различного рода процессах, связанных с работой на клавиатурах (печатание и перфорация индексных терминов или стратегии поиска) и в других ручных процессах преобразования информации (например, записи буквенно-цифровых кодов для индексных терминов).

3. Шумы, связанные с «определением ценности» документа. Некоторая часть шумов должна быть отнесена к тому факту, что потребитель, несмотря на то, что он считает конкретный документ до некоторой степени релевантным запросу; отказывается от него ввиду его бессодержательности, тривиальности или плохого качества.

4. «Неизбежные» неудачи. Некоторая часть шумов, возможно, должна быть определена как «неизбежная». Сюда относятся случаи, когда выданный документ правильно заиндексирован, точно соответствует поисковому предписанию и в то же время нерелевантен запросу, причем нельзя указать разумных мер, которые позволили бы избежать подобной ситуации.

Резюмируем еще раз основные причины неудач при поиске в информационно-поисковой системе, сведя их в таблицу. Некоторые из этих неудач имеют место не в каждой конкретной системе (очевидно, потери не могут вызываться использованием указателей роли, если последние отсутствуют в системе). Большинство этих причин, однако, характерно для любой системы. Отметим особо, что характер влияния некоторых аспектов индексирования и поиска на полноту и точность противоположен: то, что мы делаем для улучшения полноты, снижает точность, и наоборот.

Заключение

Проект выполнен в соответствий с проектом в масштабном объеме, целью которого явилось исследование вопросов эффективности ИПС.

Теоретические исследования и вопросы оценки анализа эффективности ИПС в качестве основных критериев исследований эффективности ИПС. Рассмотрены полнота поиска, затраты труда, время ответа, форма выдачи, результат поиска, составления фонда и организация требования.

Рассмотрены факторы вычисления на характеристики ИПС, в их числе исследовались полнота исследований, специфичность языка.

Стратегия поиска, коэффициенты полноты и точности. Указанные выше вопросы исследуемые как теоретически и практически.

Дан анализ неудач и ошибок при поиске информации.

В дипломном проекте нашли отражение экономика и раздел безопасности жизнедеятельности.

Список рекомендуемой литературы.

Работа носит практичную направленность т.к. будет использоваться при разработке ИПС.

Внедрение ИПС позволит в значительной мере ускорить поиск информации во всех архивах, снизить затраты рабочего времени на действия, просмотреть статистические данные по поиску.

Список рекомендуемой литературы

1. Ч. Мидоу Анализ ИПС. Изд-во. Мир. М. 1970.

2. Белоногов Г.Г., Котов Р.Г., Автоматизированные ИПС. Изд-во. Советское радио. 1988.

3. Ф.У. Ланкастер ИПС. 1986.

4. Методические указания к выполнению контрольных работ по курсу: «Охрана труда и окружающей среды». КПИ, 1990 г.

5. В.Г. Олифер, Компьютерные сети

Размещено на Allbest.ru


Подобные документы

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.

    курсовая работа [983,7 K], добавлен 01.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.