Оценка и анализ эффективности работы информационно-поисковых систем

Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 06.02.2014
Размер файла 77,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Как было сказано ранее, для любого фонда документов и определенной группы запросов и суждений о релевантности имеется кривая характеристик системы с максимально возможными значениями. Однако точно не известно, как расположена эта кривая. Реально действующая поисковая система не функционирует при максимально возможном уровне характеристик для любой группы запросов. Этот уровень, может быть достигнут только при индексировании пост фактум имеющегося массива документов с учетом набора поисковых предписаний и суждений о степени релевантности. В повседневной работе поисковой системы, когда поиски проводятся по реально существующим запросам, кривая зависимости характеристик системы лежит где-то левее и ниже кривой максимально возможных значений. По существу, мы при оценке характеристик поисковой системы как раз и определяем положение фактической кривой характеристик поиска, а также меры, которые должны быть приняты для сближения реальной кривой с кривой максимальных значений характеристик.

Положение кривой максимальных значений, а следовательно, и реальной кривой характеристик системы определяется в первую очередь двумя факторами: а) характеристиками языка. той тематической области, с которой мы имеем дело, и б) степенью общности запросов.

В случае фактографической поисковой системы, в которой мы имеем дело с однозначными данными (например, выраженными в виде чисел), можно работать в верхнем правом углу графика полнота / точность, т. - е. при 100% - ной полноте и 100% - ной точности. Система, которая выдает документы на основе их библиографических описаний (например, авторский каталог), будет работать с кривыми, расположенными немного левее ввиду неточностей, вызываемых такими факторами, как наличие авторов с одинаковыми фамилиями, авторов, которые изменили свою фамилию или печатаются под псевдонимами, разных публикаций с одинаковыми названиями и т.д.

Если речь идет об информационно-поисковой системе, отвечающей на тематические запросы, семантические неоднозначности и неточности сдвигают кривую характеристик системы значительно дальше от идеальных (т.е. еще далее влево). Насколько далеко влево расположена эта кривая, частично зависит от языка данной предметной области. Чем более точен и однозначен язык данной области, тем лучше будут характеристики работы системы. Например, поисковая система в области химии, имеющая дело с большим количеством собственных имен (названий соответствующих соединений), которые относительно однозначны, вероятно, будет при прочих равных условиях работать с значениями характеристик, расположенными дальше вправо, чем система, скажем, по общественным нау-

Другой фактор, определяющий положение кривой, связан со степенью специфичности запросов и с «критерием релевантности» потребителей системы. В системе дифференцированного распространения информации (ДРИ) критерий релевантности будет, вероятно, значительно менее жестким, чем в системе ретроспективного поиска. Абонент службы ДРИ не обращается к системе по одному определенному информационному запросу. Он получает сообщение о документах по широкому кругу интересующих его тем, и каждый документ, относящийся к этому кругу, для него приемлем. При таком слабом критерии релевантности появляется возможность получения характеристик, значения которых расположены в правой части схемы полнота / точность.

В противоположность этому потребитель службы ретроспективного поиска обращается к системе с каким-то конкретным запросом, имея в виду потребность в определенного рода информации, и документ, чтобы быть релевантным, должен представлять для него определенную ценность с точки зрения его информационных нужд. Поэтому критерии релевантности потребителя данной системы являются более строгими, чем критерии, предъявляемые потребителем службы ДРИ. Чем более строгие критерии релевантности используются, тем дальше влево будет находиться кривая характеристик поиска.

Критерии релевантности потребителя ретроспективного поиска, очевидно, тесно связаны со степенью общности запросов. Представьте себе потребителя, обращающегося в информационно-поисковую систему в области военно-морской техники. Предположим, что его запрос относится к документам по подводным лодкам. Это очень общий запрос для данной системы. При поиске по данному запросу можно, поэтому достичь высоких значений полноты и точности, поскольку для потребителя будет полезен любой документ, в котором речь идет вообще о подводных лодках (т.е. критерий релевантности у него достаточно «мягкий»). Однако пусть тот же самый потребитель обратится в ту же поисковую систему через несколько дней, с запросом о документах, в которых идет речь о вибрационных характеристиках выступающих частей корпусов надводных кораблей. Вероятно, для этого запроса можно будет получить то же самое значение коэффициента полноты, что и для значительно более общего запроса по подводным лодкам. Однако это значение полноты будет, вероятно, достигнуто при очень низком значении коэффициента точности поиска, так как значительно большая часть документов данного массива не будет релевантна данному специфическому запросу.

1.3 Оценка эффективности работы ИПС. Проектирование программы испытаний.

Правильно составленная программа испытаний для оценки эффективности действующей поисковой системы может привести к улучшению обслуживания потребителей, уменьшению его стоимости или к тому и другому. Такая оценка является аналитической процедурой: анализ производится с целью определения степени удовлетворения системой требований потребителей, определения причин неудач в системе и наилучших путей их устранения. Полная программа оценки информационно-поисковой системы включает пять существенных этапов:

1. решение вопроса о том, что именно подлежит оценке (т.е. разработка руководством системы вопросов, на которые должна ответить программа оценки);

2. разработка теста для ответа на конкретные поставленные вопросы;

3. выполнение программы испытаний;

4. анализ результатов испытаний;

5. интерпретация результатов испытаний и определение целесообразных и экономичных путей улучшения системы на основе этих результатов.

Перед началом разработки программы испытаний важно точно сформулировать цели испытаний. В этом документе следует перечислить все вопросы, на которые должна ответить программа оценки.

При полной оценке действующей поисковой системы может возникнуть много специфических вопросов, требующих внимания

уже на стадии подготовки программы оценочных испытаний. Ниже приводится примерный список вопросов, которые могут быть поставлены руководством большой поисковой системы, реализованной на ЭВМ.

Общее качество функционирования

Каков уровень общего качества работы системы по отношению к требованиям потребителей? Имеются ли существенные различия в ее функционировании для разных типов запросов и разных предметных областей?

Широта охвата и обработка

1. Насколько обоснована существующая политика, касающаяся широты охвата источников при индексировании?

2. Существенно ли влияет на качество функционирования системы задержка между поступлением журналов и их обработкой в отделе индексирования?

Индексирование

1. Имеются ли существенные различия в качестве работы различных индексаторов?

2. В какой степени это связано с опытом по индексированию и уровнем «контроля» за ним?

3. Распознают ли индексаторы специфические понятия, интересующие различные группы потребителей?

4. Какое влияние на качество функционирования системы оказывает принятая политика относительно полноты индексирования?

Язык индексирования

1. Являются ли термины достаточно специфичными (конкретными)?

2. Существенно ли влияют на функционирование системы различия в специфичности терминов в различных областях?

3. Требуются ли дополнительные средства для повышения точности, такие, как введение весовых коэффициентов, указателей роли или какой-то формы взаимного связывания терминов?

4. Удовлетворяет ли качество связей терминов в тезаурусе?

5. Достаточен ли существующий словарь входов?

Поиск

1. Каковы требования потребителей в отношении полноты и точности?

2. Может ли быть разработана стратегия поиска, отвечающая требованиям высокой полноты или высокой точности?

3. Насколько эффективно могут лица, производящие поиск, просматривать выдачу? Какое влияние оказывает просмотр на показатели полноты и точности?

4. Каковы наиболее перспективные методы взаимодействия между потребителем и системой:

· а) усиление связи на стадии предъявления запроса?

· б) усиление связи на стадии формулирования поискового предписания?

· в) итеративная процедура поиска, дающая потребителю выборку ссылок,

· найденных при поиске «первого приближения», и позволяющая ему переформулировать свой запрос с учетом этих найденных источников?

5. Каково влияние каждого из этих методов взаимодействия на время получения ответа?

Ввод данных и машинная обработка

1. Связано ли с процедурой ввода, включая различные аспекты технической обработки данных, большое количество ошибок?

2. Являются ли машинные программы достаточно гибкими для получении желаемого уровня характеристик? Успешно ли они контролируют технические ошибки?

3. Какая часть общего, времени запаздывания ответа может быть отнесена на счет подсистемы обработки данных? Каковы причины задержки в этой подсистеме?

Очевидно, что все перечисленные вопросы относятся к требованиям потребителей или к факторам, влияющим на эти требования. Из этих требований (широта охвата, полнота, точность, время обращения, затраты труда потребителем и форма представления результатов) наиболее важными являются требования по полноте и точности; их и труднее всего измерить. Чрезвычайно важным аспектом при проектировании любых испытаний является разработка подходящих методов для получения коэффициентов полноты и точности.

Пример программы

НАЦИОНАЛЬНАЯ МЕДИЦИНСКАЯ БИБЛИОТЕКА

Бетисда, шт. Мериленд

Запрос 68-R-938

Документ 12/31/67

ПРОГРАММА ОЦЕНКИ

Форма для оценки документа

1. Знали ли Вы ранее о существовании этой статьи?

Да [] Как Вы узнали о ее существовании?

Нет []

2. Оцените, пожалуйста, эту статью с точки зрения той потребности в информации, которая побудила Вас обратиться в MEDLARS, проставив в соответствующем месте крестик:

а) Большая ценность []

Объясните, пожалуйста, почему:

б) Небольшая ценность []

Объясните, пожалуйста, почему:

в) Не представляет ценности []

Объясните, пожалуйста, почему:

Довольны ли Вы тем, что узнали о ее существовании, в связи с какими-нибудь другими потребностями или планами?

Да [] Объясните, пожалуйста, почему:

Нет []

г) Не могу оценить из-за незнания языка документа [].

Решили ли Вы предпринять какие-нибудь шаги для определения содержания этого документа?

Да [] Пожалуйста, укажите, какие шаги.

Нет [] Пожалуйста, объясните, почему:

Определение коэффициента полноты

Получение правильных оценок полноты является значительно более трудным, чем получение коэффициентов точности. Однако знание полноты нар яду со значением точности чрезвычайно важно; в то же время данные о точности и полноте, взятые в отдельности, имеют небольшую ценность. Необходимо знать, при каком значении точности работает система, когда достигнуто определенное значение полноты. Единственный «безупречный» коэффициент полноты - это коэффициент, полученный на основе изучения и оценки потребителем полного массива документов. Это иногда осуществимо в определенных экспериментальных ситуациях, в которых размер фонда не очень велик. Клевердону фактически удалось это сделать на массиве в 1400 документов при 200 запросах в последнем Крэнфилдском исследовании, давшем в результате матрицу релевантности запрос/ документ размером 1400 * 200 [2]. Однако изучение всего массива в большинстве реальных ситуаций, очевидно, неосуществимо. Поэтому необходимо найти способы получения приемлемых оценок полноты.

Метод, который был использован для определения полноты при оценке Системы дифференцированного распространения информации (ДРИ), основан на обычной случайной выборке. Он включает получение случайной выборки из остаточного массива (residual file, т.е. массива не найденных документов). Участник эксперимента, послав сообщение о полученных документах, которые отвечают его информационным потребностям, посылает также несколько дополнительных сообщений о документах, не отвечающих его интересам, выбранных случайно из остаточного массива. Утверждается, что таким образом можно оценить количество нужных источников, не выявленных в результате несовершенства критерия смыслового соответствия документов и запросов, и определить коэффициент полноты для системы ДРИ. К сожалению, этот метод не может быть использован для сколько-нибудь крупных систем ретроспективного поиска ввиду размеров случайной выборки, которая должна быть получена из остаточного массива с целью нахождения хотя бы одного ненайденного релевантного документа. Рассмотрим, например, систему из 10000 документов, работающую с точностью приблизительно 25% и выдающую при типичном поиске около 20 документов. Другими словами, мы можем ожидать получения 5 релевантных документов в общей выдаче из 20 документов. Предположим также, что система работает с коэффициентом полноты, равным 50%. Тогда в остаточном массиве должно оставаться еще пять ненайденных релевантных документов. Однако остаточный массив содержит 9980 документов, так что наша случайная выборка должна включать 9980/5, или почти 2000 документов для того, чтобы был хоть какой-то шанс отыскать дополнительно хотя бы еще один релевантный документ. Если полнота больше 50%, величина случайной выборки должна быть пропорционально еще больше.

Другой метод оценки полноты предполагает проведение параллельного поиска в другой, обычно большей, системе. Полнота системы 1 оценивается по сравнению с характеристикой системы 2. Этот метод дает лишь сравнительное, а не истинное значение полноты.

Метод, использованный с некоторым успехом в предыдущих программах испытаний, предусматривал использование «подготовленных запросов» («prepared requests»), основанных на документах, о которых известно, что они имеются в фонде («исходные документы», «source documents»). Для применения этого метода, мы обратились снова к помощи потребителей, попросив их представить реальные запросы, которые должны были служить основой для определения показателей точности. После получения от потребителя запроса и заручившись его согласием сотрудничать в эксперименте, ему предъявляют документ, выбранный случайно из той части фонда документов, которая соответствует общему направлению его интересов. Затем потребителя просят составить запрос, для которого, по его мнению, этот исходный документ был бы ценным ответом. Поиск по этим подготовленным запросам проводится так же, как поиск по реальным запросам, и найденные источники или случайная выборка из них представляются составителю запроса для оценки его релевантности.

Таким путем определяется значение точности для подготовленных запросов. Значение полноты оценивается для всей группы подготовленных запросов как отношение найденных при поиске исходных документов к общему их количеству. Предположим, что использовано 100 подготовленных запросов, каждый из которых основан на одном-единственном исходном документе. Если в результате 70 поисков найдены соответствующие исходные документы, можно утверждать, что полнота системы для этих поисков

составляет 70% в предположении, что коэффициент полноты по отношению к любой другой группе из 100 релевантных документов также будет 70/100.

Таким образом, для подготовленных запросов мы получаем коэффициенты полноты и точности, а для реальных запросов - только коэффициенты точности. Однако при проведении экспериментальных поисков в виде подпоисков на различных уровнях общности можно получить значения полноты и точности для каждого подпоиска. Таким способом можно нанести диапазон значений характеристик для подготовленных запросов на графике зависимости полноты от точности, как показано на фиг. 6, где А - точка работы системы для поиска с наивысшим уровнем общности, а Е - соответствующая точка для по иска с наименьшим уровнем общности.

Теперь можно взять значение точности для реальных поисков и нанести их на кривую полнота / точность для подготовленных запросов. Этот способ позволяет получать оценки значения полноты для реальных поисков путем экстраполяции значений полноты / точности, достигнутых для подготовленных запросов.

Использование «исходных документов» как средства установления коэффициента полноты было подвергнуто резкой критике, главным образом на основании возможности неестественно сильного сходства между заголовком исходного документа и словами основанного на этом документе запроса. Такая неестественно сильная связь может исказить результаты эксперимента в выгодную для системы сторону, так как темы, упоминаемые в заголовке, вероятнее всего, будут выбраны и при индексировании. Однако при известных мерах предосторожности исходные документы могут все же успешно использоваться в качестве средства установления полноты системы. Эти предосторожности следующие:

1. Составителями подготовленных запросов должны быть те же потребители, чьи реальные запросы используются для установления коэффициента точности системы. Их просят составлять подготовленные запросы возможно более близкими по степени детализации (специфичности) и сложности к их реальным запросам.

2. Потребителям должны даваться строгие инструкции не переделывать заголовки при подготовке запросов.

3. Не допускается подача «обманных» запросов (например, запроса, для которого единственной релевантной частью документа является одна позиция в какой-то единственной таблице).

4. Второго специалиста по данной тематике просят рассмотреть подготовленный запрос в сопоставлении с исходным документом и указать, считает ли он данный запрос «приемлемым» или нет.

Возможно, наиболее эффективным методом установления значения полноты для действующей поисковой системы является метод, использованный в Национальной медицинской библиотеке при оценке системы MEDLARS. Он предполагает нахождение для каждого экспериментального запроса ряда релевантных документов методами, совершенно не имеющим отношения к оцениваемой системе. Такими документами могут быть:

1. документы, уже известные потребителю до предъявления запроса системе;

2. дополнительные документы, полученные от авторов материалов, заранее известных потребителю;

3. документы, обнаруживающие сильную связь по ссылкам с материалами, известными потребителю заранее;

4. документы, найденные при поиске литературы с помощью традиционных библиотечных средств;

5. документы, найденные некоторыми другими специализированными информационными центрами.

В случае если найденные документы относятся к пунктам 2, 3, 4 и 5, они являются только «возможно релевантными» по отношению к запросу. Они не признаются релевантными до тех пор, пока сам потребитель не оценит их как таковые. Эти дополнительные документы могут быть объединены для оценки релевантности со случайной выборкой, взятой из экспериментального поиска, и представлены на рассмотрение потребителю. Группа источников, признанная потребителем релевантной и найденная без обращения к системе, является группой, по которой устанавливается значение полноты для поиска. Это хорошо видно из табл. 1. В данном конкретном случае потребитель знал о четырех релевантных источниках до того, как он попросил провести поиск литературы. С помощью указателя библиографических ссылок к ним были добавлены 12 документов, сильно связанных библиографическими ссылками с четырьмя известными релевантными документами. Три дополнительных «возможно релевантных» источника были найдены с помощью традиционного библиотечного поиска в опубликованных библиографических списках. Эти 15 документов были представлены для оценки потребителю и 10 из них признаны релевантными. Теперь имеется возможная основа из 14 документов для установления значений полноты для данного запроса.

Однако требуется еще подтвердить, что все эти источники присутствуют в фонде оцениваемой системы. Предположим, что четыре документа отсутствуют, в результате чего основа для определения полноты сокращается до 10 источников. Теперь необходимо проверить наличие этих 10 источников, найденных при поиске в оцениваемой системе. Если из 10 источников были найдены 6, можно утверждать, что коэффициент полноты системы относительно данного запроса составляет 6/10 * 100 = 60% в предположении, что система будет работать при таком же уровне полноты и для любой другой группы из 10 релевантных документов.

Другой путь рассмотрения указанного метода получения оценки полноты проиллюстрирован на фиг. 7. Здесь область Х представляет весь массив MEDLARS, состоящий из 70000 источников. Для любого конкретного запроса, направленного в систему, запрашивающее лицо может, просмотрев сплошь все источники фонда. найти в нем подмножество источников Y, которые оно считает ценными с точки зрения его информационной потребности. Все остальные источники в массиве (Х - Y) не представляют ценности (т.е. нерелевантны). К сожалению, кроме полного просмотра всего фонда, нет другого надежного метода установления точного подмножества релевантных источников Y - для любого конкретного запроса. Однако можно установить некоторое подмножество первого подмножества (т.е. методом, описанным ранее, можно найти некоторую группу статей Y1 которые потребитель оценит как релевантные). После этого можно получить оценку полноты на основе качества функционирования системы по отношению к этой конкретной группе релевантных источников. Так, если известно о 10 релевантных статьях в фонде и система MEDLARS находит 7 из них, но пропускает 3, говорят, что коэффициент полноты для этого поиска равен 70%. При этом предполагают, что «коэффициент успеха» («hit rate») для группы документов Y1 будет приближаться к «коэффициенту успеха» для большей группы Y.

Необходимо напомнить, что значения полноты и точности являются только критериями, с помощью которых измеряется влияние определенных изменений в системе или методов функционирования системы. Но, хотя оценка полноты, полученная в результате таких испытаний, может оказаться несколько завышенной или заниженной по отношению к «истинной полноте», метод, использованный для получения оценки, остается неизменным на протяжении всей программы оценки. Так что получаемые значения этих параметров все же могут служить ценными указателями изменений качества функционирования системы в различных ситуациях.

2. Экспериментально-практическая часть

2.1 Анализ экспериментальных данных

Единственной целью программы оценки является получение данных для их последующего анализа. Различают два типа данных: 1) численные показатели качества функционирования поисковой системы и 2) данные о неудачах при поиске. После проведения испытания системы одной из первых задач должно быть выявление и суммирование результатов по полноте и точности поиска. Известны два альтернативных способа осреднения численных значений полноты и точности для серии экспериментальных запросов. В первом случае суммируются результаты отдельных поисков, и полученная сумма делится на общее число поисков. Таким образом получаются средние значения коэффициентов полноты и точности поиска. Этот метод известен как метод вычисления среднего отношений. Второй метод сводится к подсчету числа документов, выданных по всей экспериментальной серии запросов, и получению обобщенных значений коэффициентов полноты и точности в виде отношения средних. Например, если в 100 экспериментальных поисках найдено в сумме 1000 документов, 800 из которых признано релевантными, то коэффициент точности в соответствии с методом отношения средних равен 80%.

Каждый из указанных методов имеет свои преимущества и недостатки, однако если экспериментальные данные достаточно однородны, результаты, получаемые в обоих случаях, оказываются близкими. Важно, чтобы в процессе выполнения экспериментальной программы используемый метод расчета оставался неизменным.

Коэффициенты полноты и точности поиска независимо от того, представлены ли они в виде таблиц или графическим способом, сами по себе имеют малую ценность. Их нельзя использовать для сравнения характеристик систем с различным характером документов и запросов, различными требованиями потребителей к полноте и точности поиска, отличающихся допустимым временем поиска и степенью участия потребителей в процессе поиска. Подобное сравнение бессмысленно.

Коэффициенты полноты и точности по существу являются измерительными стандартами. В рамках программы оценки системы они используются аналогично другим измерительным средствам, например так, как это имеет место при измерении величины предметов. В качестве первого шага, можно измерить поисковую характеристику системы по отношению к экспериментальной серии запросов и сопоставить ее с идеальными значениями полноты и точности поиска, равными 100%.

Более важной представляется возможность определения степени удовлетворения информационных нужд потребителей, поскольку члены группы потребителей, привлеченной к участию в эксперименте, предъявят различные требования к полноте и точности поиска. Кроме того, можно измерить разницу в характеристиках качества системы по отношению к запросам, касающимся различных широких предметных областей или полученным от групп потребителей различного состава. Мы можем проследить вариацию поисковой характеристики в зависимости от режима функционирования системы, например от ступеней и уровней взаимодействия потребителя с системой. Можно также использовать эти измерительные стандарты для измерения эффекта вносимых в систему изменений, таких, как добавление или изъятие указателей роли, использование весовых коэффициентов, а также введение промежуточного человеческого звена для предварительного анализа и сортировки результатов поиска на выходе системы перед выдачей их потребителю.

Если мы рассматриваем коэффициенты полноты и точности единственно как средства для измерения изменений поисковой характеристики в рамках нашей собственной системы и в границах проводимого эксперимента, очевидно, что любой метод, обеспечивающий допустимую степень точности при оценке параметров эффективности поиска, является равнозначным при условии его неизменности в ходе выполнения всей программы оценки. Даже в тех случаях, когда применение данного метода приводит к небольшому занижению или завышению оценок полноты и точности поиска, получаемые численные значения характеристики с полным правом могут быть использованы для сравнения эффектов, вызванных в системе изменениями вследствие постоянства используемого метода.

При рассмотрении результатов единичного поиска статистическая достоверность получаемых. значений коэффициентов полноты и точности мала, хотя она, очевидно, и зависит от количества исходных данных для каждой конкретной оценки. Мы можем, например, быть гораздо более уверенными в значении полноты 15/17, чем 0/1. Кроме того, анализ не основывается на численных значениях показателей (будь то коэффициент полноты или коэффициент точности) для одиночных поисков. Анализ основан на группировании и усреднении численных значений характеристик для ряда поисков, имеющих некоторые общие признаки (например, относящихся к одной и той же широкой предметной области). Достоверность среднего значения характеристики, полученного по результатам нескольких индивидуальных оценок полноты, очевидно, намного больше достоверности самих оценок.

Определив значения характеристики, соответствующие отдельным экспериментальным поискам, и усреднив их, мы можем найти ее общее среднее значение для системы. Допустим в качестве гипотетического примера, что по результатам 200 поисков коэффициенты полноты и точности системы оказались равными соответственно 72 и 23%.

В некотором смысле коэффициент полноты, вычисленный с учетом лишь документов, «имеющих основную ценность», рассматриваемый совместно с общим коэффициентом точности, является более надежным показателем качества функционирования системы, чем общий коэффициент полноты. В общем случае под документом, определенным потребителем как «имеющим основную ценность», вероятно, понимается документ, которого потребитель не хотел бы лишиться при поиске. Тогда как «менее ценным» документом будет считаться такой, который потребитель: охотно получил бы в случае его отыскания, но без которого он вполне может обойтись. Для той же группы из 200 экспериментальных поисков мы могли бы сказать, что система отыскивает 81% документов, имеющих основную ценность, при коэффициенте точности 23%.

Необходимо помнить, что средние значения могут иметь обманчивый характер. Обычно имеется широкий разброс результатов экспериментальных поисков. Например, по недавней оценке системы MEDLARS средние значения полноты и точности поиска равнялись 58 и 50% соответственно.

Анализ неудач при поиске

После вычисления и регистрации численных значений поисковой характеристики, соответствующих экспериментальной серии запросов, следующим шагом является детальный смысловой анализ причин потерь и шумов при поиске. Рассмотрим гипотетический поиск, в котором система выдает 6 и теряет 4 из 10 «известных как релевантные» документов (т.е. коэффициент полноты равен 60%). Потребитель оценивает случайную выборку, включающую 25 документов, определяя 10 из них как имеющих ценность и 15 - как нерелевантных (т.е. коэффициент точности равен 40%). Тогда для данного поиска необходимо исследовать 4 случая невыдачи релевантных документов и 15 случаев выдачи нерелевантных документов. При этом следует подчеркнуть, что указанные значения потерь (ошибок по полноте) и шумов (ошибок по точности) не являются в действительности единственными в процессе поиска. Это лишь те ошибки, о которых мы знаем и которые мы используем для представления общей величины шумов и потерь (т.е. они симптоматичны для проблем, встречающихся при поиске).

«Ретроспективный» анализ поисковых неудач - наиболее спорный аспект программы оценки. Для каждого случая «неудачи» он включает исследование следующих элементов:

1. полного текста самого документа;

2. поискового образа этого документа (т.е. приписанных документу терминов языка индексирования);

3. формулировки запроса;

4. поискового предписания, по которому осуществляется поиск;

5. изложенной в полной форме оценки потребителя, особенно (при исследовании шумов) причины отнесения документа к разряду нерелевантных.

На основании анализа перечисленных источников неудачи принимается решение об основной причине или причинах каждой исследуемой неудачи. Почти все неудачи будут отнесены к тем или иным аспектам процессов индексирования и поиска, языка индексирования, процессов обработки на ЭВМ или области взаимодействия потребителя с системой. В правильно организованном исследовании по крайней мере отнесение шумов к той или иной причине будет совместным решением потребителя и лица, производящего оценку, так как суждение потребителя относительно причин «нерелевантности» каждого документа оказывает существенную помощь при анализе неудач поиска. Предположим, например, что потребитель читает данный документ нерелевантным, так как «в нем идет речь об электронных генераторах шума, в то время как меня интересуют механические генераторы шума». Получив такое объяснение со стороны потребителя, мы лично знаем, почему найденный документ не удовлетворяет его информационных потребностей. Следовательно, теперь необходимо изучить соответствующую поисковую документацию, чтобы определить причину неправильной выдачи документа: проводился ли поиск слишком широко, или язык индексирования был недостаточно специфичным для данного запроса (т.е. он позволял определить «генераторы шума», но не давал возможности отличать электронные генераторы от механических), ли был неверно заиндексирован документ, или неточно был сформулирован запрос (т.е. не был отражен факт заинтересованности только в механических генераторах шума).

Всякий раз, когда это возможно, для каждой отдельной неудачи выделяется «наиболее важная» причина. Иногда, однако, подобное отождествление невозможно из-за наличия двух адекватных в этом смысле элементов системы. Для некоторых случаев потерь мы можем сказать, что документ был бы выдан, если бы индексатор использовал дополнительный термин Х. С другой стороны, столь же важно, что если бы лицо, осуществляющее поиск, обобщило в разумных пределах принятую стратегию поиска: «А1 u В и С» на «А u В u С», документ также был бы выдан. В таких случаях неудача должна быть отнесена одновременно и к индексированию, и к процессу поиска или к каким-либо другим элементам системы, совместно являющимся причинами неудач.

Очевидно, что относительное число неудач (и их точный тип) внутри каждой категории будет меняться от системы к системе. Однако основные типы неудач при поиске будут одинаковы для большинства действующих систем. Имеет смысл рассмотреть их более подробно.

2.2 Неудачи при поиске, обусловленные несовершенством языка индексирования

Качество языка индексирования является, вероятно, наиболее важным единичным фактором, влияющим на характеристику поисковой системы. Плохая стратегия поиска, несовершенное или непоследовательное индексирование могут снизить поисковую характеристику, но хорошее индексирование и хороший поиск не в состоянии компенсировать несовершенство языка индексирования. Другими словами, индексаторы и лица, осуществляющие поиск, могут достигнуть только такого уровня результатов, который соответствует возможностям языка индексирования.

Неудачи при поиске, обусловленные недостатками языка индексирования, бывают двух основных типов: 1) неудачи, являющиеся следствием недостаточной специфичности терминов языка индексирования, и 2) неудачи за счет неоднозначной или ошибочной связи терминов. Недостаточная специфичность языка индексирования может привести как к потерям, так и к шумам при поиске. Если мы при отнесении документа к конкретному классу не можем точно определить последний в терминах языка индексирования, хотя и используем словарь входов, следствием недостаточной специфичности словаря будут шумы, а потери, относимые к этой причине, будут отсутствовать. Результатом пропуска понятия, имеющегося в словаре входов, будут как шумы, так и потери.

Для примера рассмотрим тему «Нарушения зрительного восприятия». Предположим, что мы не можем однозначно определить это понятие, но решили его заиндексировать, используя комбинацию терминов «Зрение» и «Иллюзию».

Представим себе теперь, что имеется запрос на документ по данной теме. Поскольку понятие присутствует в словаре входов, нам известно, какую комбинацию терминов необходимо использовать в поисковом предписании. Поиск будет сопровождаться шумом, поскольку логическое произведение классов «Зрение» и «Иллюзии» «Зрительные иллюзии» - шире точного класса «Нарушения зрительного восприятия». Однако потерь не будет, так как наличие данного понятия в словаре входов дает возможность сохранять неизменным результат его идентификации при индексировании и позволяет точно определить конкретный характер этой идентификации лицу, производящему поиск. Предположим теперь, что мы не имеем точного термина для понятия «Нарушения зрительного восприятия» И не можем отразить его какой-либо комбинацией других терминов, хотя документ по данной теме введен в систему. В этом случае возможны следующие исходы:

1. Пропуск этого понятия индексатором. Вероятно, что при индексировании документа, в котором говорится о нарушениях зрительного восприятия, причем данная тема не обязательно является в нем центральной, она будет опущена индексатором, если ни в словаре входов, ни в словаре терминов индексирования не имеется точного термина для ее отражения.

2. Не идентичность результатов индексирования. Одни индексаторы могут использовать «Зрение» и «Иллюзии», в то время как другие - иную комбинацию терминов.

3. Потери в процессе последующего поиска по данной теме. Некоторые из них будут следствием пропусков понятий при индексировании, другие - неидентичности результатов индексирования (лицо, осуществляющее поиск, не знает, к какой категории был отнесен запрашиваемый предмет, и не охватывает всех возможных комбинаций терминов, необходимых для достижения высокой полноты).

4. Появление дополнительных шумов при поиске.

Поскольку лицо, осуществляющее поиск, не знает результатов индексирования данного понятия, оно будет вынуждено использовать большое число альтернативных комбинаций терминов, часть которых приведет к выдаче большого числа иррелевантных документов.

Из сказанного выше можно сделать некоторые выводы. Потери, обусловленные недостаточной специфичностью терминов, означают, что тема поиска или некоторые из ее аспектов не отражены даже в словаре входов системы. Шумы, обусловленные недостатком специфичности, указывают на неадекватность объемов индексируемого понятия и понятий, используемых для его определения в словаре индексационных терминов. Устранение шумов этого типа должно осуществляться путем включения в словарь терминов или их комбинаций, адекватно по объему определяющих искомое понятие. Для устранения потерь нам нет необходимости адекватно определять понятие, но мы должны включить его в словарь входов.

Чтобы лучше понять смысл недостаточной специфичности языка индексирования, удобно классифицировать все экспериментальные запросы по предметным областям и подсчитать количество запросов в каждой предметной области, затронутых недостаточной специфичностью терминов словаря с точки зрения неудач при поиске.

По отношению к запросам, сформулированным для данной конкретной системы, словарь, относящийся к составу и структуре металла, крайне несовершенен (свыше трети всех поисков по этой теме отмечено недостатком специфичности) и требует принятия немедленных мер по его доработке.

Неопределенность и ложность отношений между терминами является другим источником шумов. В некотором смысле все термины, приписываемые документу в процессе индексирования, должны рассматриваться как связанные определенным отношением, даже если эта связь является весьма слабой (т.е. состоит в том, что оба термина находятся в одном и том же поисковом образе документа). Тем не менее рассмотрим поиск, включающий простое отношение двух терминов в виде логического произведения, т.е. А 8 отношении к В. Несмотря на то что все найденные с помощью этой координации документы должны быть заиндексированы и термином А и термином В, некоторые из них могут оказаться нерелевантными ввиду отсутствия непосредственной связи между А и В (ложная координация) или наличия связи, представленной иным видом отношений, чем было указано потребителем (неадекватная взаимосвязь терминов). Различие между ними можно пояснить на некоторых примерах. Рассмотрим запрос по теме «Нейрологические осложнения болезней почек». Одна из комбинаций терминов, используемых в поисковом предписании, включает «Уремия» и «Миозит». В одном из найденных нерелевантных документов обсуждаются результаты определения кальция в сыворотке при различных заболеваниях, в том числе при уремии и полимиозите. Очевидно, что в этом документе указанные термины не находятся в прямой взаимосвязи (т.е. в нем не идет речь о больном, страдающем и уремией, и миозитом). Данный пример является иллюстрацией случая ложной координации.

Рассмотрим другой запрос, касающийся «Нарушения менструаций после прекращения перорального приема противозачаточных средств». Одной из поисковых комбинаций является «Применение противозачаточных средств, перорально» и «Нарушения менструации». Однако при данной стратегии поиска находится ряд документов по терапевтическому использованию вводимых перорально противозачаточных средств (эстрогенов) для лечения нарушений менструаций. Это пример неадекватной взаимосвязи терминов: два термина определенным образом связаны в нежелательном документе, но не тем отношением, которое имел в виду потребитель (случаи, когда нарушения менструации были следствием перорального приема противозачаточных средств).

Ложных координаций можно избежать путем использования средств объединения терминов [обычно называемых указателями связи (links)], тогда как неадекватность отношений терминов устраняется применением указателей роли. Число неудач этого типа можно существенно снизить путем большей спецификации терминов словаря. Предположим, что мы осуществляем поиск по рыбным токсинам (т.е. токсинам, вырабатываемым рыбами, таким, как тетродоксин) путем координации терминов «Токсины» и «Рыбы». В некоторых из найденных документов рассматриваются токсины (например, бактериальные), имеющие отношение к рыбам, но не производимые ими. Очевидно, можно было бы избежать подобных выдач, если бы мы подразделили класс токсинов следующим образом:

Токсины, Животные (т.е. вырабатываемые животными)

Токсины, Бактерии (т.е. вырабатываемые бактериями)

Токсины, Растения (т.е. вырабатываемые растениями)

В этом случае был бы возможен поиск рыбных токсинов путем координации терминов Токсины, Животные и Рыбы. Это не исключило бы все неоднозначные и ложные связи, однако уменьшило бы их число. По крайней мере, мы были бы в состоянии избежать выдачи документов по бактериальным токсинам.

Одним из способов, существенно повышающих специфичность терминов словаря и позволяющих избежать многих типов ложных координаций и неадекватности связей терминов, является использование подзаголовков. Подзаголовками служат термины, выражающие общие понятия, которые могут быть добавлены к основным заголовкам. Так, записывая «Уремия / Осложнения» и «Миозит / Этиология», мы соединяем термин «Уремия» с термином «Миозит» (т.е. связываем оба термина) и в то же время указываем точное взаимоотношение между ними (миозит является осложнением уремии). Аналогичным способом можно избежать упомянутых ранее неадекватных отношений терминов. «Противозачаточные средства, перорально / Вредное действие» и «Нарушения менструации» является комбинацией, необходимой для нахождения релевантных документов. При этом будет отсутствовать нерелевантная литература по терапевтическому использованию противозачаточных средств (заиндексированная терминами «Противозачаточные средства, перорально» и «Терапевтическое использование»)»

До сих пор мы рассматривали шумы, обусловленные отсутствием указателей отношений терминов в словаре, Со своей стороны, наличие в системе указателей отношений потенциально приводит к потерям при поиске. Это особенно справедливо по отношению к указателям роли, которые, в силу того, что они придают словарю большую специфичность и позволяют выражать более точные оттенки значения терминов, трудно применять в логически последовательном виде [1]. Аналогичный вывод, по-видимому, справедлив и в отношении подзаголовков, хотя в настоящее время еще не имеется прямых доказательств этого. В качестве примера рассмотрим запрос «Применение зализывающих устройств для снижения лобового сопротивления при установке обтекателей гидролокаторов». «Зализы» в этом случае трактуются как средства установки обтекателей гидролокаторов. Поиск поэтому осуществляется по следующей комбинации терминов: «Обтекатели гидролокаторов» (роль 9 - пассивный объект операции установки) и «Зализы» (роль 10 - средства достижения установки).

Для выявления предметных областей, в которых обсуждаемые проблемы языка индексирования находят наиболее частое отражение, будет снова полезным представить результаты эксперимента в виде таблицы. Путем разнесения по предметным областям мы можем определить шумы, обусловленные наличием неадекватных связей терминов, и получить результаты, аналогичные по форме приведенным в табл. 4. Из табл. 4 следует, что шумы, являющиеся следствием неадекватности взаимоотношений терминов, присутствуют более чем в половине поисков по биологическим эффектам физических явлений. Этот результат не может не заинтересовать нас. Для выяснения причин подобной ситуации необходимо выполнить дальнейший анализ. При этом мы обнаружим, что большинство запросов, относящихся к этой широкой предметной области, касается биологического воздействия радиации и что причиной шумов является недостаточная специфичность языка индексирования, проявляющаяся в невозможности установления ясного различия между вредным действием радиации и ее терапевтическом использовании (радиотерапия). В связи с этим, очевидно, необходима доработка данного фрагмента словаря.

Наоборот, там, где мы сталкиваемся с проблемами использования указателей роли,

Подобное табулирование позволит определить, какой указатель роли труднее всего применить в логически последовательной форме при индексировании и поиске. В свою очередь это дает нам также возможность принять соответствующие корректирующие меры.

Мы обсудили основные причины неудач при поиске, обусловленные несовершенством элементов языка индексирования. Возможны и другие недостатки языка, однако они, вероятно, оказывают менее существенное воздействие на характеристики системы. Дефекты или аномалии в иерархической структуре словаря могут привести к потерям и шумам. Рассмотрим, например, поиск по теме «Процессы развития, регенерации и дегенерации нервной системы».

Одна из стратегий включает поиск по термину «Заживление ран» и любому термину из иерархического дерева понятия «Болезни нервной системы» (т.е. родовой поиск по болезням нервной системы). Эта иерархия включает, к сожалению, термин «Боль», и комбинация «Боль» и «Заживление ран» приводит к выдаче ряда совершенно нерелевантных документов, включая документы по геморроям. Неудачи при поиске могут быть также следствием несовершенства системы перекрестных ссылок в тезаурусе. Например, поиск ведется по теме «Конструктивная устойчивость сотовых стержней» с использованием терминов «Устойчивость» и «Неустойчивость». Но эти термины не связаны в тезаурусе с другими терминами, имеющими определенное отношение к «устойчивости» В текстах документов по строительной технике (например, «Разрушение» и «Усталость»). Результатом этого будут потери.

Существуют два различных типа неудач, обусловленных недостатками процесса индексирования: 1) неудачи, вызванные ошибками индексатора, и 2) неудачи, являющиеся следствием решения относительно среднего числа терминов, приписываемых документу при индексировании. В свою очередь ошибки индексатора могут быть также двух типов: а) пропуски термина или терминов, необходимых для описания важных тем, обсуждаемых в документе, и 2) использование терминов, не соответствующих предметному содержанию документа. Пропуски обычно приводят к потерям, в то время как использование неподходящих терминов (т.е. совершенно неверное индексирование) может вызвать как шумы (лицо, осуществляющее поиск, использует этот термин в поисковой стратегии и находит нерелевантные документы), так и потери (лицо, осуществляющее поиск, использует правильный термин, но нужный документ не будет найден, так как он представлен в массиве неверным термином).

Различие между потерями, обусловленными ошибками индексатора, и потерями за счет недостаточной полноты индексирования заключается в следующем:

1. Пропуск индексатора: центральная тема обсуждаемого в документе предмета совсем не отражается при индексировании. Вместе с тем пропущенная тема ощущается настолько важной, что должна быть отражена даже в случае индексирования с малой полнотой.

2. Недостаточная полнота: при индексировании не отражены второстепенные аспекты содержания. Тема не является основной в документе и, по-видимому, исключена в пользу других тем в соответствии с принятым решением относительно среднего числа приписываемых терминов.

К сожалению, если при индексировании документа пропущен важный термин, документ, вероятно, останется не найденным в ряде поисков, для которых он, возможно, является в большой степени релевантным. Более того, ошибки этого типа, хотя и могут вскрыты в ходе выполнения программы оценки, останутся не обнаруженными при обычном режиме функционирования системы. Несомненно, что некоторого числа пропусков индексатора нельзя избежать в условиях сжатых графиков работы. Однако, по-видимому, относительное число неудач при поиске по этой причине большего числа неудач из-за использования неподходящих терминов. Если работа одного индексатора контролируется («перепроверяется») вторым, ошибочное использование терминов при индексировании будет в большинстве случаев выявлено и может быть легко исправлено. Пропуски же определить гораздо труднее, поскольку здесь требуется внимательное изучение самого документа в ходе контрольной проверки.

Ранее уже указывалось, что чем полнее мы описываем (с помощью терминов языка индексирования) содержание документа, тем большей будет ожидаемая полнота поиска. Наоборот, вследствие обратной зависимости между полнотой и точностью, чем больше полнота индексирования, тем больше вероятность появления шумов.

Частично это объясняется наличием больших потенциальных возможностей для ложной координации терминов, частично же тем фактом, что полное, исчерпывающее индексирование приводит к выдаче документов, имеющих весьма слабое отношение к запросу. В процессе функционирования любой поисковой системы, вероятно, будут потери вследствие недостаточно полного индексирования. В то же время при полном индексировании возможно и появление шумов, главным образом за счет выдачи документов, малоинформативных по отношению к сформулированному запросу. Наиболее трудной проблемой, связанной с методикой индексирования, в любой системе является решение о приемлемой полноте индексирования.

При анализе результатов эксперимента надо попытаться выявить все поиски, в которых наиболее вероятны потери, обусловленные недостаточной полнотой индексирования. И наоборот, надо выявить поиски, в которых возможны шумы вследствие большой полноты индексирования. Например, может выявиться невозможность осуществления успешных поисков по определенным методам медицинской диагностики (например, биопсии костного мозга), так как эти способы, зафиксированные в историях болезней на различных их стадиях, не отражены должным образом при индексировании. Аналогично мы могли бы обнаружить, что другие типы поиска неизменно приводят к низкой точности вследствие способа использования определенных терминов. Например, может оказаться затруднительным проведение успешного поиска по конкретным приложениям электронных вычислительных машин для обработки данных (например, по машинному считыванию электрокардиограмм), так как термины языка индексирования, относящиеся к «обработке данных», использовались без дальнейшей детализации во всех случаях, когда в документе рассматривались вопросы применения ЭВМ (например, «расчеты были выполнены на ЭВМ IВM 7094»).


Подобные документы

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.

    курсовая работа [983,7 K], добавлен 01.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.