Формализация семантики: опыт распознавания смысла текста

Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 19.06.2015
Размер файла 294,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНИСТЕСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

БАЛТИЙСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ им. И. КАНТА

ИНСТИТУТ СОЦИАЛЬНО-ГУММАНИТАРНЫХ ТЕХНОЛОГИЙ И КОММУНИКАЦИЙ

КАФЕДРА ЛИНГВИСТИКИ И ЛИНГВОДИДАКТИКИ

ФОРМАЛИЗАЦИЯ СЕМАНТИКИ: ОПЫТ РАСПОЗНАВАНИЯ СМЫСЛА ТЕКСТА

Реферат

Бабушкин Дмитрий Евгеньевич

Калининград 2015

Содержание

Введение

Глава 1. Формальные модели морфологии

Вывод к главе 1

Глава 2. Синтаксис

2.1. Трансформационная (порождающая) грамматика

Вывод к главе 2

Глава 3. Семантика

3.1 Основные понятия. Значение. Виды значений

3.2 Формальные модели семантики

3.3 Представление о модели "смысл-текст"

Вывод к главе 3

Глава 4. Прагматика

4.1 Основные понятия. Виды прагматических знаний

4.2 Проблема понимания текстов

Вывод к главе 4

Глава 5. Автоматизированная переработка текстов

5.1 Представление знаний

5.2 Автоматический анализ и синтез речи

5.3 Автоматизированные информационные системы

5.4 Машинный перевод

Вывод к главе 5

Глава 6. Экспертные системы

Вывод к главе 6

Заключение

Список использованной литературы

Введение

Одной из задач, повышающих эффективность человеческой деятельности при проектировании информационных, программных и технических систем, является обеспечение естественного способа коммуникации с определенной автоматизированной системой, поддерживающей данный процесс. В этой области существует множество разработок, однако, универсальной системы, обеспечивающей естественную форму взаимодействия, а именно естественно-языковой интерфейс, пока не создано, так как ни одна из имеющихся лингвистических теорий не в состоянии описать естественный язык с необходимой точностью и полнотой. Это связано со сложностью объекта формализации.

Формализация в широком смысле предполагает представление какой-либо содержательной области в виде формальной системы.

Одним из синонимов формальной системы является формализованный язык, сущность которого определяется как любая совокупность некоторым образом специализированных языковых средств, в той или иной мере точно фиксированными правилами синтаксиса и приписывания им определенного смысла (семантика).

Формализация семантики интересует нас как способ выражения содержания совокупности знаний через определенную форму - знаки искусственного языка. Одной из значимых разновидностей формализации семантики рассматривается формализация логическая, являющаяся результатом формирования нового знания через рассудочную деятельность.

Если мы вернемся к истокам логики вообще, то увидим, что главная её задача -- определить, как прийти к выводу из предпосылок и получить истинное знание о предмете размышления, чтобы глубже разобраться в нюансах изучаемого предмета мысли и его соотношениях с другими аспектами рассматриваемого явления.

В любой науке логика служит одним из основных инструментов

Чтобы четко понимать цель исследования и ориентироваться в дальнейшем материале, нам необходимо иметь представление о семантике и её месте в формальной логике.

Семантика - раздел лингвистики, изучающий смысловое значение единиц языка. Если рассматривать подробнее, то семантика отвечает на вопрос, каким образом человек, зная слова и грамматические правила какого-либо естественного языка, оказывается способным передать с их помощью самую разнообразную информацию о мире. В разрешении этого вопроса используют семантический анализ. Одной из основных разновидностей семантического анализа выделяют латентно-семантический анализ, т.е. метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающихся. В основе вышеупомянутого метода лежат два принципа факторного анализа, применяемые для изучения взаимосвязей между значениями переменных и сокращения их числа для описания данных.

Формальная логика подразумевает собой конструирование и исследование правил преобразования высказываний, сохраняющих их истинностное значение безотносительно к содержанию входящих в эти высказывания понятий; в отличие от неформальной, организована как формальная система, обладающая высоким уровнем абстракции и чётко определёнными методами, правилами и законами; занимается формированием нового знания на основе ранее известного без обращения к опыту, а применением законов и правил мышления. Метод формальной логики последовательно проводит принцип параллелизма формы и содержания мышления. Начальной ступенью формальной логики можно считать традиционную логику, а математическую логику -- её следующей ступенью, использующей математические методы, символический аппарат и логические исчисления. В широком смысле, математическая логика рассматривается как математизированная ветвь формальной логики.

Применение в логике математических методов становится возможным тогда, когда суждения формулируются на некотором точном языке. Такие точные языки имеют две стороны: синтаксис и семантику. Синтаксисом называется совокупность правил построения объектов языка. Семантикой называется совокупность соглашений, описывающих наше понимание формул и позволяющих считать одни формулы верными, а другие -- нет.

На наш взгляд, формализация семантики является неотъемлемой частью процесса определения свойств языка, описания и воссоздания его в абстрактной системе.

морфология семантика перевод экспертный

1. Формальные модели морфологии

Формальные модели морфологии отражают структуру слова, правила изменения слов, способы выражения грамматических значений и способы словообразования.

С точки зрения машинной обработки информации наибольший интерес представляют модели морфологии, раскрывающие смысл слов. Смысл слов раскрывается при их употреблении во взаимодействии.

С этих позиций важным понятием является синтагма (гр. syntagma -нечто соединенное). Это семантико-синтаксическая единица речи, образуемая группой слов в составе предложения, объединенных в смысловом отношении. Два слова считаются связанными друг с другом, если имеют хотя бы один общий семантический множитель (компонент).

Под семантическим множителем понимаются элементарные единицы содержательного плана, которые, соединяясь друг с другом в различных количествах и комбинациях, задают значения любого слова в языке.

Так, сочетание семантических элементов - "взаимопонимание", "духовная близость", "взаимная преданность", "готовность к взаимопомощи" - определяет смысловое ядро слова "друг".

Семантические множители (семантические признаки или маркеры) возникают в предположении о дискретности семантического пространства языка. Набор элементов этого пространства конечен и обозрим, а число их комбинаций является бесконечным.

Их общие черты: элементарность, принадлежность к плану содержания, универсальность.

Установление связанности двух входных слов по наличию общего семантического множителя на выходе лежит в основе автоматического анализа содержания текста и построения тезауруса, когда связь между предположениями устанавливается при нахождении в них хотя бы одного общего или нескольких слов, связанных друг с другом отношением "род - вид" или "часть - целое".

Для построения тезауруса словник "просеивается" через дескрипторы (лексические единицы информационно-поискового языка) и в соответствии с моделью связанности слова, имеющие общие семантические множители с данным дескриптором, приписываются к этому дескриптору - входят в его семантическое поле, образуя словарную статью тезауруса.

Чтобы установление общности семантических множителей в этом процессе могло осуществляться автоматически, т.е. с помощью ЭВМ, множители должны быть приведены к сравниваемому виду.

Для этого выполняется предварительная лемматизация (приведение словоформы к лемме, т.е. ее нормальной форме). Затем осуществляется кодирование семантической информации в выделенной дефиниции с учетом наибольшей информативности согласных букв в слове.

Процесс нейтрализации словоизменительных и словообразовательных отношений начала слова оставляют без изменений, а сокращению и усечению подвергается правая часть, в результате чего происходит как бы сдвиг смысла влево, концентрация его на начале слова. Такой прием кодирования назван лексикализацией.

Лексикализация позволяет не считать релевантными различия между частями речи, образованными от одного корня, и некоторые другие словообразовательные отношения. Таким образом, получаемый сегмент не является ни корнем слова, ни его основой, которые представляют собой, по сути, прежде всего единицы (и понятия), обусловленные генетически и уж в последнюю очередь - семантически. Сегмент - исключительно семантический идентификатор слова, он выполняет одну-единственную функцию: быть единицей смысла, однозначным средством для опознания семантики слова.

При кодировании необходимо стремиться:

- к минимизации числа букв в коде;

- максимальной способности сегмента к дифференциации;

- максимальной различительной силе.

Требования эти противоречивы, если учесть к тому же необходимость однозначного декодирования.

Выводы к главе 1

Формальные модели морфологии отражают правила изменения слов, их структуру, способы словообразования и выражения грамматических значений.

Модели морфологии, раскрывают смысл слов. Смысл слов раскрывается при их употреблении во взаимодействии.

Глава 2. Синтаксис

Синтаксис (гр. syntaxis - составление) - раздел грамматики, изучающий внутреннюю структуру и общие свойства предложения.

Различают: динамический синтаксис, изучающий предложение как коммуникативную единицу, связанную с ситуацией речи, обладающую определенной интонационной характеристикой и порядком слов как средством выражения актуального членения. Коммуникативный синтаксис изучает актуальное и синтаксическое членение предложения, функционирование словосочетаний в предложении, коммуникативную парадигму предложений, а также типологию высказываний; статистический изучает структуры, не связанные с контекстом и ситуацией речи, предложение (как предикативную единицу) и словосочетание (как непредикативную единицу).

К основным синтаксическим концепциям относятся следующие:

- синтаксическая конструкция - соединенное по правилам грамматики целое, состоящее из слов, словосочетаний, предложений;

- синтаксическая пауза - определенное синтаксическое отношение между разделяемыми ею частями предложения;

- синтаксическая связь - связь слов, служащая для выражения взаимозависимости элементов словосочетания и предложения;

- синтаксические категории - зависимости одних форм высказывания от других (падеж у существительного; число, род у прилагательного);

- синтаксические отношения - отношения между синтаксическими единицами (словами в словосочетании и предложении).

2.1 Трансформационная (порождающая) грамматика

Это система правил, экспериментальным образом приписывающая предложениям структурные описания.

Синтаксический компонент определяет бесконечное множество абстрактных формальных объектов, каждый из которых включает в себя всю информацию, существенную для одной интерпретации конкретного предложения.

Фонологический компонент определяет фонетическую форму предложения, порождаемого синтаксическими правилами.

Он соотносит структуру, порождаемую синтаксическим компонентом, с фонетически репрезентированным сигналом.

Семантический компонент определяет семантическую интерпретацию предложения. Он соотносит структуру, порождаемую синтаксическим компонентом, с определенной семантической репрезентацией.

Следовательно, синтаксический компонент грамматики должен указывать для каждого предложения глубинную структуру, обусловливающую его семантическую интерпретацию и поверхностную структуру, которая определяет его фонетическую интерпретацию.

База синтаксического компонента - система правил, порождающая весьма ограниченное (возможно, конечное) множество базовых цепочек, каждое из которых имеет связанное о ней структурное описание, называемое базовым показателем структуры составляющего. Эти базовые показатели являются элементарными единицами, составляющими глубинные структуры. В основе предложения лежит последовательность базовых показателей, каждый из которых порождается базой синтаксического компонента.

Выводы к главе 2

Таким образом, предметом рассмотрения синтаксической науки являются две структуры: словосочетание и предложение.

Синтаксический компонент содержит трансформационный субкомпонент, занимающийся порождением предложения с его поверхностной структурой из его базиса.

Основополагающей идеей трансформационной грамматики является идея о том, что поверхностная структура задается неоднократным применением определенных формальных операций, называемых "грамматическими трансформациями", к объектам более простого вида.

Глава 3. Семантика

3.1 Основные понятия. Значение. Виды значений

Основным объектом исследования семантики является значение слова.

Слово - это знак, состоящий из двух частей; формы и значения. Отношение между словами и вещами - это отношение референции (соотнесенности): слова соотносятся с вещами. В более общем смысле предметом семантики является план содержания языка, его глубинная структура.

Значение слова - сложное семантическое целое, состоящее из частных типов значения семантических составляющих, которые и выступают как факторы, формирующие лексическое значение.

Это такие типы значения как:

- денотативное, отражающее связь значения слова с предметом, явлением объективной действительности;

- сигнификативное, отражающее связь лексического значения слова с понятием.

- синтагматическое значение отражает синтаксические и смысловые связи слова с другими словами в данном контексте;

- категориальное значение отражает связь лексического значения слов с их лексико-грамматическим классом.

- грамматическое значение выражается при помощи аффиксации, ударения, интонации, порядка слов и других средств.

3.2 Формальные модели семантики

Теории компонентного подхода к семантике исходят из допущения о том, что словарный запас языка можно описать в терминах конечного множества семантических компонентов (семантических множителей, маркеров). Что подразумевается под термином "семантический компонент", проиллюстрируем на примере.

Рассмотрим пропорции:

Очевидно, что пары "ребенок" и "теленок", "женщина" и "корова" с семантической точки зрения имеют нечто общее. Именно это общее и называют семантическим компонентом.

Так, из этой пропорции можно извлечь следующие компоненты смысла: женский пол; мужской пол; взрослый - человеческий; взрослый - коровий.

Существенным недостатком компонентной теории является произвольность выделения семантических маркеров. Кроме того, будучи замкнутым в узких лексических пределах, компонентный анализ оказывается неспособным решить свою главную задачу - создать конечный и ограниченный универсальный алфавит для описания семантических структур языков в целом.

3.3 Представление о модели "смысл - текст"

Эта модель возникла в связи с разработкой алгоритмов машинного перевода. Исследования были ориентированы на автоматическое моделирование двух операций, являющихся существенными составляющими речевой способности человека: моделирование понимания текстов (переход от заданного текста к содержащемуся в нем значению) и моделирование производства текстов (переход от заданного значения к выражающим его текстам).

Основная идея в том, что синонимия языковых выражений возникает не только за счет лексических синонимов в собственном смысле слова, но и за счет многих других средств языка.

Следующим этапом развития в данном направлении было введение понятия лексической функции.

Под лексической функцией понимается функция, ставящая в соответствие данному слову или словосочетанию X другое слово или словосочетание Y , определенным образом связанное с X по смыслу. Лексические функции могут быть двух типов: лексические замены и лексические параметры.

Лексические замены - это функции, ставящие в соответствие данному слову X такое слово Y , лексическое значение которого совпадает, целиком или частично, с лексическим значением X (семантическая связь на парадигматической оси языка).

Лексические параметры ставят в соответствие данному слову X такое слово Y, которое семантически связано с X на синтагматической оси языка.

Выводы к главе 3

Основным объектом изучения семантики является значение слова, которое следует рассматривать как знак, состоящий из двух частей: формы и значения. Значение - это сложное семантическое целое, подразделяющееся на несколько типов, таких как: денотативное, сигнификативное, синтагматическое, категориальное, грамматическое.

Глава 4. Прагматика

4.1 Основные понятия. Виды прагматических знаний

Предметом изучения прагматики является поведение знаков в реальных процессах коммуникации.

В 60-70 гг. 20 в., благодаря работам философа Л.Витгенштейна, произошло выделение прагматики в отдельную самостоятельную область исследований.

Интерес к исследованиям в области прагматики возник в настоящее время неслучайно.

Трудности в реализации программы машинного перевода и построении систем искусственного интеллекта, во многом связанные с не всегда удачными попытками формализации сферы употребления языка, привели исследователей к осознанию необходимости более углубленных исследований в этой области. Существенным представляется и то, что сегодня мы имеем дело с коммуникативными актами между человеком и компьютером, а не только с коммуникативными актами между людьми. Произошло, таким образом, изменение состава субъектов коммуникативного акта.

Для успешного понимания и порождения естественного языка не обойтись без прагматических знаний. Так, знания из области прагматики необходимы для понимания и объяснения таких языковых явлений, как анафора, эллипсис, лексическая неоднозначность, намерение, некорректный вход, нечеткость, структура дискурса.

При анализе предложения "Приговоренные подвергались обстрелу солдатами, и они упали" предпочтение отдается варианту, в котором местоимение "они" относится к приговоренным. В данном случае для достижения правильности понимания необходимо знание правдоподобных обстоятельств.

Другой тип прагматических знаний, необходимый для адекватного описания явления анафоры, связан с иерархией классов знаний и типичными связями между этими классами. Так, для понимания текста "Вчера я прочел роман. Раньше автор совсем не писал художественных произведений" необходима информация о том, что книги имеют авторов, роман - это книга; следовательно, "автор" - относится к слову "роман".

Для понимания других лингвистических явлений, таких, как, например, лексическая неоднозначность, эллипсис, понимание намерения, необходимы другие виды прагматических знаний.

Например:

знание фактов, имеющих смысл в контексте;

знание некоего множества планов достижения целей;

правильное представление целей и знаний о планах.

Прагматический анализ не ограничен значением слова и высказывания. Большую область его применения составляет дискурс, отражающий субъективную психологию человека. В последних исследованиях было убедительно показано, что структура дискурса состоит из трех взаимосвязанных структур:

- фокуса, т.е. множества вещей, объединенных контекстом, на которое можно сослаться;

- намерения, т.е. конкретной цели (целей) говорящего или автора;

- дискурса, т.е. способа, с помощью которого сам дискурс делится на логические когерентные единицы.

4.2 Проблема понимания текстов

Проблема машинного понимания текстов является междисциплинарной. Над ней работают помимо специалистов в области информатики и вычислительной техники лингвисты, психологи, физики и учёные других специальностей. Принципы анализа понимания, разработанные в этих науках, находят конкретное воплощение в создаваемых компьютерных понимающих системах (ПС). Соответственно эволюция ПС отражает последовательную смену тех моделей, которые разработчики использовали в качестве интеллектуального ядра систем. Если первые ПС включали только знания о языке, на котором написаны подлежащие пониманию тексты, то современные ПС включают еще и знания о предметной области, о которой идет речь в тексте, а также модели знаний и целей пользователя.

Первые ПС создавались на принципах лингвистического анализа. Пример - ПС дескрипторного типа, узнающие во входном тексте только ключевые слова - дескрипторы. В этих системах осуществляется формальный перевод текста с естественного языка на язык дескрипторного типа. Таким образом, в них реализовалась функция автоматического индексирования текстов запросов и документов.

Между тем, как известно, один и тот же текст может описывать несколько различных ситуаций из конкретной предметной области. Поэтому ПС дескрипторного типа, не имеющие предметных знаний, часто ошибаются в определении того, о какой ситуации идет речь в тексте.

Следующим шагом в создании систем, значительно улучшившим их понимающие возможности, было введение разработчиками в конструкцию ПС модели (знания) предметной области. Понимание стало после этого трактоваться как процесс соотнесения языкового описания с внеязыковой действительностью. В качестве отображения действительности использовался некоторый записанный на магнитную ленту образец (копия фрагмента предметной области), с которым соотносились входные тексты. По такому принципу построены системы вывода по образцу. В их основе лежат данные и образец, описывающий, что именно требуется найти. Такой метод используется для обнаружения фактов и ситуаций, а также набора соответствующих правил - продукций, конкретизирующих действия, выполняющиеся в данных ситуациях.

Основная научная проблема, с которой сталкиваются разработчики при создании блока знаний о предметной области - это проблема характера представления (репрезентации) знаний о понимаемом мире в памяти ПС. Поскольку многие специалисты по искусственному интеллекту (Р. Шенк, Г. Саймон и др.) считают ПС аналогом психики человека (разумеется, не по структуре, а по выполняемым функциям), то естественно, что при анализе репрезентации знаний они обращаются к психологической литературе. В ней проблема репрезентации представлена в двух основных направлениях.

Первое направление состоит в изучении того, в каком виде знания о мире хранятся в памяти субъекта (или ПС). В рамках этого направления наиболее распространенная точка зрения заключается в том, что знания хранятся в виде некоторых типовых иерархически организованных структур (их называют макроструктурами, фреймами, сценариями и т.д.). Процесс понимания субъектом входных знаний, согласно данной точке зрения, это процесс поиска соответствия знаний одной или нескольким структурам, "подгонки" входной информации под хранящийся в памяти прототип.

Второе направление исследования репрезентации заключается в акценте на анализе самого объекта понимания (т.е. понимаемой действительности) - как его целостной структуры, так и отдельных элементов и взаимосвязей, детерминирующих процесс понимания.

При формировании блока знаний ПС о предметной области исследователей в первую очередь интересует то, на какие подобласти, ситуации следует аналитически расчленить предметную область, отображаемую в текстах (знаниях).

Серьезное внимание проблеме представления знаний о предметной области при создании ПС уделяет группа американских исследователей под руководством Р. Шенка. Их основная цель - выявить и представить в системе структуры и механизмы, лежащие в основе понимания текста. Анализируя объект понимания - текст, они разработали теорию концептуальной зависимости. В ее основе лежит представление текста в виде концептуальных зависимостей. Процедура понимания, с точки зрения авторов этой теории, заключается в сопоставлении каждому предложению из текста некоторой концептуальной "смысловой" структуры. На основе этой теоретической модели разработано несколько компьютерных вариантов понимающих систем - SAM , FRUMP и др.

Основная сложность при понимании текста для систем со встроенной моделью предметной области заключается в том, чтобы соотнести входное сообщение (запрос) именно с той, отображенной в памяти ПС ситуацией предметной области, которую имел в виду пользователь, обращаясь с запросом к системе. Определить же при чтении текста, какую именно ситуацию предметной области имел в виду автор (пользователь) в момент написания текста можно только в том случае, если понимающей системе помимо знаний автора о предметной области известны и его текущие задачи, цели, определившие направление его внимания на ту или иную конкретную ситуацию. В противном случае точное понимание прочитанного оказывается невозможным.

В связи с этим для адекватного понимания ПС должна иметь представление о том, какую именно ситуацию предметной области имел в виду автор при написании понимаемого в данный момент системой текста. Описание этой ситуации и является задачей, целью его деятельности в момент написания текста. Иначе говоря, можно утверждать, что именно предвосхищаемая, представляемая пишущим ситуация является целью его деятельности по написанию текста. Указанное определение цели соответствует данным современной психологии. В частности, согласно точке зрения А.Н. Леонтьева, цель - это осознанный, представляемый человеком результат его деятельности. Это точка зрения получила дальнейшее развитие и теоретико-экспериментальное обоснование в цикле работ.

Таким путем, т.е. анализируя данные психологии понимания, специалисты, проектирующие ПС, пришли к выводу о необходимости введения в модель, составляющую ядро машинного понимания, еще одного компонента - знаний о целях автора понимаемого текста. Это сразу же сказалось на интерпретации самого термина "понимание". Г. Саймон указал на то, что значение этого понятия непосредственно зависит от задач, решаемых ПС. Но особенно конкретное и определенное значение "понимание" приобрело в работе Э.В. Попова "Общение с ЭВМ на естественном языке", связавшего понимание с целью. Согласно точке зрения этого исследователя, ЭВМ понимает смысл текста, если устанавливает его взаимосвязь с замыслом, целью автора данного текста. Понимание считается достигнутым, если каждое предложение текста идентифицируется с целью. В противном случае, если ЭВМ не установила связи читаемого с целью, понимания не наступает. Используя понятие "понимание" применительно к машине, мы будем считать, что последняя "поняла" образующие входной текст словарные выражения, если соотнесла каждое выражение с конкретным элементом предметной действительности, причем с элементом, входящим во фрагмент предметной области, выбор которого обусловлен целью понимания. Только соотнесенные с целью и фрагментом предметной области словарные выражения текста будем называть понятыми.

Эволюция развития ПС отражает стремление воссоздать средствами информатики и вычислительной техники функциональные особенности процессов понимания человека. В человеческой коммуникации понимание диалогично по своей природе, оно формируется в процессе общения, по крайней мере, двух субъектов - автора и адресата. Причем характер понимания сообщения адресатом (пользователем) в значительной мере определяется его целями и знаниями о предмете темой общения. Неудивительно поэтому, что сегодня при создании ПС значительное внимание уделяется представлению в них моделей Пользователя.

Модели пользователя необходимы для идентификации объектов, обсуждаемых партнерами по диалогу (системой и пользователем), для выявления подразумеваемых в запросе планов действий пользователя, а также скрытых препятствий к осуществлению этих планов. Именно так действует, например, вопросно-ответная система, описанная в работе Дж. Ф. Аллена и Р. Перро. Система моделирует работу служащего справочного бюро железнодорожного вокзала. Задача системы - выявить план поведения пассажира и выдать ему информацию, не только явно запрашиваемую, но и ту, которая может понадобиться для осуществления поездки на поезде (в частности, при запросе о времени отправления поезда система указывает и то, с какого пути он отправляется).

Как показала практика машинного перевода и создания понимающих систем, знаний о языке недостаточно для адекватного понимания: системы, основанные только на лингвистических моделях, не способны выявить денотаты языковых выражений. Система, адекватно понимающая текст, должна быть построена на кибернетическом принципе обратной связи: она может установить денотат текста, если сумеет "увязать" в единый замкнутый цикл цели автора и текста, предметную область, описываемую в тексте, и цели читателя (пользователя).

Высокая исполнительская дисциплина выполнения заданий требует точного понимания текста адресатом. Отсюда следует, что для достижения основной цели автор при порождении текста ориентируется на конкретного адресата, его знания о предметной области и знание языка. Цель порождения текста может разлагаться автором в упорядоченную последовательность более простых целей. Наличие этой последовательности определяет целевую структуру текста, расчленяя текст на сообщения и организуя предложения в связный текст.

Выводы к главе 4

Итак, объект понимания - текст, предназначенный для передачи информации от автора к адресату.

Соответственно задача понимания текста состоит в определении цели порождения текста и идентификации ситуации проблемной области, которая была выбрана в качестве предмета описания автором.

Что касается технической системы как посредника в интеллектуальной деятельности человека, то результатом понимания текста будет не предписанное действие, а информация, представленная в форме текста на естественном языке. Этот текст соответствует запросу (цели конечного пользователя).

Глава 5. Автоматизированная переработка текстов

5.1 Представление знаний

В процессе работы над созданием современных компьютерных систем, решающих интеллектуальных задач (в частности, понимания текстов на естественном языке), на первый план выдвигается проблема представления знаний.

Знание - это результат адекватного отражения действительности человеком в виде представлений, понятий, теорий, суждений. Применительно к компьютерной системе знание - это адекватное описание действительности, конкретной предметной области на естественном или искусственном языке.

На уровне представления знаний в компьютерной системе отражены как отдельные элементы знания, так и связи между ними. Уровень представления знаний отличается следующими особенностями: интерпретируемостью, наличием классифицирующих связей, наличием ситуативных отношений (например, одновременности хранения, совместимости знаний в машинной памяти). Кроме того, для уровня знаний характерны такие признаки, как наличие специальных процедур: обобщения, наполнения имеющихся в системе знаний и т.д.

Рассмотрение эволюции проблемы машинного понимания в искусственном интеллекте обнаруживает, что именно разные типы знаний становились краеугольным камнем, методологическим фундаментом компьютерных понимающих систем нескольких поколений. Если первые понимающие системы включали только знания о языке, на котором написаны подлежащие пониманию тексты, то современные понимающие системы включают еще и знания о предметной области, о которой идет речь в тексте, а также модели знаний и целей пользователя.

В зависимости от их вида знания представляются в словаре, семантической сети и базе данных, а также при помощи фреймов, продукций и т.п.

Словарь системы содержит морфологическую, синтаксическую и семантическую информацию, приписанную каждому слову русского языка.

Семантическая сеть представляет собой модель внешнего мира (предметной области, в которой работает система) и изображается в виде помеченного ориентированного графа.

База данных представляет собой массивы числовых данных или тексты, интересующие пользователей.

5.2 Автоматический анализ и синтез речи

Модели анализатора и синтезатора речи. Расширение применения ЭВМ для обработки информации вызывает растущую потребность взаимодействия человека с машиной в виде устной речи. Необходимым становится решение проблемы автоматической обработки речи, что включает в себя решение задач: синтеза речи, распознавания речи и верификации (распознавания) говорящего.

Перспективы практического использования человеко-машинной речевой связи весьма широки. Достаточно отметить, например, такой факт, что в среднем человек произносит и воспринимает десять звуков в секунду из фонетического алфавита емкостью около 60 звуков, в то время как при наборе данных на клавишном управляющем устройстве делается около пяти ударов в секунду, т.е. в два раза меньше, чем при произнесении. Естественно, эргономические показатели такой работы не идут ни в какое сравнение с речевой связью.

Кроме этого, речевой способ общения в человеко-машинных системах имеет следующие преимущества:

- превращает ЭВМ из "великого немого" в говорящую и воспринимающую речь систему;

- обеспечивает естественность общения и разгрузку зрительного канала;

- устраняет ручные манипуляции при вводе информации и увеличивает скорость ввода;

- открывает возможность свободного перемещения в пространстве при общении с системой и т.д.

Успешное решение задач по созданию систем речевого общения человека и машины требует наличия определенного уровня развития таких научных дисциплин, как теория информации, системное моделирование, обработка сигналов, теория вычислительных систем, вычислительная техника, лингвистика и, в частности, фонетика.

Классификация систем речевого общения. Непосредственное оперативное человеко-машинное взаимодействие в определяющей степени связано в перспективе с внедрением средств ввода в ЭВМ и вывода речевых сигналов, так называемых речевых дисплеев. Речевой дисплей - это тип внешнего устройства ЭВМ, дающий возможность речевого взаимодействия человека и машины на естественном языке.

Построение систем распознавания речи базируется на моделировании работы органов речи и слуха человека. Речевой дисплей включает анализатор речи, синтезатор речи и устройства сопряжения.

Анализатор речи представляет собой устройство автоматического распознавания речевых сигналов и их кодирования для ввода в ЭВМ. По функциональному назначению устройство делится на два блока - анализатор и классификатор.

Анализатор предназначен для введения фонетических признаков речевых сигналов, описывающих произнесенную команду.

В классификаторе осуществляется сравнение эталонов, записанных в процессе обучения, с распознаваемой командой. Задачей анализатора речи является воссоздание совокупности функционалов по принимаемому акустическому сигналу.

Синтезатор речи представляет собой устройство автоматического синтеза устной речи непосредственно по тексту, чем достигается возможность речевого вывода информации из ЭВМ. Синтез речи осуществляется на основе моделирования процессов речеобразования. По функциональному назначению устройство делится на четыре блока: блок преобразования текста и блоки моделирования интонационных, артикуляторных и акустических процессов речеобразования.

Текстовая информация от источника (ЭВМ, фотоввода) вводится определенными предложениями (фразами) в буферное запоминающее устройство. На основе анализа поступающего пакета автоматически генерируются электрические сигналы интонации и сигналы, имитирующие артикуляционные речедвижения.

По полученным сигналам рассчитываются акустические характеристики речевого тракта и, в конечном итоге, на выходе вырабатывается синтезированный речевой сигнал.

Система речевого общения состоит из следующих основных блоков:

- выделения из исходного сообщения признаков, используемых для распознавания речи;

- преобразования (на основе выделенных признаков) исходного сообщение в последовательность фонем;

- сегментации последовательности фонем (выделение слов);

- анализа и синтеза текста;

- преобразования (текста) ответа в последовательность фонем;

- звукового воспроизведения синтезированного ответа.

Исходное сообщение в виде непрерывного звукового сигнала поступает в анализатор. Этот сигнал преобразуется в последовательность дискретных сигналов и в последовательность фонем.

Из последовательности фонем сегментацией выделяются слова. Эта задача решается путем сравнения текущей последовательности фонем со словарем, где записаны эталоны слов в фонетической транскрипции.

Последовательность выделенных слов поступает в систему анализа и синтеза текста, из которой ответ в виде текста предложения преобразуется и последовательность фонем. Задача синтезатора - формирование искусственной речи на основе последовательности фонем.

Процедуры анализа и синтеза текста (рис. 1), реализованные в обрабатывающих алгоритмах и программах, представляют собой следующее: морфологический, синтаксический и семантический анализ; семантическую интерпретацию и формирование ответа; семантический, синтаксический и морфологический синтез; доступ к словарю, семантической сети и базе данных.

Морфологический анализ (МА) выполняет распознающую роль на входе системы. Функцией морфологического анализа являются выделение основы слова и определение морфологической информации, приписываемой этой основе по таблицам аффиксов и словарю.

Рис. 1

В результате работы МА получается информация, поступающая на вход алгоритма синтаксического анализа (СиА), который осуществляет перебор возможных, с точки зрения синтаксиса, омонимичных способов разбиения всех вариантов разбора синтаксических отношений. СиА служит для установления синтаксической взаимосвязи между словами входного предложения (запроса).

Семантический анализ служит для построения семантического графа запроса, т.е. установления смысловой связи между основами слов синтаксической структуры.

Завершается процесс анализа сопоставлением семантического графа с моделью предметной области. При такой семантической интерпретации происходят сопоставление семантического графа с конкретной семантической сетью, получение содержательной информации на конкретной сети, выбор числовой информации из базы данных и обработка этой информации (суммирование, сравнение, вычисление процента и т.д.).

Синтаксический синтез (СиС) служит для перевода смысла некоторого высказывания, выраженного семантическим графом ответа, в предложение ограниченного русского языка. СиС необходим для сообщения смысла ответа пользователю. По полученному выходному предложению пользователь сможет определить правильность ответа.

Задача этапа морфологического синтеза (МC) - построение фраз естественного языка по полученному упорядоченному набору основ слов c приписанной им информацией.

Построение любой системы, включающей в качестве обоих задач анализ и синтез текстов определенной тематики, требует адекватного лингвистического обеспечения, или, другими словами, создание модели конкретного подъязыка.

5.3 Автоматизированные информационные системы

Практическим результатом обработки информации на различных языках (естественном или созданных человеком) может стать автоматизированная информационная система (АИС), предназначенная для накопления, поиска, обработки и выдачи информации различного рода. По целевому назначению их можно разделить на информационно-справочные (такие системы обеспечивают отбор и частичную подготовку информации для ее использования человеком) и информационно-советующие (эти системы подготавливают определенные предложения и рекомендации по управлению тем или иным процессом). Сам же процесс управления осуществляется не системой, а человеком.

Задачи, ставящиеся перед АИС, разнообразны (рис. 2).

Рис. 2

Информационные задачи:

- задачи ввода обеспечивают ввод форматированной и/или неформатированной информации, оперативно или по регламенту;

- задачи корректировки дают возможность вносить изменения в ранее введенную информацию.

Задачи выводам:

- информационно-справочные задачи выдают информацию по запросам (стандартным и нестандартным). Если запрос стандартный, то он имеет свой идентификатор в библиотеке запросов, что сокращает время решения задачи. Эти задачи решаются, как правило, в диалоговом режиме, но могут решаться и в отсроченном или регламентированном;

- учетно-статистические задачи формируют качественно новую информацию;

- информационно-расчетные задачи служат для автоматизации расчетов и моделирования процессов и ситуаций в системах управления.

Технологические задачи:

- задачи обеспечения функционирования отвечают за настройку всех компонент АИС на конкретное применение, контроль правильности функционирования и сопровождения системы;

- задачи развития совершенствуют и адаптируют АИС;

- в задачах обучения содержатся программы и обучающие курсы, ориентированные на определенные категории пользователей;

- задачи документирования используются для автоматического изготовления технической документации.

Информационно-поисковые системы (ИПС) являются основным звеном любой АИС. Они предназначены для поиска текстов в хранилищах по формальным характеристикам.

ИПС работает в два этапа: сбор и хранение информации, поиск и выдача информации потребителям.

Пертинентностью в ИПС называется соответствие текста документа фактической информационной потребности, а релевантностью (смысловой или формальной) - соответствие одного текста другому. Смысловая релевантность определяется смысловым соответствием текстов, а формальная - соответствием поисковых признаков.

Различные ИПС объединяют следующие задачи:

- анализ важности документов и их отбор;

- создание поискового образа документов;

- запись документов и поисковых образов документов на принятые в ИПС носители;

- хранение документов и поисковых образов документов (ПОД);

- выдача документов потребителям.

Документальные ИПС выдают адреса хранения поисковых образов, копия или оригиналы документов, содержащих требуемую информацию,

Фактографические ИПС выдают непосредственно требуемые фактически данные.

Логические ИПС (или информационно-логические системы) выполняют при необходимости логическую переработку информации.

Комплексные ИПС содержат отдельные элементы трех предыдущих типов.

Избирательное распределение информации производится по постоянным информационным запросам. Поиск осуществляется в массиве вновь поступающих документов.

Ретроспективный информационный поиск выполняется по разовым запросам и состоит в отыскании документов, в которых содержатся сведения по определенному вопросу.

Примером ИП Языка предкоординатного типа могут служить различные классификационные системы (алфавитно-предметные, иерархические ).

Наиболее распространены ИПЯ посткоординатного типа, использующие дескрипторный язык.

Критерием соответствия называется совокупность правил, по которым определяется степень формального соответствия между ПОД и ПП.

Критерий соответствия (КрС), выраженный через логические схемы, представляет собой любое сочетание логических операций, И, ИЛИ, НЕ.

КрС, выраженные через аналитические функции, могут быть статистические и векторные.

КрС, выраженный через "весовые" функции, определяет релевантность документа по сумме "весовых" коэффициентов совпавших терминов запроса и документа (не менее установленной пороговой величины).

Автоматическое индексирование предусматривает автоматизацию процессов свертывания информации и перевод ее с естественного языка на ИПЯ. Степень автоматизации определяется уровнем автоматизации процесса индексирования в ИПС.

Автоматическая классификация массивов подразумевает формирование массивов по заранее заданным специальным признакам (меткам), содержащимся в ПОД, порождение кланов документов на основе ассоциативных связей между терминами, входящими в ПОД, и т.п.

Автоматический поиск определяется уровнем автоматизации сортировки данных и сравнения ПОД с ПП.

Автоматическая выдача регулирует вид выдаваемой информации -номера документов, библиографии или описания, ПОД и т.п.

Автоматическое управление характеризуется автоматизацией процессов обратной связи и смены режимов поиска в ИПС.

5.4 Машинный перевод

Методы подхода к решению этой задачи можно подразделить на два типа: дедуктивный и индуктивный. Первый основан на формальном описании семантики с использованием модели "текст - смысл - текст", второй - на переводных соответствиях с использованием модели "текст - текст".

При первом подходе стремятся получить полностью автоматизированный высококачественный машинный перевод с максимальным использованием семантики языка. Общую схему можно представить себе как переход от независимого анализа и синтеза морфологического, синтаксического и семантического уровней к смыслу текста.

Основой системы является, таким образом, переход от поверхностной структуры к глубинной, от текста к его смыслу. Этот переход осуществляется с использованием словарей входного и выходного языков, а также грамматических правил.

На первый блок поступает входная фраза, на вход каждого последующего - результат работы предыдущего, на выходе последнего блока образуется перевод входной фразы. Первая процедура выдает лексемы с приписанными морфологическими и словарными характеристиками, вторая образует поверхностно-синтаксическое дерево, третья формирует глубинно-синтаксическое дерево, четвертая подключается только при наличии "несовместимостей" в предыдущем представлении. В результате на выходе этапа анализа возникает базисная структура, по синтаксическим свойствам более приближенная к выходной. Пятая процедура заменяет входные лексемы соответствующими выходными эквивалентами, шестая формирует глубинно-синтаксическое представление выходной фразы, седьмая образует выходное поверхностно-синтаксическое представление, восьмая устанавливает линейный порядок лексем, девятая формирует выходную фразу.

Второй подход рассматривает текст как избыточную многоуровневую систему, на верхних ярусах которой находятся наиболее информативные лексические единицы, на нижних - малоинформативные. Речь идет о бинарном переводе, при построении которого структура входного и выходного языков объединяется в суперструктуру. Перевод производится следующим образом: лексический перевод при помощи автоматического словаря, семантический перевод, опирающийся на алгоритмы устранения многозначности, составление грамматических алгоритмов.

Такая модель перевода имеет два состояния. Состояние генерации обеспечивает настройку модели на условия ее работы: накопление словарей, алгоритмов анализа и синтеза с ориентировкой на конкретную предметную область. В состоянии трансляции система собственно работает над осуществлением перевода.

Различают эквивалентные, вариантные и трансформационные (подключающие сложные алгоритмы анализа, синтеза и межъязыковых преобразований) соответствия (переводной элемент). Предметный элемент образует исходную структуру компонента, на которую накладывается сеть переводного элемента. Динамический компонент отвечает за конструирование выходного текста. В режиме генерации предметный компонент опережает динамический.

Основной единицей перевода является предложение, однако границы перевода при необходимости могут сужаться или расширяться.

Выводы к главе 5

Построение любой системы, включающей в качестве обоих задач анализ и синтез текстов определенной тематики, требует адекватного лингвистического обеспечения, или, другими словами, создание модели конкретного подъязыка.

В модели различаются предметный и динамический компоненты. Предметный отвечает на вопрос, что должно быть переведено, динамический - как осуществить перевод. Предметный компонент включает лексику, грамматику и семантику, заданные перечислением (предметный элемент) и переводные соответствия, заданные также перечислением.

Глава 6. Экспертные системы

Результаты многолетних исследований в области искусственного интеллекта, включая компьютерную лингвистику, нашли наиболее полное практическое применение в экспертных системах. Под экспертной системой понимают автоматизированную систему, в которой накоплен человеческий опыт в определенной области, например, в политике, медицине, проектных работах, банковском деле и т.п.

Экспертные системы являются человеко-машинными системами, интеллектуальное ядро которых составляют средства машинного восприятия, распознавания и понимания речи из моделей естественного языка с моделями предметной области. Любая экспертная система включает базу знаний, состоящую из правил (продукций), каждая из которых по своей сути есть просто программа из одного оператора вида "если (условие), то (действие)”.

Последовательностью таких элементарных программ определяется набор разрешенных преобразований от начального состояния до окончательного решения поставленной задачи. Правила с помощью специальной программы могут добавляться, изменяться и исключаться. Каждая продукция представлена отдельным модулем, который может аппаратно исполняться отдельным процессором. Все продукции объединены управляющей структурой.

В экспертную систему входят эксперты и ряд программ. Знания экспертов вводятся в экспертную систему и используются пользователями для экспертизы в данной предметной области.

Вопросно-ответная программа обеспечивает возможность взаимодействия о пользователем на естественном языке. Программа накопления знаний позволяет пользователю пополнять и модифицировать базу знаний, объясняющая программа - проверять ответ системы. Программа-интерпретатор интерпретирует продукции в терминах предметной области. Исполнительная программа обеспечивает работу всей системы.

Для большинства применений экспертных систем типично следующее:

- выбор предметной области, где важная роль отводится эвристическим подходам;

- выбор трудноформализуемых задач, требующих для своего решения такого количества информации, что полная ее обработка трудоемка и утомительна для человека.

Одним из самых трудоемких и длительных процессов при создании экспертных систем является процесс представления знаний и построение базы знаний. Эта трудоемкость, в частности, связана с необходимостью структурирования знаний для организации быстрого поиска.

При структурировании знаний отделяют факты из области применения системы (декларативные знания) от методов решения проблемы (процедурные знания).

Декларативные знания поступают в систему от экспертов в данной области в включают в себя аксиомы или правила, относящиеся к этим фактам. Для представления декларативных знаний применяются в качестве языков системы классификаций, семантические сети, фреймы и т.д. Объединяет их возможность отражать функциональные, пространственные и временные связи между объектами реальной действительности. Терминальными элементами в этих языках выступают такие семантические категории, как "причина - следствие", "правило - исключение", "множество - подмножество", "род - вид", "общее - частное", "часть - целое" и т.д.

Возникает проблема ведения базы знаний. Необходимость изменения базы знаний с течением времени очевидна. Она может быть вызвана устареванием существующих знаний, появлением новых или дополнительных сведений. Согласование знаний и отладка базы знаний выполняется на основе объяснительных механизмов экспертных систем в рамках решений общей проблемы, получившей название "инженерии знаний". При этом учитывается возможность 'согласования неточных и противоречащих знаний, способность системы выдавать не единственное решение, а множество решений, отражающее различные возможности при оценивании опорных ситуаций.


Подобные документы

  • История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.

    реферат [371,0 K], добавлен 13.02.2011

  • Перевод - процесс создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке, требования к обеспечению его эквивалентности. Машинные технологии перевода; характеристика систем Translation Memory.

    презентация [347,8 K], добавлен 06.01.2014

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Понятие искусственного интеллекта. Представление знаний и разработка систем, основанных на знаниях. Распознавание образов и машинный перевод. Нейрокомпьютеры и сети. Экспертные системы, их структура,классификация и инструментальные средства построения.

    курсовая работа [922,1 K], добавлен 12.01.2009

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.

    контрольная работа [274,1 K], добавлен 10.06.2010

  • Принцип работы нейросетей и модели синтеза. Ключевые моменты проблемы распознавания речи. Система распознавания речи как самообучающаяся система. Описание системы: ввод звука, наложение первичных признаков на вход нейросети, модель и обучение нейросети.

    курсовая работа [215,2 K], добавлен 19.10.2010

  • Анализ и формализация задачи моделирования: построение концептуальной модели, ее формализация в виде Q-схемы. Построение имитационной модели: создание блок-схемы, представление базовой исходной имитационной модели. Исследование экономических процессов.

    контрольная работа [156,0 K], добавлен 21.11.2010

  • Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.

    лабораторная работа [220,9 K], добавлен 10.03.2007

  • Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.

    реферат [3,2 M], добавлен 22.04.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.