Разработка алгоритма и программы автоматической обработки материалов для информационного ресурса

Обзор электронного документа, его информационное содержание и виды. Разработка программы автоматической обработки текстовых материалов: выбор сред разработки, извлечение понятийной области, получение стека суждений. Стандарты кодирования информации.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.05.2014
Размер файла 3,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Наиболее известными примерами текстовых процессоров являются Microsoft Word и OpenOffice.org Writer.

Текстовыми процессорами в 1970-е -- 1980-е годы называли предназначенные для набора и печати текстов машины индивидуального и офисного использования, состоящие из клавиатуры, встроенного компьютера для простейшего редактирования текста, а также электрического печатного устройства. Позднее наименование «текстовый процессор» стало использоваться для компьютерных программ, предназначенных для аналогичного использования.

Программы для работы с текстами можно разделить на простые текстовые процессоры, мощные текстовые процессоры и издательские системы.

Текстовый редактор -- самостоятельная компьютерная программа или компонент программного комплекса (например, редактор исходного кода интегрированной среды разработки или окно ввода в браузере), предназначенная для создания и изменения текстовых данных вообще и текстовых файлов в частности.

Построчный (строковый) текстовый редактор ( line editor) работает с текстом как последовательностью пронумерованных строк, выполняя операции над текстом в указанных строках. Примером такого редактора может быть edlin, входивший в состав MS-DOS. Контекстный (строковый) редактор (context editor), примером которого может быть ECCE ( Edinburgh Compatible Context Editor), выполняет операции над текстом в текущей позиции.

Экранный текстовый редактор позволяет пользователю перемещать курсор в тексте с помощью клавиш или других устройств ввода.

Текстовые редакторы предназначены для работы с текстовыми файлами в интерактивном режиме. Они позволяют просматривать содержимое текстовых файлов и производить над ними различные действия вставку, удаление и копирование текста, контекстный поиск и замену, сортировку строк, просмотр кодов символов и конвертацию кодировок, печать и т. п.

Рассмотрим основные виды редакторов.

Notepad -- простой текстовый редактор, являющийся частью операционных систем Microsoft Windows, начиная с вышедшей в 1985 году Windows 1.0, и Windows NT. Также "Блокнот" присутствует в операционной системе Windows 8.

Блокнот использует оконный класс EDIT. Вплоть до вышедшей в 2000 году Windows Me поддерживались только самые базовые функции, многие функции были доступны только из меню, а максимальный размер файла составлял 64 килобайта (предел класса EDIT). В настоящее время редактор поддерживает контекстную замену, горячие клавиши, снят предел в 64 Кбайт и добавлена поддержка Юникода.

Кроме Windows, Блокнот способен выполняться также в ReactOS и Wine.

Альтернативой Блокноту является текстовый редактор MS-DOS (EDIT.COM), который можно вызвать из командной строки в виде «edit».

Блокнот не способен корректно работать с файлами в текстовом формате Unix, где символом переноса является байт с кодом 10, в отличие от Windows и DOS, где используются байты 13, 10.

Существует множество бесплатных более функциональных программ, заменяющих стандартный Блокнот, например: Bred, AkelPad, BDV Notepad, EditPad Lite, TED Notepad, PSPad, Notepad++ и Notepad2. Они были особенно полезны в системах Windows версий 4.x, в которых функциональность Блокнота предельно ограничена.

Следующим рассмотрим текстовый процессор WordPad. WordPad -- текстовый процессор, входящий в состав Microsoft Windows, начиная с Windows 95. Обладает большим набором инструментов, чем Блокнот, но не дотягивает до уровня полноценного текстового процессора вроде Microsoft Word или OpenOffice.org Writer. WordPad представляет собой эволюционировавшую версию программы Windows Write из Windows 1.0.

Поддерживает форматирование и печать текста, но не имеет ряда таких важных инструментов как таблицы и средств проверки орфографии.

Предшественник WordPad, редактор Write, сохранял файлы в собственном формате .wri. Ранние версии WordPad также позволяли открывать файлы в этом формате, позже поддержка .wri была убрана.

Собственного формата файлов WordPad не имеет. Фактически основным форматом, используемым этим редактором, является формат RTF. Кроме того, вплоть до Windows XP (включительно) WordPad поддерживал также формат .doc (Word 6.0 -- 2003), однако лишь в той степени, в какой позволяли возможности этого редактора. В версии для Windows XP возможность сохранения файлов в формате .doc отсутствует, а в версии для Windows Vista нет возможности и открывать подобные файлы.

Версия WordPad входящая в состав Windows 7 поддерживает работу с новыми форматами документов -- Office Open XML (.docx) и OpenDocument (.odt).

Microsoft Word -- текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Выпускается корпорацией Microsoft в составе пакета Microsoft Office. Первая версия была написана Ричардом Броди (Richard Brodie) для IBM PC, использующих DOS, в 1983 году. Позднее выпускались версии для Apple Macintosh (1984), SCO UNIX и Microsoft Windows (1989). Текущей версией является Microsoft Office Word 2013 для Windows и Microsoft Office Word 2011 для Mac.

Microsoft Word является наиболее популярным из используемых в данный момент текстовых процессоров, что сделало его бинарный формат документа стандартом де-факто, и многие конкурирующие программы имеют поддержку совместимости с данным форматом. Расширение «.doc» на платформе IBM PC стало синонимом двоичного формата Word 97--2000. Фильтры экспорта и импорта в данный формат присутствуют в большинстве текстовых процессоров. Формат документа разных версий Word меняется, различия бывают довольно тонкими. Форматирование, нормально выглядящее в последней версии, может не отображаться в старых версиях программы, однако есть ограниченная возможность сохранения документа с потерей части форматирования для открытия в старых версиях продукта. Последняя версия MS Word 2007 «использует по умолчанию» формат, основанный на XML, -- Microsoft Office Open XML. Спецификации форматов файлов Word 97-2007 были опубликованы Microsoft в 2008 году. Ранее большая часть информации, нужной для работы с данным форматом, добывалась посредством обратного инжиниринга, поскольку основная её часть отсутствовала в открытом доступе или была доступна лишь ограниченному числу партнёров и контролирующих организаций.

Как и прочие приложения из Microsoft Office, Word может расширять свои возможности посредством использования встроенного макроязыка (сначала использовался WordBasic, с версии Word 97 применяется VBA -- Visual Basic для приложений). Однако это предоставляет широкие возможности для написания встраиваемых в документы вирусов (так называемые «макровирусы»).

В последних версия MS Office 2007 \ 2010 компания Microsoft использует стойкий алгоритм шифрования AES с 128-битным ключом. Формирование ключа происходит путем 50000 \ 100000 кратного применения SHA-1 хэш функции, что делает перебор паролей крайне медленным, и при использовании стойкого пароля шансы его подобрать близки к нулю.

Adobe Acrobat -- пакет программ, выпускаемый компанией Adobe Systems для создания и просмотра электронных публикаций в формате PDF. Он был создан в 1993 году. Существует несколько версий пакета, отличающихся возможностями: Adobe Acrobat Standard, Adobe Acrobat Professional, Adobe Acrobat Professional Extended (бывший Adobe Acrobat 3D) и Adobe Acrobat Elements. Разработка Adobe Acrobat Professional Extended прекращена, поддержка для Acrobat 9 Pro Extended продлится до 26 июня 2013 года, а для Acrobat 3D версии 8 -- до 29 мая 2012 года. Для просмотра и печати публикаций (без возможности редактирования) доступен бесплатный Adobe Reader. Десятая версия пакета программ Acrobat X вышла в 3-х редакциях: Acrobat X Standard, Acrobat X Pro и Acrobat X Suite. Acrobat Professional, начиная с версии 7.0, содержит в себе Adobe Live Cycle Designer. Acrobat Suite дополнительно содержит: Captivate (включая Media Encoder), Photoshop и Presenter. В версии XI Adobe Live Cycle Designer заменён более упрощённой программой -- Adobe Forms Central. С версии XI в линейке Acrobat прекращается дальнейшее развитие Acrobat Suite, пользователям которым нужны мультимедийные и коммуникационные функции предлагается приобрести Adobe eLearning Suite, который содержит в себе все программы входившие ранее в Acrobat Suite.

Foxit Reader -- бесплатное прикладное программное обеспечение, для просмотра электронных документов в стандарте PDF, для операционных систем: Windows, Windows Mobile, Linux, Android, iOS и Symbian. Программа создана как альтернатива пакету Adobe Reader, по сравнению с которым имеет меньший объём (15.7 Мб, против 37,2 Мб у Adobe Reader X), меньшую требовательность к ресурсам и более высокое быстродействие.

DjVuReader -- программа, предназначена для просмотра файлов в формате DjVu. Программа поддерживает два языка: русский и английский. Два языка включено в ее поддержку, так как она написана русскоговорящими разработчиками.

Поддержка просмотра как в однооконном так и в двухоконном режимах. Широкая настройка яркости и контрастности изображения, дает возможность подобрать оптимальное для глаз пользователя положение, при котором будет удобно и комфортно читать с экрана компьютера. Реализована полная индексация не только страниц но и содержания. Программа DjVuReader поддерживает копирование в буфер обмена как текста так и изображения. В программе DjVuReader появилась возможность открывать все вкладки в одном окне -- не нужно держать в трее множество копий программ. Данная поддержка реализована так же как и в современных браузерах, которые уже давно поддерживают данную функцию.

Программная часть продукта DjVuReader начинается с того, что данный проект был полностью написан в среде разработки Borland C Builder 6. Как заверяют разработчики они писали программу для себя, так как файлы в формате DjVu удобны в хранении, их никто никогда не взламывает и места они занимают не много. При написании программы DjVuReader за основу была взята другая программа, которая базировалась на операционной системе Linux, а именно -- DjVuLibre 3.5.12, из которой был взят исходный код, распространяющийся бесплатно. После этого была построена DLL модель под VC-7 и уже написана программа для устройств под управлением операционной системы Windows. С помощью программы DjVuReader любой пользователь может внедрить в файл с расширением DjVu собственное содержание, другими словами, разбить его как удобно. Однако данное дерево нельзя будет увидеть в аналогичных программах, которые позволяют просматривать файлы в формате DjVu.

Последней рассматриваемой программой, будет Microsoft Excel. Microsoft Excel -- программа для работы с электронными таблицами, созданная корпорацией Microsoft для Microsoft Windows, Windows NT и Mac OS. Она предоставляет возможности экономико-статистических расчетов, графические инструменты и, за исключением Excel 2008 под Mac OS X, язык макропрограммирования VBA (Visual Basic for Application). Microsoft Excel входит в состав Microsoft Office и на сегодняшний день Excel является одним из наиболее популярных приложений в мире. Microsoft Excel обладает широкой областью применения.

Рисунок 2.5 Области применения Microsoft Excel

В Microsoft Excel вплоть до 2003 версии включительно, использовался свой собственный бинарный формат файлов (BIFF) в качестве основного. Excel 2007 использует Microsoft Office Open XML в качестве своего основного формата.

Несмотря на то, что Excel 2007 поддерживает и направлен на использование новых XML-форматов в качестве основных, он по-прежнему совместим с традиционными бинарными форматами. Кроме того, большинство версий Microsoft Excel могут читать CSV, DBF, SYLK, DIF и другие форматы.

Microsoft Excel 2007, наряду с другими продуктами Microsoft Office 2007, вводит множество новых форматов файлов. Они являются частью Office Open XML (OOXML) спецификации .API позволяет открывать таблицы Excel в ряде других приложений. Это включает в себя открытие документов Excel на веб-страницах с помощью ActiveX или таких плагинов, как Adobe Flash Player. Проект Apache POI представляет Java-библиотеки для чтения и записи электронных таблиц Excel. Также предпринимались попытки копировать таблицы Excel в веб-приложения с использованием разделённых запятыми значений (CSV).

Глава 3. Семантика электронных документов

3.1 Единицы языка

Единица языка -- элемент системы языка, неразложимый в рамках определённого уровня членения текста и противопоставленный другим единицам в подсистеме языка, соответствующей этому уровню. Может быть разложима на единицы низшего уровня.

В отношении разложимости различают простые и сложные единицы: простые абсолютно неделимы (морфема как значимая единица, фонема); сложные делимы, однако деление обязательно обнаруживает единицы низшего языкового уровня. Единицы языка делятся по признаку звуковой оболочки.

Рисунок 3.1. Типы единиц языка по признаку звуковой оболочки

Единицы языка вступают друг с другом в отношения трёх типов:

· парадигматические;

· синтагматические;

· иерархические (менее сложные единицы низших уровней входят в единицы высших).

Отношения первых двух типов возможны лишь между единицами, относящимися к одному уровню.

Также в семантике существует понятие парадигмы. Парадигма -- словоизменительная парадигма -- в лингвистике список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно представлена в виде таблицы.

Обычно парадигмы упорядочены в некотором традиционном порядке граммем, например, парадигма русского склонения записывается в порядке падежей.

Таблица 3.1 Порядок падежей русского языка

Падеж

Вопрос

Пример

Именительный

Кто? Что?

Семантика

Родительный

Кого? Чего?

Семантики

Дательный

Кому? Чему?

Семантике

Винительный

Кого? Что?

Семантика

Творительный

Кем? Чем?

Семантикой

Предложный

О ком? О Чём?

О семантике

Парадигма личного спряжения в европейских языках записывается обычно в порядке «иду -идёшь -идёт» (и соответственно лица называются первым, вторым и третьим), а, например, в арабском языке порядок обратный.

Существуют морфологические теории, считающие именно парадигмы центральным понятием морфологии, а членение слова на морфемы -- факультативным или вторичным.

Синтагма -- совокупность нескольких слов, объединённых по принципу семантико-грамматически-фонетической сочетаемости, единица синтагматики. Объём конкретной синтагмы определяется не только реальным употреблением слов в связке, но и самой сочетаемостью -- возможностью объединения предметов, признаков и процессов окружающей действительности.

Минимальной длиной синтагмы следует считать простые словосочетания, однако размер их может достигать целой фразы, поэтому понятия «синтагма» и «словосочетание» не всегда совпадают.

Несколько другое понимание термина обнаруживается в фонетике, где синтагмой именуется относительно законченный по смыслу отрезок речевой цепи, границы которого определяются только просодическими средствами. В данном случае, синтагма -- фонетическое единство, выражающее единое смысловое целое в процессе речи-мысли и могущее состоять как из одной ритмической группы, так и из целого ряда их.

3.2 Информационная семантика

Информационная семантика - это направление в моделировании смысла фраз на естественном языке, основанное на анализе количества переданной информации.

Естественный язык (ЕЯ) представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения.

Жизненно полезный опыт животных сохраняется в накопленном объеме интуитивного восприятия, в зрительных и слуховых образах. Человек сохраняет намного больший объем информации, причем не только в виде расплывчатых картин прошлого, но и в дискретных конструкциях естественного языка. Известно, что несмотря на огромный объем информации, поступающей на органы чувств, усваивается и остается в памяти человека только ее малая часть. По измерениям нейрофизиологов усваивается в среднем около 30 бит в секунду или 100-200 слов в минуту (около 7 бит абстрактной информации и около 60 бит образной информации).

ЕЯ выполняет две главные функции: служит средством коммуникации и одновременно является средством моделирования явлений окружающего мира. Эта вторая функция языка осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в дискретном виде, что обеспечивает защиту от искажений. Образная часть информации нанизывается на цепочки букв и слов ЕЯ и образует хронологически развивающийся гипертекст.

Полноценное понимание ЕЯ достигается вместе с созреванием человека, когда его суммарный лингвистический опыт (СЛО) достигает десять в десятой степени бит (около 200 миллионов слов). До последнего времени не было устройств, способных оперировать с такими большими объемами информации. Современная компьютерная техника подошла к рубежу, за которым открываются принципиально новые возможности работы с ЕЯ. На повестке дня стоит решение проблемы обеспечения полноценного интерфейса человека с компьютером и начала эры партнерства человека с компьютерными системами. Смысл фраз ЕЯ может имеет двоякое толкование.

С одной стороны, можно считать осмысленными те фразы, которые связаны с поведением и целями носителя языка, а с другой стороны, понятие смысла связывается с информацией, с моделированием внешнего мира и взаимодействия с ним и в передаче информации. Первая концепция смысла носит преходящий характер, меняется в зависимости от ситуации и поведения индивидуума, и она является связана с употреблением ЕЯ, а не с его неотъемлемыми характеристиками. Эту часть смысла целесообразно не связывать с семантикой языка, а относить ее к прагматике. Ее можно называть интересом. Вторая интерпретация семантики представляет предмет изучения теоретической лингвистики.

Таким образом, объектом семантических исследований является информационная система, позволяющая накапливать опыт и моделировать в языковой форме поведение человека. Поэтому конкретная семантика, изучающая смысловое содержание слов и фраз ЕЯ, должна опираться на статистические методы. В 1960 г. Е. Делавней предложил термин. ''Статистическая семантика'' и определил ее как статистическое изучение смысла слов по их частотности и порядку следования. Этот термин вошел в энциклопедию. Познавательная (информационная) функция ЕЯ становится главным предметом семантических исследований. Статистический подход предполагает относительный характер смысловых отношений в зависимости от СЛО человечества, индивидуумов или текстов отдельных документов. Соответственно можно говорить о теоретической семантике языка, о семантике языка индивидуальных носителей языка и о семантике языка книг и документов.

Традиционная теоретическая лингвистика изучает формальные системы смысловых связей, выработанные человечеством, в то время как конкретное наполнение смысловых связей остается за рамками этой дисциплины. Только за последнее десятилетие появилась техническая возможность изучать конкретное наполнения СЛО и возникающие в нем связи - конкретную семантику. СЛО человека формируется в процессе взаимодействия с окружающим миром. Человек живет в мире, который постоянно, но относительно медленно, изменяется. Поэтому можно предположить, что статистические характеристики СЛО по мере накопления опыта становятся все более устойчивыми и все более концентрируют жизненно важную информацию.

В математической формулировке накопление СЛО можно рассматривать как стационарный случайный процесс, с частотами событий, которые стремятся к некоторым переделам. Эти гипотетические пределы определяют генеральную совокупность, характеризующую индивидуума, а СЛО индивидуума в каждый момент времени можно рассматривать как накапливаемый выборочный материал. В первом приближении удобно пренебречь дискурсом и предположить, что предложения и фразы следуют в СЛО статистически независимо. Тогда СЛО представляет выборку из множества независимых реализаций предложений или фраз ЕЯ.

В информационном подходе к анализу текстов совершенно случайный текст связывается с произвольной ничего не значащей информацией ("статистическим шумом"). Значимую информацию несут закономерности в чередовании букв и слов в тексте. При отсутствии априорной информации единственный способ идентификации этих закономерностей состоит в регистрации повторений фрагментов текста в СЛО. Каждое априори достаточно маловероятное повторение фрагмента текста в корпусе несет информацию о закономерностях в текстах ЕЯ и о закономерностях в опыте взаимодействия человека с окружением. Для оценки вероятности повторения фрагментов текста следует ввести Н0-гипотезу об отсутствии закономерностей, то есть о случайном следовании слов в тексте. Повторение некоторых фрагментов в корпусе может быть настолько маловероятным, что его можно считать не случайным, а специально предусмотренным.

В рамках информационной концепции смысл каждой фразы, каждого предложения и документа определяется лишь только на фоне предыдущего (или объемлющего) текста и измеряется количеством новой информации, которую этот фрагмент несет. Рассмотрим задачу излечения терминов из научных документов. Пусть для статистического выявления смысла привлекаются контрастные фоновые тексты.

Пусть X - текст изучаемого документа.

Пусть R - достаточно полный корпус текстов из области науки, содержащей X .

Пусть T - достаточно полный корпус фоновых общенаучных или общеязыковых документов.

Тогда слово или фраза х из X считается термином, если x содержится в R, но x не содержится в T .

Слово или фраза х из Х не считается термином, если х содержится в Т.

Слово или фраза х из X считается авторским выражением (авторским клише), если x содержится в T , но x не содержится в R.

Выделение смысловых областей текста, одна из задач семантики. В рассматриваемом проекте, используется так называемая семантика научных публикаций. Научную терминологию обычно выделяют с опорой на имеющиеся специальные словари. Для автоматического извлечения терминов можно использовать разницу частот слов и фраз в текстах выбранной узкой специальности на фоне текстов более широких областей ("вычитание частот", "контрастный метод").

Рисунок 3.2 Извлечения смысловой области

Комбинация этих методов дает возможность эффективно извлекать также многословную терминологию. Однако, этот способ выделения терминов эффективен только при обработке всех или большинства общепринятых в выбранной области науки источников. Поэтому фоновые тексты должны включать достаточно большие корпусы как общенаучных, так и общелитературных текстов. Повторение пар слов в статьях и книгах на ЕЯ априори достаточно маловероятно. Поэтому каждую повторяющуюся пару слов можно считать структурным элементом и использовать его для анализа смысла. Анализ пар с успехом используется в компьютерных системах для выделения терминов и анализа смысла текстов. Фактически извлекаемая область может носить название семантического поля, а объединяющим фактором всех словоформ, будет специализация исходного текста.

3.3 Семантическое поле

Семантическое поле, термин, применяемый в лингвистике чаще всего для обозначения совокупности языковых единиц, объединенных каким-то общим (интегральным) семантическим признаком; иными словами - имеющих некоторый общий нетривиальный компонент значения. Первоначально в роли таких лексических единиц рассматривали единицы лексического уровня - слова; позже в лингвистических трудах появились описания семантических полей, включающих также словосочетания и предложения.

Одним из классических примеров семантического поля может служить поле цветообозначений, состоящее из нескольких цветовых рядов (красный - розовый - розоватый - малиновый; синий - голубой - голубоватый - бирюзовый и т.д.): общим семантическим компонентом здесь является 'цвет'.

Семантическое поле обладает следующими основными свойствами:

· Семантическое поле интуитивно понятно носителю языка и обладает для него психологической реальностью.

· Семантическое поле автономно и может быть выделено как самостоятельная подсистема языка.

· Единицы семантического поля связаны теми или иными системными семантическими отношениями.

· Каждое семантическое поле связано с другими семантическими полями языка и в совокупности с ними образует языковую систему.

В основе теории семантических полей лежит представление о существовании в языке некоторых семантических групп и о возможности вхождения языковых единиц в одну или несколько таких групп. В частности, словарный состав языка (лексика) может быть представлен как набор отдельных групп слов, объединенных различными отношениями: синонимическими (хвастать - похваляться), антонимическими (говорить - молчать) и т.п.

Элементы отдельного семантического поля связаны регулярными и системными отношениями, и, следовательно, все слова поля взаимно противопоставлены друг другу. Семантические поля могут пересекаться или полностью входить одно в другое. Значение каждого слова наиболее полно определяется только в том случае, если известны значения других слов из того же поля. Сравним два цветовых ряда красный - розовый и красный - розовый - розоватый. Если ориентироваться только на первый цветовой ряд, то несколько разных цветовых оттенков могут быть обозначены одной той лексемой розовый. Второй цветовой ряд дает нам более детальное членение оттенков цвета, т.е. те же цветовые оттенки будут соотнесены уже с двумя лексемами - розовый и розоватый.

Отдельная языковая единица может иметь несколько значений и, следовательно, может быть отнесена к разным семантическим полям. Например, прилагательное красный может входить в семантическое поле цветообозначений и одновременно в поле, единицы которого объединены обобщенным значением 'революционный'. Связи между единицами отдельного семантического поля могут различаться по «широте» и специфичности.

Наиболее общие типы связей - это связи парадигматического типа (синонимические, антонимические, родовидовые и др.).

Например, группа слов дерево, ветка, ствол, лист и т.д. может формировать как самостоятельное семантическое поле, объединенное отношением «часть - целое», так и входить в состав семантического поля растений.

В этом случае лексема дерево будет служить гиперонимом (родовым понятием) для таких лексем, как, например, береза, дуб, пальма и т.д.

Семантическое поле глаголов речи может быть представлено в виде объединения синонимических рядов (разговаривать - беседовать - общаться - ...; ругать - бранить - критиковать...; дразнить - высмеивать - вышучивать - ...) и т.д.

Примером минимального семантического поля парадигматического типа может служить синонимическая группа, например некоторая группа тех же глаголов речи. Это поле образуют глаголы говорить, рассказывать, болтать, трепаться и др. Элементы семантического поля глаголов речи объединены интегральным семантическим признаком 'говорения', но их значение не тождественно. Единицы этого семантического поля различаются дифференциальными признаками, например 'взаимное сообщение' (разговаривать), 'одностороннее сообщение' (сообщать, докладывать). Кроме того, они различаются стилистическими, узуальными, деривационными и коннотативными компонентами значения. Например, глагол ругать, кроме семы 'говорения', обладает также дополнительным коннотативным значением- отрицательной экспрессивностью.

Общий семантический признак, объединяющий элементы конкретного семантического поля, в других семантических полях того же языка может выступать как дифференциальный. Например, семантическое поле 'глаголов коммуникации' включит в себя поле глаголов речи наряду с такими лексемами, как телеграфировать, написать и др. Интегральным семантическим признаком для этого поля будет признак 'передачи информации', а 'канал передачи информации' - устный, письменный и др. - выступит в роли дифференциального признака.

Для выявления и описания семантических полей нередко используются методы компонентного анализа и ассоциативного эксперимента. Группы слов, полученные в результате ассоциативного эксперимента, носят название ассоциативных полей.

Сам термин 'семантическое поле' в настоящее время все чаще заменяется более узкими лингвистическими терминами: лексическое поле, синонимический ряд, лексико-семантическое поле и т.п. Каждый из этих терминов более четко задает тип языковых единиц, входящих в поле и/или тип связи между ними. Тем не менее во многих работах как выражение 'семантическое поле', так и более специализированные обозначения употребляются как терминологические синонимы.

3.4 Семантика в поисковых системах

Поисковая система -- программно-аппаратный комплекс с веб- интерфейсом, предоставляющий возможность поиска информации в интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина -- комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

По данным компании Net Applications, в ноябре 2011 года использование поисковых систем распределялось следующим образом:

· Google -- 83,87 %;

· Yahoo! -- 6,20 %;

· Baidu -- 4,22 %;

· Bing -- 3,69 %;

· Yandex -- 1,7 %;

· Ask -- 0,57 %;

· AOL -- 0,36 %.

Поиск организованный поисковыми системами, фактически является информационным поиском. Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

· определение (уточнение) информационной потребности и формулировка информационного запроса;

· определение совокупности возможных держателей информационных массивов (источников);

· извлечение информации из выявленных информационных массивов;

· ознакомление с полученной информацией и оценка результатов поиска.

На данный момент существует несколько методов поиска информации. Одни используются в локальных поисковых системах (картотеки, внутримашинный поиск), другие в глобальных поисковых интернет системах.

Процесс поиска документов по чисто формальным признакам, указанным в запросе.

Для осуществления нужны следующие условия:

· Наличие у документа точного адреса

· Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

· Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Ещё один вид поиска - документальный поиск. Процесс нахождения в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

· Библиотечный, направленный на нахождение первичных документов.

· Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Следующий вид поиска - фактографический. Процесс поиска фактов, соответствующих информационному запросу.

К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

· Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

· Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Следующие методы являются более частными способами организации поиска.

Булевый поиск - это комбинация элементов, позволяющих включать и исключать из поисковых результатов документы, содержащие определенные слова. Это достигается с помощью булевых операторов and, not, or, near.

Булевый поиск представляет собой одну из самых простых поисковых программ сравнения. Ярким примером булевого поиска служит использование любой крупной поисковой системы (Google, Yahoo) со множеством слов. Это предполагает использование оператора And для поиска всех элементов. Например, при вводе запроса “семантический информационный поиск”, поиску подлежат все слова, соответствующие запросу. Все страницы, где есть слова: семантический, информационный и поиск, будут представлены в результатах.

Другой пример. Если пользователь хочет исключить из поиска один из элементов, например, “информационный поиск - семантический”, поисковый алгоритм воспримет это следующим образом: все релевантные результаты, имеющие слова: информационный и поиск, будут включены в результаты поиска, а вот страницы, на которых есть слово семантический, будут исключены.

Очень редко поисковая система не поддерживает булевый поиск. В основном, булевы операторы представлены во всех системах и функционируют автоматически.

Многие современные поисковые системы мира поддерживают поиск с использованием Wildcard-символов. Зачастую Wildcard-символы в виде астериска (*) или знака вопроса (?) используются для замены букв при написании.

Поиск с использованием Wildcard-символов предполагает поиск элементов, которые подходят словам с пропущенной буквой, например, слова text или test можно искать следующим образом: с помощью te*t или te?t.

Последним рассмотри поиск построенный на применении принципов семантики. Семантический поиск - это процесс поиска документов по их смысловому содержанию.

Главные необходимые условия для его машинной реализации - это перевод содержания документов и запросов с естественного человеческого языка на информационно-поисковый язык, понятный машине, и составление на его базе поисковых образов документа и, в конечном итоге, точного запроса и составление поискового описания, в котором указывается дополнительное условие.

Принципиальная разница между адресным (повсеместно используемым сегодня) и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске -- с точки зрения содержания. Это означает, что при адресном поиске мы имеем некоторый экстракт документа (например индекс), хранящийся в базе, вместе с точным адресом на этот документ. И оперировать при таком поиске мы можем в любом случае только этими специально подготовленными экстрактами. При истинном содержательном поиске (семантическом поиске) мы оперируем всем содержимым документа для определения его полноценного смысла и контекста, и только после этой операции “понимания” - формируем представление о его релевантности запросу. Именно поэтому при семантическом поиске находится множество документов без указания их адресов. В этом принципиальное отличие от этого типа поиска каталогов и картотек, которые используются сегодня повсеместно.

Несмотря на то, что данный вид поиска будущего реализуется сегодня на стыке таких наук, как математика, программирование, лингвистика и психология, к сожалению, пока до сих пор отсутствует ясное и непротиворечивое понимание того, как должен реализовываться идеальный механизм семантического поиска, - все, что мы имеем на данный момент, это лишь его частные случаи.

Первая сложность возникает, когда семантический поиск начинают считать решением всевозможных задач - от современной системы поиска, где доминирует Google, до задач, которые нельзя решить вычислительным путем. Все еще более усложняется тем, что в настоящее время есть лишь несколько областей знания, где семантический поиск действительно справляется лучше -- это сложные запросы о выводах и рассуждениях о сложных системах данных.

Рисунок 3.3 Проблематика семантического поиска

Как видно из приведенных данных, Google легко справляется с основными видами запросов. К сожалению, автоматическая обработка естественного языка дает в этом лишь небольшое преимущество. Google даст верный ответ на вопрос о годе рождения Леонардо, не предоставляя никаких шансов усовершенствовать процесс поиска пониманием существительных и глаголов, которые вбивает пользователь в строку поиска.

Перед тем, как рассмотреть задачи, с которыми легко справляется семантический поиск, рассмотрим самые сложные задачи. Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического поиска бытовало мнение, что с его помощью мы сможем решать даже сверхсложные задачи, но, к сожалению это не так. Есть пределы того, что мы можем вычислить, и есть класс задач с огромным числом возможных решений.

Но есть также и пласт задач, с которыми семантический поиск справляется великолепно. Мы решали их при помощи тематической базы данных. Но не стоит забывать, что семантические технологии помогают нам отыскать тематическую информацию, рассредоточенную по всей сети - потому для нас нет ничего удивительного в том, что семантические поисковые системы превзойдут тематические запросы.

Ниже рассмотрены некоторые виды семантических машин, организовывающих поиск информации на русском языке.

Система Dialogus (http://www.dialogus.ru/) создана разработчиками переключателя раскладок Punto Switcher и поисковика Punto Search. В настоящее время Dialogus является недоступным по ряду технических причин. По информации сайта domenindex.ru, домен dialogus.ru оплачен до 06.06.2013 и возможно после этого срока, проект прекратит своё существование.

Интерфейс ресурса разделен на две главные зоны: рабочую область, содержащую основной список результатов, и боковую вспомогательную колонку. В ней выводятся запросы, поступившие в систему от других пользователей и тематически похожие на заданный вами, а также, что особенно интересно, картинки, подходящие по мнению поисковика под интересующую вас тему.

Интересная особенность Dialogus заключается в том, что машина с помощью флэш-ролика показывает процесс обработки заданного вами вопроса в режиме реального времени. Пусть это и не несет практической нагрузки, однако любопытно знать, что запрос проходит фазы разбора и формализации, нормализации терминов, синтаксического и морфологического анализа, предварительного поиска в базе самой системы и в Сети, нахождения стоп-слов и собственно выдачи текстового ответа.

Результаты Dialogus представляют собой краткие текстовые выдержки, в которых по мнению системы находится ответ на заданный вопрос. Каждый фрагмент сопровождается кнопками, позволяющими просмотреть текст более подробно, а также увидеть графическую миниатюру исходной веб-страницы.

На сервисе можно зарегистрироваться, после чего вам предоставляется возможность самостоятельно ответить на какой-либо вопрос, сопроводив свой текст ссылкой на интернет-источник. Кроме того, каждому полученному ответу вы сможете присваивать рейтинг, который будет учитываться при доработке алгоритмов системы. В качестве дополнительного бонуса сервис будет хранить список из десяти ваших недавних запросов и выводить его в боковой колонке своего интерфейса.

Следующей рассматриваемой поисковой системой является Stocona Global Search. Фирма «Стокона» существует с 2001 года и занимается разработками в области искусственного интеллекта. Один из ее продуктов - система интернет-поиска Stocona Global Search (www.stocona.ru/services/globalsearch.aspx), которая использует семантические технологии разбора запроса. На данный момент проект не функционирует, а сам сайт сменил профиль. Все нижеописанное является исследованием проекта во время его полноценного функционирования.

Данная поисковая машина предлагает три режима поиска: «Новостной поиск», «Мета-поиск» и «Синтаксический анализ». Если первый ничего особенного собой не представляет, то два оставшихся режима весьма любопытны. «Мета-поиск» использует в работе ведущие русскоязычные поисковики: Yandex, Google и Rambler. В данном режиме работает алгоритм семантического разбора запроса на естественном языке.

Система поддерживает 14 типов вопросов - в основном простые, направленные на выяснение конкретных фактов или свойств объектов. Stocona автоматически выбирает в заданном вопросе ключевые понятия, учитывает их различные морфологические формы, разбирает аббревиатуры, а также пытается подобрать однокоренные слова и близкие синонимы. Семантика принимается во внимание и на этапе сортировки найденных ссылок при определении их релевантности запросу.

Результаты выводятся в виде отсортированного по релевантности списка, содержащего выдержки из текста проиндексированных веб-страниц, на которых подсвечиваются ключевые понятия из вашего запроса, а также дополнительные слова, которые система нашла и учла в ходе поиска. Каждый текстовый фрагмент сопровождается линком на оригинальную веб-страницу. Поскольку интернет-сервис Stocona Search использует индексные базы других поисковых машин, рядом с каждой ссылкой выводится название нашедшего ее поисковика.

Последняя рассматриваемая система - это AskNet. Система AskNet (http://www.asknet.ru/) в определенной степени является наследницей Stocona Global Search. Ее авторы в свое время участвовали в создании Stocona, поэтому в базовых положениях работы данные проекты весьма схожи. На данный момент, полностью функционирующий продукт.

При поступлении запроса AskNet определяет наиболее вероятный объект поиска, учитывая синонимы, обрабатывая аббревиатуры и словесные записи цифр (например даты). Свободно сформулированное вопросительное предложение будет корректно разобрано системой только в том случае, если в нем содержится не более двух сказуемых или трех других однородных членов. Вопрос также должен быть грамматически верным и синтаксически согласованным. В принципе, AskNet может обработать и предложение с ошибками, однако ждать в таком случае достойного результата не стоит. Заметим, что эта система, как, в общем-то, и другие машины, включенные в настоящий обзор, не проверяет орфографию в запросе и не обладает способностью формулировать ответы на основе логической комбинации данных. Ответ будет выдан, только если соответствующая информация в какой-то форме прописана в базе проиндексированных текстов.

AskNet, как и Stocona, лучше всего понимает только определенный набор типов вопросов. Перечень поддерживаемых в настоящее время конструкций на русском и английском языках подробно разобран в «Справке» проекта.

Если система не сможет обработать ваш запрос с учетом семантики, поиск будет проведен в обычном режиме - только по ключевым понятиям.

Семантические технологии в AskNet также работают на этапе формирования ответа - связи между словами в поисковой фразе учитываются при сортировке результатов. Ответы представлены традиционным списком линков, сопровождаемых краткой выдержкой из текста найденной веб-страницы, на которой красным цветом выделяются ключевые понятия вашего запроса, а зеленым - слова, сформулированные системой на основе семантической обработки. Оригинальный документ можно просмотреть, не покидая сервиса, - достаточно щелкнуть по ссылке «Просмотр», расположенной возле каждой позиции. Она открывает на странице результатов фрейм, в который и загружается источник.

Глава 4. Программа для автоматической обработки материалов

4.1 Среда разработки

Для начала создания программы обработки материалов, необходимо рассмотреть две главные процедуры работы программы. Первой процедурой следует считать получение тестового материала. Второй - формирование теста.

Первую процедуру моно разделить на две части: обращение к информационному ресурсу и формирование тестового материала. Вторая процедура также делится на две составляющие, на запуск программы смысловой обработки текста и процедуры формирование теста.

Обращение к информационному ресурсу происходит в интерактивном режиме. Оператор или эксперт производит загрузку материалов на компьютер, после чего запускает программный модуль формирования формата, в котором будет происходить анализ текста, а затем и формирование теста. По этому принципу можно сформировать стек исходных текстов, а также вспомогательных общелитературных текстов для сравнения, именуемых “эталонными” текстами.

Запуск программы смысловой обработки текста и формирование теста происходит уже в автоматизированном процессе, с использованием программных модулей, разработанных в различных средах.

Рисунок 4.1 Схема программных процедур

В материале разработки использовано три программных среды (оболочки): WordTabulator v2.2.3, Visual Basic for Applications и программная платформа 1С. На рис. 2 представлена схема взаимосвязи между этими тремя оболочками.

Рисунок 4.2 Взаимодействие сред разработки

Опишем представленные программные оболочки. Среда - WordTabulator v2.2.3 предназначена для анализа текстов в среде Windows 9x/NT/2000/XP. Это удобный инструмент для построения упорядоченного индекса символьных элементов в заданном множестве текстов. Программа понимает тексты в основных русскоязычных кодировках (Win-1251, KOI8-r, DOS-866). Дополнительной возможностью является задание кодовой страницы ASCII, для которой множество символов алфавита обрабатываемых элементов ограничивается латинскими буквами. В качестве таких элементов могут быть словоформы, словосочетания или синтагмы. Программа WordTabulator принадлежит к категории бесплатного программного обеспечения и разработана за счет грантовой поддержки Института «Открытое Общество» (фонд Джорджа Сороса). В нашем случае программа Word Tabulator будет использоваться для сравнения нашего исходного текста с “эталонными текстами”, то есть текстами имеющими общелитературный характер. Это будет делаться для получения стека ключевых слов - слов отражающих специализацию данного текста. Объёмы сравнения текстов будут большими, поэтому необходима программа справляющаяся с большим объёмом входящей информации за короткий период времени.

Среда - Microsoft Excel Visual Basic for Applications (VBA, Visual Basic для приложений) -- упрощённая реализация языка программирования Visual Basic, встроенная в линейку продуктов Microsoft Office (включая версии для Mac OS), а также во многие другие программные пакеты, такие как AutoCAD, Solid Works, CorelDraw, WordPerfect и ESRI ArcGIS. VBA покрывает и расширяет функциональность ранее использовавшихся специализированных макроязыков, таких как WordBasic.

Visual Basic считается средством быстрой разработки прототипов программы, для разработки приложений баз данных и вообще для компонентного способа создания программ, работающих под управлением операционных систем семейства Microsoft Windows.

На данном языке создан модуль сортировки ключевых слов в группы, по принципу их взаимозаменяемости в будущем тесте. Microsoft Excel выбран по причине удобного интерфейса в виде электронной таблицы, и возможности простой реализации группировки с помощью VBA.

Последней средой обработки материалов является встроенный язык программирования 1С:Предприятие, который используется в семействе программ “1С:Предприятие”. Данный язык является предварительно компилируемым предметно-ориентированным языком высокого уровня. Средой исполнения языка является программная платформа “1С:Предприятие”. Визуальная среда разработки (“Конфигуратор”) является неотъемлемой частью пакета программ “1С:Предприятие”. Диалекты языка для платформ 1С 7 версий (7.0, 7.5, 7.7) совместимы “снизу вверх” с незначительными исключениями. Языки для платформ 1С:7х и 1С:8х совместимы по основным операторам, но значительно отличаются в работе с прикладными объектами, вследствие чего перенос кода из 1С:7х в 1С:8х не имеет смысла. Встроенный язык 1С:8 наиболее подобен по своему синтаксису языку Visual Basic. Язык 1С используется нами для составления окончательных тестов и удобен своей возможностью использования документов Microsoft Excel для выгрузки и загрузки информации, а также составления внутренних таблиц для хранения данных. К тому же быстрая работа приложений написанных на 1С, гарантирует высокую производительность и минимальные затраты времени.

4.2 Получение стека ключевых слов

Для автоматического извлечения специальных терминов следует использовать разницу частот слов и фраз в текстах выбранной узкой специальности на фоне текстов более широких областей («вычитание частот», «контрастный метод»). По мнению большинства экспертов, работающих в сфере разработки интеллектуальных приложений анализа текстов, этот способ выделения терминов эффективен при обработке общепринятых в выбранной области науки источников. Поэтому фоновые тексты должны включать достаточно большие корпусы как общенаучных, так и общелитературных текстов. Фактически процедура обработки начинается с удаления всех общелитературных слов (словоформ) из установленного текста. Следствием данной процедуры мы получаем список специальных слов обрабатываемого текста, в дальнейшем будем называть их “ключевыми словами”, которые и будут некой “понятийной областью”. Первой задачей здесь является подбор достаточного количества литературы для сравнения. Чем больше сверочных текстов мы подберём, тем более достоверным будет список ключевых слов. Но при подборе данных текстов следует учитывать их тематику. Ни в коем случае нельзя допускать пересечения тематики с основным текстом, для недопущения удаления части ключевого кластера. Будем полагать, что Но допустим нужное количество литературы подобрано, в таком случае необходим инструмент сверки огромного количества текстов за приемлемое время. Для осуществления метода «вычитания частот» воспользуемся программой WordTabulator.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.