Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне

Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 28.08.2016
Размер файла 117,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Содержание

Введение

Глава 1. Проблема автоматического упрощения текста и существующие подходы к её решению

1.1 Задача автоматического упрощения текста

1.2 Способы и методы автоматического упрощения текста

1.3 Существующие приложения и инструменты для автоматического упрощения текста

Глава 2. Применение автоматического упрощения для учебных текстов

2.1 Особенности задачи автоматической адаптации текста для изучающих иностранный язык

2.2 Автоматическая адаптация учебных текстов для изучающих русский как иностранный: существующие подходы и приложения

Глава 3. Реализация метода автоматического упрощения учебных текстов для ТРКИ-1

3.1 Выбор средств разработки и структура программы

3.2 Создание словарей замен

3.3 Построение языковой модели

3.4 Апробация результатов и дальнейшие направления исследования

Заключение

Список использованной литературы

Приложения

Введение

Актуальность исследования

Проблему данного исследования можно рассматривать в разных аспектах. С одной стороны, тема автоматической адаптации текста в настоящее время становится всё более интересной для исследователей в области автоматической обработки естественного языка. Очевидна необходимость компьютерных инструментов для автоматического упрощения в таких сферах, как подготовка текстов для читателей, страдающих афазией, нарушениями слуха, а также читателей с ограниченными интеллектуальными возможностями. Эти инструменты могут быть использованы также, к примеру, в создании текстов, предназначенных для детей, взрослых с низким уровнем грамотности и изучающих иностранные языки. Кроме того, инструменты для автоматической адаптации могут быть использованы и как компоненты в приложениях для обработки естественного языка, имеющих другую направленность, при разработке которых исследователи сталкиваются с необходимостью обработки длинных предложений со сложными синтаксическими структурами.

Такими приложениями являются, к примеру, системы машинного перевода, парсеры, инструменты для информационного поиска и приложения для автоматического реферирования текста. Тем не менее, несмотря на активное изучение проблемы автоматической адаптации текста, оптимальные решения пока найдены далеко не для всех исследовательских задач в этой области, а существующие методы применимы к сравнительно небольшому числу языков. Таким образом, очевидна необходимость дальнейшей разработки данной проблемы.

С другой стороны, вопросы адаптации текста всегда оставались актуальными в сфере обучения иностранным языкам. Несмотря на то, что некоторые методики обучения второму языку подразумевают использование только неизменённых текстов, специально упрощённые тексты на изучаемом языке также находят широкое применение. Адаптированные материалы достаточно просты для восприятия даже на начальных этапах изучения языка и могут быть приспособлены для демонстрации употребления определённых языковых структур, что позволяет оптимизировать процесс обучения языку. Однако адаптация текста, производимая вручную, может занять существенное количество времени. Эта проблема особенно актуальна при написании учебных пособий, поскольку материалы, содержащиеся в них, должны не только соответствовать определённому уровню изучения языка, но и быть достаточно современными, следовательно, их подготовка должна занимать как можно меньше времени. Это обуславливает потребность в создании инструментов для автоматического упрощения учебных текстов.

Теоретическая основа исследования

Проведенное исследование опирается, прежде всего, на работы, описывающие автоматическое упрощение текста как исследовательскую проблему и содержащие сведения об истории её разработки (A. Siddharthan; L. Feng; M. Shardlow). Также были использованы исследования, подробно представляющие отдельные виды автоматического упрощения, такие, как гибридное автоматическое упрощение (M.A. Angrosh, A. Siddharthan), построение дерева зависимостей для упрощения сложных структур (M.J. Aranzabe et al.), и, как наиболее отвечающее направлению данной работы - автоматическое упрощение при помощи замены синонимов (R. Keskisдrkkд; J. De Belder et al.). Кроме того, были рассмотрены и работы, в которых автоматическое упрощение являлось лишь средством достижения исследовательской цели (B. Drndarevic, H. Saggon; S. Alusio et al.), а также исследования, посвящённые оценке систем автоматического упрощения, в частности, применению удобочитаемости как меры эффективности подобных программ (S. Alusio et al.; S. Crossley et al.).

В ходе разработки метода автоматического упрощения текстов необходимо было опираться на работы, посвящённые вопросам, тесно связанным с созданием систем автоматического упрощения, таким, как определение мер семантического и контекстного сходства (A. Panchenko et al.; I. Spasic et al.; J. Jiang et al.; J. Kandola et al.) или распознавание смысла слова (R. Navigli et al.). Для разработки языковой модели были использованы работы, посвящённые использованию н-граммов в лингвистике и построению языковых моделей на основе н-граммов (D. Kocharov; А.А. Ланко; В.Ю.Гудков, Е.Ф. Гудкова).

Для рассмотрения современного состояния проблемы автоматического упрощения были изучены работы, посвящённые созданию и функционированию современных приложений для автоматической адаптации текстов, имеющих самые разнообразные задачи: повышение доступности текстов научной и медицинской направленности для читателей-неспециалистов (G. Grigonyte et al.; I. Spasic et al.), упрощение текстов из Википедии (W. Coster et al.; K. Woodsend et al.), текстов для детей (J. De Belder et al.) или людей с дислексией (L. Rello et al.), а также, разумеется, для изучающих иностранный язык (S.E. Petersen, M. Ostendorf). Для изучения специфики автоматического упрощения текстов на русском языке были использованы исследования, посвящённые разработке приложений для адаптации русскоязычных текстов (Н.В. Карпов, В.Г. Сибирцева; Т.С. Елипашева, Ю.Н. Баранова); также были рассмотрены работы о создании подобных приложений для шведского (G. Grigonyte et al.), испанского (S. Bott et al.) и баскского языков (M. J. Aranzabe et al.).

Практическая значимость исследования состоит в описании и реализации метода автоматической лексической адаптации учебных текстов для первого сертификационного уровня освоения русского языка.

Цель: исследовать проблему автоматической адаптации учебных текстов для изучающих русский язык и предложить вариант её решения на лексическом уровне.

Объект исследования: способы и методы автоматической адаптации учебных текстов на русском языке.

Предмет исследования: выявление оптимального метода упрощения русскоязычных учебных текстов на лексическом уровне.

Задачи:

1. Проанализировать особенности задачи автоматической адаптации в целом, а также автоматической адаптации учебных текстов;

2. Предложить, обосновать и реализовать метод автоматического лексического упрощения учебных текстов для изучающих русский язык, в частности:

а. Установить, какой функционал должен быть предложен в создаваемой программе для автоматического упрощения текстов для программ РКИ;

б. Выбрать оптимальные средства разработки программы;

в. Реализовать предложенный метод автоматической адаптации учебных текстов с использованием выбранных средств разработки.

3. Опробовать реализованный метод и выявить дальнейшие направления исследования.

Методы исследования: для реализации предложенного в исследовании метода автоматической адаптации текста был выбран язык программирования Python версии 3.4.4; в качестве среды разработки использовался PyCharm версии 5.0. Адаптация осуществлялась посредством частичной синонимической замены, зависящей от контекста. Для грамматической обработки списка синонимов, являющегося частью программы, была использована сторонняя библиотека для Python - pymorphy2, предоставляющая морфологические анализаторы для русского и украинского языков. Для контекстуального подбора синонимов при адаптации текста были использованы языковые модели на символьных н-граммах, извлечённых из учебных текстов для программ РКИ.

Материалы исследования: Синонимы для списка синонимов были автоматически извлечены из онлайн-словаря русских синонимов с сайта slova.zkir.ru, содержащего 163 тысячи слов и выражений из словаря информационной поддержки оценщика и аудитора АSIS (Appraiser Support Info System), а также около 1000 слов из словаря синонимов Н. Абрамова (Н.А. Переферковича), преимущественно глаголов. Основой для списка синонимов послужили перечни слов, являющихся лексическим минимумом для базового, элементарного и первого сертификационного уровней освоения русского языка, а также дополнительный перечень, разработанный в ходе создания программы «Лексикатор».

Для создания языковых моделей использовались тексты из учебников, предназначенных для освоения русского языка на первом сертификационном уровне: «Добро пожаловать в Нижний Новгород» (под общ. ред. Н.В. Макшанцевой), «Дорога в Россию» (3-я часть; В.Е. Антонова, М.М. Нахабина, А.А. Толстых), «Поехали!» в двух томах (С.И. Чернышов, А.В. Чернышова), «Полный вперёд!» (2-я часть; под ред. О.В. Ильиных, Е.А. Потураевой), «Между строк» (под ред. Е.А. Шериной), «Разговоры о жизни» (Н.А. Летова, И.А. Пугачёва, В.В. Яркина). Тексты для тестирования моделей были отобраны из собрания учебно-контролирующих текстов для ТРКИ-1 Н.Г. Большаковой и В.Н. Поваровой. Для апробации программы были использованы тексты, загруженные из сети Интернет.

Структура исследования

В первой главе настоящей работы охарактеризована задача автоматического упрощения текста, существующие способы и методы её решения, а также современные инструменты и приложения для упрощения текста. Вторая глава посвящена вопросу упрощения учебных текстов в целом, а также автоматическому упрощению русскоязычных текстов. В третьей главе представлена практическая часть исследования, в которой предпринимается попытка разработки инструмента для лексического упрощения учебных текстов на русском языке.

Глава 1. Проблема автоматического упрощения текста и существующие подходы к её решению

1.1 Задача автоматического упрощения текста

В узком смысле упрощение текста - это процесс понижения его лингвистической сложности при сохранении переданной в оригинале информации и смысла (Siddharthan, 2014:261). В широком смысле упрощение текста также подразумевает произведение и других операций, таких как смысловое упрощение, при котором упрощается также содержание текста, уточняющая модификация, где для подчёркивания ключевых мест текста используется подробные объяснения, или реферирование, при котором удаляется повторяющаяся и несущественная информация. В любом случае, главной целью упрощения всегда является передача информации в более доступной форме для читателей, чьи навыки чтения ограничены. В эту группу входят не только взрослые с низкой грамотностью, но и дети, инофоны (в том числе изучающие иностранный язык), а также слабослышащие люди, либо же страдающие афазией или дислексией.

Ручное упрощение текста давно применяется на практике для многих групп читателей, однако исследования в области автоматического упрощения начались относительно недавно. Тем не менее, уже сейчас существует немало методик, позволяющих производить автоматическую адаптацию.

Развитие этих методик во многом связано с тем, что инструменты для автоматического упрощения текста могут принести пользу не только людям, но и системам автоматической обработки естественного языка, имеющим другие задачи. Длинные и сложные фразы сложны не только для восприятия читателем, но и для машинной обработки (Feng, 2008: 2). Чтобы более эффективно обрабатывать подобные фразы, можно было бы упрощать их грамматически и структурно для получения более коротких и простых фраз с сохранением информации и смысла исходных.

Упрощение текста можно применять в таких задачах автоматической обработки естественного языка, как парсинг, машинный перевод, автоматическое реферирование и извлечение информации (Feng, 2008:2). При парсинге количество возможных вариантов разбора увеличивается по мере усложнения исходного предложения (Chandrasekar et al., 1997:183), поэтому для уменьшения вероятности ошибки представляется полезным предварительно упрощать поступающие на вход предложения. В машинном переводе длинные сложные предложения также потенциально увеличивают вероятность неправильного перевода, так как увеличивается неоднозначность. Упрощение сложных предложений также приводит к уменьшению количества данных в одной фразе, что облегчает задачу извлечения информации, а также автоматического реферирования.

Как уже говорилось, инструменты для автоматического упрощения могут приносить пользу читателям с различными нарушениями речи. Одним из таких нарушений является афазия - локальное отсутствие или нарушение уже сформировавшейся речи. Проблемы с восприятием и производством речи, вызываемые афазией, могут иметь лексический и синтаксический характер (Feng, 2008:3). Лексическое упрощение, а также уменьшение сложности письменных текстов может сделать их более доступными для лиц с афазией. На способность понимать устную и письменную речь могут повлиять и нарушения слуха (Inui et al., 2003:9), а также ограниченные интеллектуальные возможности индивида. Для таких групп читателей проблему представляет поиск текстов, отвечающих их интересам, но в то же время рассчитанных на их способности к чтению, которые во многих случаях могут не соответствовать таковым у людей их возраста, не имеющих подобных нарушений (Feng, 2008:4). Поэтому в данном случае представляется полезным многоуровневое (лексическое, синтаксическое и смысловое) упрощение текста.

Снижение лексической и синтаксической сложности письменных текстов также делает их более доступными для детей, взрослых со слабыми навыками чтения и изучающих иностранных язык на начальных и средних уровнях освоения языка. Подобные системы для автоматического упрощения текста могут быть разработаны для помощи преподавателям, поскольку упрощение, производимое вручную, может занимать существенное количество времени (данная проблема, а также вопрос об использовании упрощённых текстов в практике преподавания второго языка рассматривается подробнее во второй главе настоящей работы).

Ресурсы, предоставляющие адаптированные тексты для перечисленных групп читателей, уже существуют и активно используются. Таким ресурсом является, к примеру, Simple English Wikipedia, которая предназначена для изучающих английский язык, детей, взрослых со слабыми навыками чтения, а также лиц с различными нарушениями восприятия (Feng,2008:5). Simple English Wikipedia содержит тексты из оригинальной Википедии, вручную упрощённые носителями английского языка. К сожалению, сейчас число статей ограничено и отстаёт от числа статей в обычной версии. Разработка инструментов для автоматического упрощения текста могла бы помочь в расширении Simple Wiki и создании множества других аналогичных ресурсов.

Таким образом, автоматическое упрощение текстов является задачей автоматической обработки естественного языка, заключающейся в замене сложных языковых структур на более простые при сохранении информации и смысла (либо же при дополнительном упрощении доносимой информации). Инструменты для автоматического упрощения могут быть использованы не только в качестве самостоятельных приложений для определённых групп читателей, но и как части других инструментов для обработки естественного языка.

1.2 Способы и методы автоматического упрощения текста

Упрощение текста является сложной задачей в области автоматической обработки естественного языка, в рамках которой может возникнуть необходимость решения многих лингвистических проблем, в зависимости от того, на каком уровне - лексическом, синтаксическом или уровне дискурса - она производится (Feng, 2008:5).

Задача лексического упрощения часто включает замену сложных слов на более простые синонимы. Однако при этом необходимо решить вопросы о том, как идентифицировать сложные слова и как подыскивать им простые замены. Распространённым подходом к решению первого вопроса является использования сведений о частоте слова (Feng, 2008:5).

Необходимо подчеркнуть, что подразумевается частота слова в языке в целом, а не частота его в каком-либо определённом тексте. Слово с меньшей частотой считается менее активно используемым, следовательно, более сложным. Другим подходом, который может быть использован в приложениях для автоматической адаптации текста, является объявление всех слов одинаково сложными и предоставление пользователю возможности решать, какие из них должны быть упрощены.

В инструментах, предназначенных для лексического упрощения англоязычных текстов, распространённым подходом к подбору простого слова для замены является использование онлайн-тезауруса WordNet. WordNet - это семантическая сеть для английского языка, базовыми словарными единицами в которой являются не отдельные слова, а синонимические ряды (синсеты), каждый из которых содержит список синонимов или синонимичных словосочетаний и указатели, описывающие отношения между ним и другими синсетами. Лексическое упрощение также может быть произведено путём перефразирования с использованием предварительного составленного словаря (Inui et al.,2003:5) или объяснения слов с использованием словарных определений. Важным моментом для лексического упрощения (и автоматического упрощения в целом) является применение технологий разрешения лексической многозначности (Shardlow,2014:10).

Данные технологии обычно вводятся на этапе ранжирования синонимов. В настоящей работе лексическое упрощение производится при помощи предварительно составленных словарей, где сложным словам приводятся в соответствие семантически близкие слова, входящие в лексический минимум на уровне ТРКИ-1. Для подбора синонимов, подходящих к данному контексту, используется языковая модель на символьных н-граммах (применяемые инструменты и методы подробно описаны в главе 3).

Синтаксическое упрощение является более сложной задачей, чем упрощение на уровне лексики, поскольку подаваемые на вход тексты нуждаются в предварительном лингвистическом анализе для создания деревьев разбора, которые требуются для синтаксических преобразований (Feng, 2008:5). Синтаксическое упрощение обычно производится в несколько шагов: сначала производится идентификация синтаксических конструкций, которые могут быть упрощены, затем к ним применяются правила упрощения, составленные вручную или автоматически. В зависимости от задачи синтаксического упрощения необходимо учитывать определённые лингвистические факторы.

К примеру, если ведётся разработка инструмента для разделения сложных и сложноподчинённых предложений на более простые, отделения придаточных предложений и словосочетаний, а также перевода пассивного залога в активный (что является основными аспектами синтаксического упрощения во многих исследованиях (Feng, 2008:6), возникает необходимость выделения и маркирования соответствующих лингвистических черт. Эти черты включают соединительные и подчинительные союзы, относительные местоимения, границы фраз и т.п. Для упрощения идентифицированных сложных предложений может потребоваться ещё больше данных. Например, для упрощения сложного предложения с придаточным слово или словосочетание, к которому относится придаточное, должно быть аннотировано с указанием грамматических характеристик (например, числа), а также характеристик, указывающих на отношения внутри предложения (субъект действия, объект и т.п.). Чтобы трансформировать пассивную конструкцию, необходимо идентифицировать производителя действия, а также аннотировать глагол с указанием вида, залога и времени.

Многие технологии автоматической обработки естественного языка позволяют производить необходимые для синтаксического упрощения действия. К примеру, часто для распознавания сложных структур, которые можно было бы упросить, используются такие технологии, как автоматическая морфологическая разметка, парсинг, проверка на соответствие шаблону и анализ пунктуации. При помощи парсинга анализируются зависимости между группами слов в предложениях. Поскольку парсеры, нацеленные на полный и детальный анализ, более подвержены ошибкам, если на вход принимается сложное предложение, для автоматического упрощения чаще используются парсеры, идентифицирующие отдельные структуры в предложении - например, именные и глагольные словосочетания, - но не анализирующие их глубоко (так называемые shallow parsers) (Feng, 2008:7).

одобная технология весьма эффективна в идентификации синтаксических структур для упрощения, поскольку производит общий анализ предложения, но при этом не затрачивается время на подробный анализ каждой из найденных частей. Также эта технология полезна при разработке и применении правил структурного упрощения, особенно при корпусном анализе (там же). Парсинг и составление деревьев зависимостей для предложений и их упрощённых аналогов с последующим сопоставлением аннотированных предложений делает возможным автоматическую или ручную генерацию правил упрощения.

Чаще всего упрощение текста производится только на уровне лексики и синтаксиса. Упрощение на более высоких уровнях подразделяется на дискурсное и семантическое. На уровне дискурса главной задачей является сохранение согласованности и связности текста (Feng, 2008:8). Синтаксическое упрощение зачастую выполняется для каждого предложения отдельно, не затрагивая связи между ними, что неизбежно приводит к недостатку связности в упрощённом тексте. Например, при трансформации страдательного залога в действительный меняется порядок слов, что может повредить связи между местоимениями в тексте. Точно так же, когда придаточное предложение отделяется, и относительное местоимение заменяется существительным или другим местоимением для образования нового предложения, могут пострадать анафорические связи; к тому же, сложно будет определить порядок следования упрощённых предложений в новом тексте. Для разрешения этих проблем применяются алгоритмы ранжирования сущностей по актуальности, а также разрешения местоимений.

Существует очень мало исследований, связанных с семантическим упрощением текста. Это можно объяснить тем, что в исследованиях, направленных на разработку определённого функционала или имеющих определённую целевую аудиторию, задача семантического упрощения пока ещё не стала существенной. К тому же, решение данной задачи потребует глубокого анализа текста и сложных методов репрезентации знаний (там же), которые на данный момент мало применяются на практике.

Что касается оценки систем автоматического упрощения текста, единого мнения насчёт верного способа оценить качество упрощения текста пока не существует (Siddharthan, 2014:279). Типичными критериями оценки являются естественность произведённого текста и его полезность для целевой аудитории. Обычно оценка производится с использованием автоматических метрик либо с помощью экспертов. Также применяются такие метрики, как удобочитаемость (метрика для оценки лёгкости восприятия текста при помощи таких характеристик, как длина слов или фраз, количество многосложных слов, уровень абстрактности лексики и т.п.) или BLEU (bilingual evaluation understudy, алгоритм, оценивающий качество машинного перевода по сходству с переводом, выполненным вручную). Однако ни одна из данных метрик не является полностью подходящей для оценки упрощённых текстов.

Например, удобочитаемость является лишь косвенным показателем понятности и грамматической правильности предложения, и данную метрику следует отграничивать от понятности (comprehensibility), особенно в контексте вспомогательных инструментов (Siddharthan, 2014:289). Тем не менее, необходимо отметить, что в настоящее время активно разрабатываются методы вычисления удобочитаемости текста, рассчитанные специально на оценку систем автоматического упрощения (Aluisio et al, 2009:387).

Как уже было сказано, для оценивания упрощённых текстов исследователи часто прибегают к помощи экспертов. При этом может учитываться как просто экспертная оценка естественности текста, так и более сложные метрики, например, подсчёт дистанции редактирования между упрощённым текстом и версией упрощённого текста, исправленной экспертом. Тем не менее, экспертная оценка не всегда предоставляет нужную информацию о полезности упрощённых текстов (Siddharthan,2014:289).

Другие способы оценивания включают физиологические и нейрофизиологические методы, такие, как окулография (определение координат взора) (Siddharthan, 2014:289), однако данные методы применяются редко. Типичное оценивание включает опрос экспертов, являющихся носителями языка, для которого разработана система упрощения, на предмет определения правильности и полезности замен.

1.3 Существующие приложения и инструменты для автоматического упрощения текста

Автоматическое упрощение текста как сфера исследований в области автоматической обработки естественного языка начало активно развиваться в середине 90-х годов прошлого века (Keskisдrkkд, 2012:7). В это время начали появляться, к примеру, работы, посвящённые автоматической проверке грамматики и стиля для текстов на упрощённом английском языке (Simplified English) (Chandrasekar et al., 1997:190). Одно из первых исследований, посвящённых непосредственно автоматическому упрощению текста, принадлежало R. Chandrasekar и B. Srinivas. Их работы содержали описание техник, которые могли бы быть использованы для упрощения синтаксиса текста. Главной целью при этом было ускорение и уменьшение ошибок других систем для автоматической обработки естественного языка (в особенности парсинга и машинного перевода (Chandrasekar et al., 1997:183)). Исследователи подчеркнули, что необходимость упрощения зависит от жанра текста. Например, для юридических текстов, содержащих множество различных нюансов, упрощение может не подойти, так как будут утеряны важные смыслы.

Согласно R. Chandrasekar и B. Srinivas, синтаксическое упрощение должно производиться в несколько этапов: анализ предложения и последующая трансформация. Анализ подразумевает создание структурной репрезентации предложения, в которой в процессе трансформации будут идентифицированы и изменены структуры, подлежащие упрощению. Для изменения предложений применяются трансформационные правила, составленные автоматически при помощи сравнения параллельного корпуса оригинальных и упрощённых предложений. Правила составляются на основе представления предложений в виде супертегов (техника, описанная авторами в ранних работах и применяемая для определения связей слова с другими словами в предложении), содержащих информацию о роли слова в предложении и его синтаксических связях (Chandrasekar et al., 1997:190).

В приведённом исследовании было поднято множество вопросов об упрощении текста на уровне дискурса, ответы на которые не были даны (Feng, 2008:11). Эти вопросы были подробно раскрыты в работах A. Siddharthan, которые также были нацелены на дальнейшее исследование синтаксического упрощения.

Одним из аспектов данного исследования было выполнение синтаксического упрощения без применения парсеров, результатом чего стала разработка технологий машинного обучения для идентификации грамматической основы предложений, а также дополнительных инструментов для частеречного маркирования и неглубокого анализа предложения (shallow parsing/chunking). Другим, и более важным, по мнению автора, аспектом исследования был детальный анализ изменений, происходящих в процессе синтаксического упрощения в области дискурса и согласованности (Siddharthan, 2014:279).

Исследование было сфокусировано на упрощении относительных придаточных предложений, приложений, конструкций с соединительной и подчинительной связью. Автору удалось показать, что перечисленные конструкции могут быть упрощены без потери согласованности в новостных текстах с использованием техник неглубокого анализа текста; также была доказана эффективность применения вычислительных моделей структуры дискурса для минимизации нарушений в структуре дискурса, вызванных синтаксическим упрощением. В результате данных исследований была также выявлена потребность в регенерирующем компоненте в системах для автоматического синтаксического упрощения (проблемы регенерации включают выбор ключевых слов, порядок предложений, употребление местоимений и т.п. (Siddharthan, 2006:148)) для сохранения согласованности. Также в упомянутом исследовании были формализованы отношения между синтаксическим уровнем и уровнем дискурса в процессе синтаксического упрощения.

Современные исследования автоматического упрощения текста имеют множество направленностей. Многие работы, связанные с упрощением англоязычных текстов, основываются на уже упоминавшемся ресурсе Simple English Wikipedia, используя сопоставление оригинальных и упрощённых статей для создания параллельных корпусов. Кроме того, на этой основе создаются и инструменты для автоматического упрощения статей. Здесь можно привести в пример исследование W.Coster и др., в ходе которого был составлен параллельный корпус с использованием предложений из SimpleWiki и их неупрощённых оригиналов. Данный корпус был протестирован при помощи системы машинного перевода Moses, которая была натренирована на упрощённых и обычных фразах. Переводы были оценены при помощи уже упоминавшейся метрики BLEU, показавшей, что использование датасета из упрощённых предложений даёт лучшее качество перевода по сравнению с датасетом из неупрощённых предложений (Coster et al., 2011:668).

Другим примером является работа K. Woodsend и др., в которой описывается конструирование сквозной (end-to-end) системы для упрощения статей из Википедии. Центральным принципом работы стало понимание автоматического упрощения как задачи, объединяющей задачи выбора контента и рерайтинга. Модель, используемая в данном исследовании, выделяет необходимый контент на основе наблюдений, сформированных путём анализа оригинальных статей из Википедии и их упрощённых вариантов из SimpleWiki. Статьи переписываются при помощи грамматик, позволяющих распознавать и реализовывать множество возможных лексических и синтаксических упрощений, включая разбиение фраз (Woodsend et al., 2011:932), а затем тексты оптимизируются с учётом информативности и упрощенности.

Как уже говорилось, многие современные системы и приложения для автоматического упрощения текста направлены на определённую аудиторию читателей. Так, в работах J. De Belder и др. исследуется разработка системы автоматического упрощения текста для детей. Данная система выполняет синтаксическое упрощение в виде разбивки сложных предложений, а также лексическое упрощение путём замены слов на более лёгкие синонимы. Для синтаксического упрощения авторами был создан и применён классификатор, определяющий сложность предложения, и основанная на правилах система для упрощения предложений. Чтобы контролировать упрощение на уровне всего текста (так как авторами была поставлена задача выполнять упрощение для определённого уровня, не делая тексты слишком простыми для читателей), были применены методы целочисленного программирования. Лексическое упрощение производилось с использованием онлайн-тезауруса WordNet, а также применения базовых методов для разрешения лексической многозначности. Тем не менее, система синтаксического упрощения, применённая в данной работе, не захватывала всех предложений, которые нужно было упростить, чтобы сделать текст подходящим для детей. Хотя применение всей системы для упрощения показало уменьшение индекса Флеша-Кинкейда (т.е. уменьшение сложности текстов по сравнению с оригиналом), упрощение всё же не достигало желаемого уровня (De Belder et al., 2010:25). Работа над данной системой продолжается и в настоящее время.

Другой популярной сферой является упрощение медицинских и научных текстов. Примером таких работ является создание приложения DeScipher, описанное в работе J. Hullman и др. DeScipher - это приложение для редактирования текста, направленное на повышение доступности научных текстов для не занимающихся наукой читателей путём замены сложных терминов и научного жаргона на более понятные читателям слова и фразы. В данной системе замены для каждого сложного слова предлагаются на выбор пользователю, создающему или редактирующему текст на научную тематику. В качестве тренировочного корпуса текстов при подготовке приложения использовалась коллекция аннотаций к научным статьям, а также пояснений к научным текстам для журналистов. DeScipher демонстрирует потенциал информационных инструментов для помощи в научной журналистике (journalist-in-the-loop tools) (Yea Seul Kim et al., 2015:5).

Перечисленные исследования и приложения предназначались для работы с текстами на английском языке, однако существует также немало работ об автоматическом упрощении текстов на других языках: например, на баскском, болгарском, датском, голландском, французском, корейском, итальянском, японском, испанском, португальском и шведском (Siddharthan, 2014:29), а также финском и русском. Об исследованиях, посвящённых автоматическому упрощению текстов на русском языке, подробнее будет рассказано в следующей главе настоящего исследования.

Одной из систем автоматического упрощения, работающих со шведским языком, является разработанный G. Grigonytй и др. инструмент для повышения удобочитаемости электронных медицинских карт. В электронные карты на протяжении всей жизни пациента заносится информация о состоянии его здоровья, однако эти документы заполняются медицинскими работниками, которые, к тому же, часто ограничены во времени. Поэтому записи в электронных картах имеют такие лингвистические особенности, как телеграфный стиль, часто с пропущенными или перепутанными словами, большое количество аббревиатур, вариации в написании слов, включая орфографические ошибки, а также обильное использование специальной терминологии. Для повышения доступности медицинской информации для пациентов исследователями был создан инструмент для лексического упрощения текстов из электронных медицинских карт, включавшего распознавание незнакомых слов и разрешение их значения как сложных слов, аббревиатур или опечаток, показавший во всех случаях от 83% до 91% правильного распознавания (Grigonytй et al., 2014:80).

В области автоматического упрощения текстов на испанском языке наиболее примечательны исследования H. Saggion и др., в результате которых был создан Simplext - инструмент для упрощения испанских текстов разной тематики. Для создания Simplext был предварительно создан параллельный корпус оригинальных и упрощённых текстов, которые упрощались самими исследователями по заранее установленным правилам. Каждому предложению в корпусе соответствовал упрощённый аналог. Затем была разработана система для синтаксического и лексического упрощения, включающая как правила, созданные вручную, так и автоматически сгенерированные при помощи собранных данных (Saggion et al., 2011:341).

В работе M.J. Aranzabe и др. описано создание системы автоматического упрощения для баскского языка. Данная система осуществляет упрощение только на синтаксическом уровне с учётом особенностей баскского языка. Так как этот язык является агглютинативным, авторы фокусируются на морфологических чертах при создании правил для упрощения. Работа посвящена, в частности, таким проблемам, как упрощение приложений, относительных придаточных предложений и придаточных предложений времени. Предложенный в работе инструментарий может быть использован как часть другой системы для автоматической обработки естественного языка, так и самостоятельно с целью упрощения текстов на баскском языке, хотя первоначально он создавался для таких задач, как машинный перевод (Aranzabe et al., 2012:6).

Одно из самых известных исследований, касающихся автоматического упрощения текстов на японском языке, было произведено K. Inui и др. и имело специфическую целевую аудиторию, а именно - неслышащих от рождения людей, в частности учеников специализированных школ. В данной работе была представлена технология автоматического упрощения на структурном и лексическом уровнях, тестированная при помощи метрик удобочитаемости и опроса учителей из специализированных школ. Для перефразирования в данной системе применяется около тысячи вручную составленных правил, а для оценки соответствия замен контексту - модель «мешка слов» (bag-of-words) (Inui et al., 2003:16).

Как можно видеть, в настоящее время уже разработано либо находится в активной разработке немало систем автоматического упрощения для разных целевых аудиторий и разных языков. Тем не менее, среди уже охваченных языков практически не представлены славянские, что частично обуславливает актуальность и практическую ценность данной работы.

Глава 2. Применение автоматического упрощения для учебных текстов

2.1 Особенности задачи автоматической адаптации текста для изучающих иностранный язык

Устные и письменные материалы являются важным элементом изучения второго языка, поскольку с их помощью обучающиеся получают языковые данные, необходимые для пополнения лексикона, усваивания грамматических и синтаксических особенностей языка и понимания того, как язык передаёт связи между различными идеями. Часто материалы, предоставляемые изучающим иностранный язык, упрощаются для облегчения понимания (Crossley et al., 2014:92).

Упрощение текста - это важный, но спорный момент в обучении иностранному языку (Petersen et al., 2007:69). Считается, что адаптированные тексты могут способствовать лучшему пониманию материала, особенно в случаях, когда у читающего мало фоновых знаний о предмете текста. Тем не менее, для обучающихся с высоким уровнем владения языком адаптированные тексты менее полезны, чем для начинающих (Crossley et al., 2014:109). Некоторые эксперты предпочитают использование только аутентичных текстов, однако адаптированные тексты также широко применяются в обучении. Несмотря на то, что использование неадаптированных текстов может повысить мотивацию и интерес к изучению иностранного языка, они могут оказаться слишком сложными для чтения, в особенности на начальных этапах освоения языка (там же). Излишняя сложность учебного пособия же может не только препятствовать усвоению учебного материала, но и вызывать определённое неприятие студента (Сибирцева и др., 2014:20). Кроме того, существуют гипотезы, согласно которым изучающие второй язык воспринимают его, когда материал для чтения понятен, но при этом его сложность слегка превышает их нынешний уровень владения языком (Siddharthan, 2014:268). Всё это означает необходимость адаптации текста хотя бы с использованием перевода незнакомых слов.

Обычно адаптация текста занимает даже у специалиста существенное количество времени (Сибирцева и др., 2014:23), что, очевидно, замедляет разработку учебных пособий. Системы автоматической адаптации, разрабатываемые для работы с учебными текстами, во многом призваны сократить время, затрачиваемое на подготовку текста для изучающих язык, при этом обеспечив сохранение смысла текста, а также языковых структур, которые на данном уровне обучения должны быть уже известны будущим читателям.

Для создания систем автоматического упрощения исследователи часто обращаются к изучению стратегий, применяемых специалистами при упрощении текста. Эти стратегии включают:

· Опущение целых фраз или предложений;

· Разделение длинных предложений на более короткие;

· Изменение лексики;

· Сокращение длинных описательных предложений и др.

Ввиду специфической природы задачи упрощения учебного текста (необходимости одновременно сохранить его образовательную пользу и адаптировать для соответствующего уровня) исследователям приходится тщательно выбирать, на каких из перечисленных методов должна быть основана система упрощения. Например, некоторые методы адаптации подразумевают не упрощение лексики и синтаксических структур, а распространение и объяснение фраз (Siddharthan, 2014:269), хотя такой подход может приводить к уменьшению удобочитаемости (Crossley et al., 2014:93). Также продуктивным является применение автоматического реферирования как начального этапа упрощения текста, однако данная техника, применённая самостоятельно, не всегда является эффективной, так как зачастую алгоритм автоматического реферирования выбирает сложные предложения, в результате чего текст становится короче, но не проще для восприятия (Petersen et al., 2007:69). Однако самыми популярными из перечисленных выше методов остаются упрощение лексических и синтаксических структур (Crossley et al.,2014:94), а также опущение фраз или предложений.

Разработке системы автоматического упрощения учебных текстов часто предшествует создание параллельного корпуса упрощённых и аутентичных текстов или предложений. В некоторых случаях корпус включает несколько вариантов упрощения для каждой аутентичной составляющей. Большинство систем используют текстовые корпуса, так как этот подход обеспечивает знание о том, какие именно предложения были выпущены в ходе упрощения (Petersen et al., 2007:70).

При этом используются или уже существующие параллельные корпуса аутентичных и упрощённых текстов (Petersen et al., 2007:69), или создаются новые, в которых тексты упрощаются согласно цели исследования (например, при создании корпуса в исследовании Н.В. Карпова и В.Г. Сибирцевой аутентичные тексты были сопоставлены с версиями, адаптированными для порогового уровня владения РКИ). Чаще всего для подобных корпусов отбираются новостные тексты, поскольку, во-первых, их направленность способствует формированию навыка восприятия новой и актуальной информации на другом языке, во-вторых, подобные материалы полезны не только в образовательных, но и в познавательных целях, а в-третьих, благодаря частому рерайтингу новостей становится проще извлекать синонимы для последующего лексического упрощения (Сибирцева и др., 2014:22).

После составления корпуса из него извлекается статистическая информация о различиях между аутентичными и упрощёнными текстами или предложениями, которая впоследствии используется при разработке системы автоматического упрощения. Данная информация, как правило, включает в себя сведения о соотношении частот различных частей речи, грамматических и синтаксических структур в аутентичных и упрощённых текстах (например, при упрощении текстов для изучающих русский язык как иностранный часто исключаются причастные и деепричастные обороты), количестве и длине фраз и предложений, удалённых или разделённых при упрощении фразах. На основе этих данных составляются правила лексической, грамматической и синтаксической адаптации текстов.

Для лексической адаптации в основном применяется метод синонимической замены. Синонимы могут подбираться разными способами, наиболее широко используется подбор замен при помощи сгенерированной на статистических данных матрицы словарного сходства (Burstein et al., 2007:3), либо же подбор слов на основе составленных лексических минимумов для определённого уровня владения языком (последний способ используется и в данной работе). В зависимости от специфики создаваемой системы автоматического упрощения могут применяться и другие методы: например, если система ориентирована на упрощение текстов для носителей определённого иностранного языка, при подборе синонимов может отдаваться предпочтение когнатам. Такой подход использовался J. Burstein при разработке инструмента, нацеленного на адаптацию учебных текстов на английском языке для учащихся, чьим первым языком был испанский. В данной работе под когнатами понимались слова, имеющие одно и то же написание и значение в двух разных языках (Burstein et al., 2007:3), а для подбора когнатов использовался ETS (English-Spanish Cognate Lexicon).

Как уже было упомянуто выше, для осуществления автоматической адаптации на синтаксическом уровне чаще всего, в том числе и при адаптации учебных текстов, применяется информация, извлекаемая из параллельных корпусов аутентичных и упрощённых вручную текстов. Чтобы разработать правила упрощения, которые потом будут реализованы в функционале программы, исследователи фокусируются на следующих вопросах (Petersen et al., 2007:1):

· Какие различия в применении частей речи и фраз присутствуют в аутентичных и упрощённых текстах?

· Каковы характеристики предложений, подвергающихся разделению при упрощении текста?

· Каковы характеристики предложений, удалённых из текста при упрощении?

Однако в программах для автоматического упрощения учебных текстов используются не только правила, составленные на основе информации из параллельных корпусов. Например, правила для выделения слишком сложных предложений могут быть разработаны на основе сравнения грамматических минимумов для определённых уровней освоения языка (Сибирцева и др., 2014:29). При этом выделенные сложные предложения также классифицируются с точки зрения грамматических и формальных показателей, а на основе этих классификаций уже создаются непосредственно правила для отсечения сложных конструкций. Обычно подобные системы включают обширные коллекции правил как для пропуска структур, входящих в синтаксический минимум для определённого уровня, так и запрещающих правил для сложных структур, подлежащих удалению или коррекции. При этом алгоритм, положенный в основу системы автоматической адаптации, может быть как нацеленным на отсечение сложных конструкций, не входящих в минимум и убираемых созданными правилами, так и основанным на грамматическом подобии (при наличии образцовых, достаточно простых грамматических структур по их образу и подобию автоматически отбираются схожие), либо же интегрировать оба перечисленных пути упрощения (Сибирцева и др., 2014:31).

Таким образом, как можно видеть, в автоматическом упрощении учебных текстов применяются как стратегии, общие для всех задач, связанных с автоматическим упрощением, так и особые стратегии, основанные на применении материалов и инструментов, используемых сугубо в обучении иностранному языку. Например, как и в данной работе, лексическое упрощение учебного текста может быть основано не столько на замене редких слов более употребительными синонимами, сколько на замене их словами, входящими в лексический минимум для определённого уровня освоения иностранного языка.

2.2 Автоматическая адаптация учебных текстов для изучающих русский как иностранный: существующие подходы и приложения

Для русского языка задача автоматического упрощения текста пока что мало исследована в сравнении с другими задачами из области автоматической обработки естественного языка. Тем не менее, существуют уже реализованные подходы к автоматической адаптации учебных текстов для изучающих РКИ.

Один из таких подходов был разработан в ходе составления электронного учебника по русскому как иностранному. В процессе работы над пособием авторы использовали тексты из Национального корпуса русского языка с целью подбора наиболее актуальных материалов для наполнения учебника. Оказалось, что эти материалы достаточно сложны для понимания на низких и средних уровнях освоения русского языка, однако упрощение их вручную заняло бы существенное количество времени, из-за чего материалы утратили бы свою актуальность. Таким образом, возникла необходимость разработать программное обеспечение для автоматической адаптации учебных текстов (Karpov et al., 2014:3).

В начале работы над данным проектом был реализован инструмент для отбора текстов, изначально имеющих высокую удобочитаемость. Для этого модели, традиционно используемые для оценки удобочитаемости текстов на английском языке (наивный байесовский классификатор, k ближайших соседей, ансамбль решающих деревьев, машина опорных векторов, метод дерева классификации), были адаптированы для русского и применены на предварительно собранных данных. Было выяснено, что наилучшие результаты (98-99%) даёт применение машины опорных векторов. Для определения удобочитаемости отдельных предложений дал наилучшие результаты (0.94) ансамбль решающих деревьев.

Затем для дальнейшей разработки программы был применён упоминавшийся выше метод соотнесения аутентичных текстов с текстами, упрощёнными специалистами по преподаванию русского как иностранного. Все применённые методы адаптации были систематизированы, после чего были предложены списки правил, описывающих способы морфологической адаптации предложений (Сибирцева и др.,2014:28). Правила составлялись для каждой части речи. Адаптация существительных, к примеру, включала такие пункты:

1) Существительное/глагол (которые можно заменить на предикатив) и существительное, образованное путём номинализации глагола, заменяются на предикатив+глагол: требует долгого тестирования и отладки => нужно много тестировать и отлаживать

2) Аббревиатуры и сокращения заменяются полными формами слов или обобщёнными синонимами:

ОАО «Ростелеком» => компания Ростелеком

3) Существительное, образованное путём субстантивации причастия, подлежит замене на конструкцию «тот, кто» + глагол: желающим бросить курить => тем, кто хочет бросить курить

Разумеется, корректно реализовать все правила морфологической адаптации сразу невозможно, поэтому лексическая и морфологическая адаптация реализовывались поэтапно. Для выполнения задач исследования были также разработаны правила маркирования сложных морфологических единиц:

1) Выделяются цепочки существительных в родительном падеже: о необходимости принятии мер административного характера

2) Маркируются конструкции, состоящие из глагола в изъявительном наклонении и инфинитива, если между ними нет знаков препинания. Их часто можно заменить одним глаголом: позволяет просчитать, может привлечь

3) Выделяются причастные обороты, которые впоследствии можно заменить придаточными предложениями, более лёгкими для восприятия: содержащих информацию => которые содержат информацию

4) Разнообразные составные союзы могут быть успешно заменены на более употребительные простые, список их конечен: не только - но и; как - так и; до тех пор, пока; несмотря на то, что

Также был составлен и список запрещающих правил, по которым можно было бы идентифицировать сложные структуры, подлежащие упрощению или удалению. Данные правила были реализованы при создании веб-приложения для подготовки текста к адаптации; их примеры можно найти ниже.

Далее был разработан метод подбора замен для адаптации текстов на лексическом уровне. Предполагалось, что слово w может иметь список кандидатов на замену, каждый из которых имеет вес


Подобные документы

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Лингвистическое обеспечение автоматизированной системы. Алгоритмы сортировки методом прохождения бинарного дерева. Перевод входной строки в инфиксной форме в постфиксную. Конструирование программы-переводчика с английского на русский язык в Delphi.

    курсовая работа [1,2 M], добавлен 18.08.2009

  • Основные инструменты построения Web-приложения. Язык сценариев PHP. Системный анализ предметной области базы данных. Коды SQL запросов на создание таблиц. Разработка Web-приложения. Описание функциональности модулей. Система управления содержимым статей.

    курсовая работа [4,8 M], добавлен 28.04.2014

  • Разработка приложения для проверки использования времен глаголов в английском языке. Создание базы данных. Анализ используемых средств для реализации автоматического разбора текста. Проектирование мобильного приложения с помощью диаграмм деятельности.

    дипломная работа [2,6 M], добавлен 13.09.2017

  • Создание, изучение и разработка приложение на Android. Среда разработки приложения DelphiXE5. Установка и настройка среды программирования. Этапы разработки приложения. Инструменты для упрощения конструирования графического интерфейса пользователя.

    курсовая работа [1,6 M], добавлен 19.04.2017

  • Пользовательский интерфейс редактора Word 2000. Работа с документом на уровне файловых операций. Интеграция OLE-объектов в Word. Создание и редактирование файлов HTML. Средства рисования и решение задач в Word. Редактирование текста и оформление таблиц.

    реферат [75,4 K], добавлен 16.07.2010

  • Язык GPSS как один из наиболее эффективных и распространенных языков моделирования сложных дискретных систем. Транзакт - элемент системы массового обслуживания. Решение задач на основе моделирования с применением языка GPSS, создание имитационной модели.

    курсовая работа [54,7 K], добавлен 25.11.2010

  • Интерфейс текстового редактора MS Word. Редактирование и форматирование текста в MS Word, вставка таблиц, текста WordArt и объектов из другого приложения. Создание схематических диаграмм, использование данных из табличного процессора Microsoft Excel.

    презентация [1022,7 K], добавлен 05.06.2015

  • Основы Web-программирования. Сервер баз данных MySQL. Язык сценариев PHP. Язык гипертекстовой разметки HTML. Назначение и цели разработки сайта. Форма входа и регистрации, обратная связь интернет–магазина. Требования к структуре сайта, описание контента.

    курсовая работа [754,5 K], добавлен 02.06.2014

  • Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

    курсовая работа [35,0 K], добавлен 25.04.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.