Главная База знаний "Allbest" Программирование, компьютеры и кибернетика Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне

Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне

Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	28.08.2016
Размер файла	117,3 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

R = {r₀, r₁, r₂… r_Sw},

где r₀- это вес самого заменяемого слова,

S_w- общее количество замен (Karpov et al., 2014:12)

Вес каждой потенциальной замены при этом определяется следующим образом:

1. Включённость слова в лексический минимум для первого сертификационного уровня - r_i₁;

2. Частота употребления слова (определяется на основе данных из НКРЯ) - r_i₂;

3. Представлено ли слово в словаре синонимов (определялось на основе словарей ASIS и Русского морфологического словаря АОТ) - r_i₃;

4. Является ли слово гипонимом или гиперонимом w (определялось на основе тезауруса YARN) - r_i₄;

5. Контекстная близость (употребление в схожих контекстах) определяемого слова и w - r_i₅.

Величины r_i₁, r_i₃ и r_i₄ являлись бинарными и могли иметь значение 0, если слово не присутствовало в словаре или лексическом минимуме, или 1, если присутствовало. Общий вес слова определялся следующим образом:

Затем веса всех предполагаемых замен ранжировались по величине. Замены с нулевым весом отбрасывались. Лучшим кандидатом (Sub) становилось слово, имеющее наибольший вес:

Для вычисления контекстной близости было использовано три метода. Первый из них основан на нахождении вектора нормализованных частот слов, использованных в ближайшем контексте. Второй метод основан на латентном размещении Дирихле, а также на нахождении вектора распределения частот слов, определяющих тему текста. В обоих случаях контекстная близость давала полезные для ранжирования синонимов результаты. Однако первый метод имеет ограничение, связанное с длиной вектора, который равен размеру словаря уникальных слов в текстах, использовавшихся при построении модели. Второй метод позволяет решить проблему большой размерности и эффективно вычислять и интерпретировать контекстную близость (Karpov et al.,2014:16).

Применение латентного размещения Дирихле также позволяет производить исследование контекста, необходимое для его морфологической обработки после произведения лексических замен. Целью данной модели является построение статистической модели пользователя, который пишет текст, и, следовательно, ограничивает степень синонимического расширения контекста, используемого при упрощении (Сибирцева и др.,2014:27).

Результаты описанного исследования были использованы при создании веб-приложения "Лексикатор", также относящегося к числу проектов по автоматической адаптации русскоязычных учебных текстов. Это информационный ресурс для педагогов и студентов, занимающихся обучением и изучением русского языка как иностранного. В нём реализован функционал для автоматического выделения сложных синтаксических и лексических структур, а так же система оценки сложности текста для чтения по ряду распространённых индексов и собственному индексу "Лексикатора" (Баранова и др.,2014:236).

Одна из основных функций "Лексикатора" - подготовка учебных текстов к адаптации под соответствующий уровень изучения языка. Данная задача подразумевает обработку на двух уровнях - синтаксическом и лексическом. На уровне синтаксической обработки необходимо обнаруживать синтаксические конструкции, которые могут быть слишком сложными для изучающих язык. Аналогичная, по сути, задача стоит при обработке на уровне лексики - выделять следует ту лексику, которая вызывает затруднение у учеников. Выбор незнакомых слов на уровне проверки лексики основан на словарях лексических минимумов базового, элементарного и первого сертификационного уровней.

Графически представление учебного текста с выделением сложных синтаксических и лексических конструкций выглядит как подсветка указанных конструкций во введённом в текстовое поле интерфейса материале. Поля ввода графического пользовательского интерфейса рассчитаны на длину учебных текстов в пределах четырёх тысяч символов.

Для формальной оценки сложности текста для чтения используется нескольких распространённых индексов читаемости. Это индексы Флеша-Кинкейда (линейная функция среднего количества слогов в слове и средней длины предложения в текста), Дейла-Холла (линейная функция от средней длины предложения в тексте и процента редких слов) и собственный индекс "Лексикатора". Последний индекс - комплекс параметров, включающий такие характеристики, как длина текста в буквах и словах, средняя длина предложения в буквах и словах, процент слов определённой длины и т.п. На графическом интерфейсе ресурса сложность для чтения представляется не числом, а процентной шкалой соответствия обрабатываемого текста одному из допустимых уровней изучения языка. Извлечённые метрики доступны в графическом интерфейсе ресурса и могут использоваться для проведения собственного анализа. Список включает такие метрики, как среднее количество слов в одном предложении текста, средняя длина одного слова в предложении, длина текста в буквах, длина текста в словах, средняя длина предложения или слова в слогах, процент слов в 3 (4, 5, 6) слога(ов) и больше, средняя длина предложения или слова в буквах, процент слов длиной в 5 (6-13) букв и больше, процент слов в предложении, не входящих в словарь лексического минимума, а также средняя длина предложения в словах.

Одной из функций программы является распознавание лексических единиц, не входящих в минимум для заданного уровня владения языком. В "Лексикатор" загружены словари лексических минимумов трёх уровней изучения языка. Программа обрабатывает текст, выполняя токенизацию и лемматизацию. Полученные токены проверяются на наличие их в словаре выбранного лексического уровня. Токены, не прошедшие проверку, подсвечиваются цветом. Для процесса токенизации и лемматизации использовалась свободно распространяемая библиотека PyMorphy для языка Python версии 2.7. Таким образом, подсветка лексически сложных элементов текста реализована с помощью сопоставления и нахождения исключений между набором лексем текста и словаря рассматриваемого уровня изучения языка (Баранова и др., 2014:233).

Структурный уровень обработки позволяет определить наличие сложных синтаксических структур в тексте. Для решения этой задачи был разработан ряд правил, определяющих, какого рода конструкции в предложении считаются слишком сложными для восприятия обучающихся языку. Для составления правил исследовались справочники по синтаксису русского языка, а также грамматические минимумы для разных уровней освоения РКИ. Выделенные правила затем были формализованы и записаны с помощью синтаксиса языка регулярных выражений, используя теорию контекстно-свободных грамматик, и затем интегрированы с общим программным кодом на языке Python. В данном случае формализация является необходимым действием для трансляции естественного языка с помощью машинного кода. Результатом стала возможность графического отображения определенных структур, в том числе синтаксических и семантических, которые составляют трудность для восприятия в процессе обучения на базовом и первом уровне изучения языка, и которые при адаптации должны быть удалены или заменены на более простые. Правила разделены на коммуникативные, структурные и структурно-семантические.

Пример правил:

3. Модальный постфикс «-то»:

1) POST-то (любая часть речь + «-то»);

2) КРОМЕ (ниже перечислены элементы, которые должны быть): <...>

7. Сложные слова типа «диван-кровать»:

1) NOUN1-NOUN2[2], при условии, что если NOUN1 в одном из падежей (nomn, gent, datv, accs. ablt, loct, voct, gen1, gen2, acc2, loc1, loc2 в sing или plur), то:

NOUN2 в том же падеже и числе (nomn, gent, datv, accs. ablt, loct, voct, gen1, gen2, acc2, loc1, loc2 в sing или plur), например:

NOUN1 в gent, sing - NOUN2 в gent, sing - нет дивана-кровати (Свод правил для лексикатора)

Функционал программы позволяет получить достаточно объективную оценку исследуемого текста с учётом сложности синтаксических и лексических структур и возможностью просмотра в рамках дополнительной оценки извлечённых из текста основных характеристик пользователем ресурса (Баранова и др., 2014:239).

Как можно видеть из описанного выше, несмотря на относительную непопулярность задачи автоматического упрощения текстов для русского языка, существуют и могут быть использованы эффективные методы и инструменты для произведения дальнейших самостоятельных исследований этой темы, в том числе и такого её аспекта, как автоматическое упрощение учебных текстов.

автоматический лексический языковый адаптация

Глава 3. Реализация метода автоматического упрощения учебных текстов для ТРКИ-1

3.1 Выбор средств разработки и структура программы

Практической задачей данного исследования являлось создание программы, осуществляющей автоматическое лексическое упрощение учебных текстов. В качестве языка разработки данной программы был выбран язык программирования Python версии 3.4.4; в качестве среды разработки использовался PyCharm версии 5.0.

Лексическое упрощение текста может быть произведено разными методами, одним из которых является замена сложных и малоупотребительных слов и выражений на более употребительные и простые аналоги (Keskisдrkkд,2012:9). Кроме этого, существуют такие стратегии, как удаление слов, признаваемых лишними, или дополнение сложных слов и выражений объяснениями. Для реализации в данном исследовании был выбран метод частичной замены слов. Был создан список сложных слов, которые можно было бы заменить в тексте на более простые, в данном случае - входящие в лексический минимум на первом сертификационном уровне освоения русского языка как иностранного. Автоматическая замена осуществляется только в том случае, если простой аналог сложного слова полностью соответствует ему по грамматическим характеристикам. Другие сложные слова и их аналоги выводятся в отдельном списке под изменённым текстом. Также в отдельный список выносятся другие варианты уже произведённых замен.

Для определения уместности замены в данном контексте была построена языковая модель на символьных н-граммах. Она применяется в процессе отбора всех синонимических пар для замены слов в тексте.

Одной из функций программы является возможность указать слова, замена которых не требуется. В этом случае автоматически извлекаются все формы слов-исключений, чтобы затем пропускать их при подборе замен.

Обработка текста в созданной программе может выглядеть, например, таким образом:

Исходный текст

В ночь с 23 на 24 июня все праздновали этот мистический, загадочный, но в то же время разгульный и весёлый праздник, полный обрядовых действий, правил и запретов, песен, приговоров, всевозможных примет, гаданий, легенд, поверий.

Упрощённый вариант

Выполненные замены: легенд > сказок

Варианты выполненных замен:

Другие возможные замены: всевозможных > разный

весёлый > смешной

Текст, из которого взято данное предложение, был упрощён с использованием краткого словаря замен и языковой модели на символьных четырёх граммах. Полную версию этого текста можно найти в приложениях (см. приложение 1).

3.2 Создание словарей замен

Для построения системы лексического упрощения необходима база данных, содержащая синонимы в той или иной форме (Keskisдrkkд, 2012:15). В данной работе под синонимами понимаются слова, тождественные или близкие по значению (Черняк, 2011:241).

Эффективное упрощение текста подразумевает наличие знаний о том, какие слова в системе будут приниматься за более сложные, а какие - за более простые (Keskisдrkkд, 2012:16). Одним из способов это сделать является подбор синонимов к составленному минимуму наиболее употребительных слов языка. В нашем исследовании в качестве списка простых слов были использованы перечни слов, составляющие лексический минимум для элементарного, базового и первого сертификационного уровней освоения русского языка, а также дополнительный список, использовавшийся для создания системы «Лексикатор». После совмещения данных списков и очистки их от повторяющихся слов получился список из 2327 слов общего лексического минимума.

Согласно исследованиям, посвящённым адаптации учебных текстов на русском языке, адаптация лексики должна производиться следующими методами (Сибирцева и др., 2014:25):

1) Синонимическая замена слов;

2) Замена гиперонима на гипоним, родового слова на более частное слово;

3) Замена гипонима на гипероним, выражающий генерализацию или обобщение;

4) Замена анафор в тексте;

5) Удаление суффиксов субъективной оценки.

Реализовать все эти пункты на практике достаточно сложно и требует предварительной разработки дополнительных инструментов автоматической обработки текста - например, потребуется инструмент для разрешения анафоры. В данной работе была предпринята попытка реализовать как минимум синонимическую замену и удаление суффиксов субъективной оценки, а как максимум - все вышеприведенные пункты, исключая замену анафор. Для этого были созданы соответственно длинный и краткий списки замен. В длинном списке содержались синонимические, гипо-гиперонимические и меро-партонимические пары, а также пары однокоренных слов с суффиксом субъективной оценки и без него. В кратком списке содержались в большинстве своём только пары первого и последнего типа.

Список семантически близких для слов данного минимума составлялся автоматически при помощи средств Python-библиотеки lxml. Основой для него послужил онлайн-словарь русских синонимов с сайта slova.zkir.ru, содержащий 163 тысячи слов и выражений из словаря информационной поддержки оценщика и аудитора АSIS (Appraiser Support Info System), а также около 1000 слов из словаря синонимов Н. Абрамова, преимущественно глаголов. Необходимо заметить, что в данном онлайн-словаре содержатся не только синонимы, но и другие словарные пары, имеющие высокую семантическую близость, например, связанные отношениями включения (гипо-гиперонимии) (Арефьев и др., 2015:118), что делает его особенно подходящим для задач нашего исследования. Итогом обработки первоначального списка простой лексики стал список из 25090 пар.

Составленный список, однако, содержал только начальные формы слов. Чтобы можно было пользоваться им для упрощения текста, необходимо было расширить его, извлекая все возможные формы сложных слов и сопоставляя их с соответствующими формами простых. Для этого была использована Python-библиотека pymorphy-2. Pymorphy-2 - это морфологический анализатор и генератор для русского и украинского языков, созданный на основе данных из OpenCorpora и LanguageTool (Korobov, 2015:320). При создании расширенного списка синонимов сначала извлекалась грамматическая информация для каждого слова в паре. Грамматическая информация в pymorphy-2 содержит сведения о части речи и соответствующих ей характеристиках слова (например, для глагола «стали» данный тег выглядит так: 'VERB,perf,intr plur,past,indc', что соответствует части речи, виду, переходности, числу, времени и наклонению). Если грамматический тег совпадал для сложного и простого слова, для каждого из них извлекались лексемы. Лексемами в pymorphy-2 называются словари, содержащие все возможные формы слова, включая нормальную форму, грамматическую информацию, а также информацию об аффиксах. При совпадении длин (т.е. количества форм) в лексемах слова считались подходящими для замены непосредственно в тексте, и все их формы попарно записывались в расширенный список с цифрой «1». При несовпадении грамматического тега или длин лексем всем формам сложного слова при записи в расширенный список ставилась в соответствие только исходная форма простого слова и присваивалась цифра «0», что означает, что данная замена не может быть произведена непосредственно в тексте. После дополнительной очистки от повторений был получен расширенный список замен размером в 454513 вхождений.

На основе первого списка синонимов был также создан второй, более ёмкий список размером в 8051 вхождение. Он создавался путём исключения из первого списка пар в большинстве следующих случаев:

1) Слова в паре связаны между собой не синонимическими отношениями (а, например, отношениями гипо-гиперонимии или меро-партонимии);

2) Слова в паре слабо связаны семантически, замена одного другим возможна очень редко;

3) Для данного простого слова уже есть другой сложный синоним, более соответствующий ему и способный послужить заменой в большинстве возможных контекстов;

4) Сложное слово является более широким понятием, чем соответствующее ему простое слово;

5) Низка вероятность правильного распознавания сложного слова морфологическим анализатором (например, слово «пускай» скорее будет распознано как глагол в повелительном наклонении, чем как союз, поэтому такие пары, как «пускай - ладно», следует исключить).

Также из списка простых слов были предварительно исключены однословные союзы («в» и подобные).

Результаты работы программы для обоих списков были проверены на десяти текстах пяти разных типов, чаще всего встречающихся в учебниках РКИ: текст о городе (Нижнем Новгороде), текст о русских традициях, новостной текст, художественный текст, биографический текст. Для сравнения были взяты короткие (от 237 до 569 слов) и длинные (от 811 до 1247 слов) тексты. Число выполненных замен и время обработки соотнеслись следующим образом:

Таблица 1

Короткие тексты, краткий словарь замен

Тип текста	Кол-во слов	Выполненные замены	Варианты замен	Другие возможные замены	Время обработки (сек)
Город	318	4	-	28	43.9297
Традиции	470	7	-	53	67.0221
Новостной	237	4	-	22	35.131
Художественный	569	6	2	64	76.4616
Биографический	258	8	2	23	38.5747

Таблица 2

Короткие тексты, длинный словарь замен

Тип текста	Кол-во слов	Выполненные замены	Варианты замен	Другие возможные замены	Время обработки (сек)
Город	318	9	2	156	136.8576
Традиции	470	20	2	247	199.2886
Новостной	237	7	-	97	120.2094
Художеств.	569	13	4	288	231.7218
Биограф.	258	15	6	116	112.2717

Таблица 3

Длинные тексты, краткий словарь замен

Тип текста	Кол-во слов	Выполненные замены	Варианты замен	Другие возможные замены	Время обработки (сек)
Город	883	10	-	107	122.3827
Традиции	867	15	-	91	105.6385
Новостной	811	19	2	105	118.439
Художеств.	1247	21	2	106	155.7642
Биограф.	1095	23	2	130	139.1394

Таблица 4

Длинные тексты, длинный словарь замен

Тип текста	Кол-во слов	Выполненные замены	Варианты замен	Другие возможные замены	Время обработки (сек)
Город	883	29	4	457	352.5479
Традиции	867	32	5	347	378.9478
Новостной	811	34	4	404	307.4265
Художеств.	1247	45	19	418	459.7492
Биограф.	1095	45	7	469	416.5336

Как можно видеть, в среднем при использовании краткого словаря замен в тексте выполняется одна замена на 63 слова и предлагается одна замена на десять слов, тогда как при использовании длинного словаря выполняется одна замена на 29 слов и предлагается одна замена на два слова. Время, затрачиваемое на обработку текста, существенно возрастает при использовании длинного словаря (примерно на 180 секунд), что естественно, учитывая разницу в размерах словарей.

Тем не менее, при использовании любого из словарей встречаются случаи, когда предложенные или выполненные замены не совпадают с контекстом предложения. Для уменьшения числа таких случаев была создана языковая модель.

3.3 Построение языковой модели

Статистической языковой моделью называется распределение вероятностей над последовательностями слов. Принимая на вход последовательность длины n, языковая модель присваивает данной последовательности вероятность

Главное преимущество вероятностных моделей заключается в возможности разрешения проблем неоднозначности (Jurafsky et al., 2014:5), часто возникающих при обработке естественного языка. Существует немало типов языковых моделей, например, скрытые модели Маркова или модели, основанные на нейронных сетях. В данной работе для распознавания контекста была применена языковая модель на символьных н-граммах, нередко применяющаяся и в других, не связанных с автоматическим упрощением задачах автоматической обработки текста, таких как определение языка (Ramisch, 2008:9).

Н-граммом называется последовательность из n элементов, где n чаще всего равно двум или трём. Стоит отметить, что при построении языковых моделей чаще применяются н-граммы, состоящие из слов. Однако, поскольку корпус упрощённых текстов в настоящем исследовании был недостаточно велик для построения эффективной модели на словарных н-граммах, было принято решение использовать символьные н-граммы. Одним из преимуществ такой модели является также возможность применять её для оценивания вероятности слов, для которых не осуществляется автоматическая замена.

Вероятность последовательности н-граммов равна вероятности произведения всех составляющих её н-граммов:

w_n w_n_-1При этом вероятность каждого н-грамма вычисляется как частота данного н-грамма в обучающем корпусе, разделённая на частоту н-грамма меньшей размерности:

Таким образом, к примеру, вероятность последовательности символьных биграммов может быть описана как произведение отношений частот каждого биграмма в корпусе к частоте первого из составляющих его униграммов:

На практике, тем не менее, чаще всего применяются триграммы (в случае с моделями на словарных н-граммах) (Jurafsky et al., 2014:9).

Вероятности языковых моделей обычно представляют как логарифмические вероятности, чтобы избежать умножения слишком маленьких чисел, а также ускорить подсчёт вероятности:

Этот же способ был применён и при вычислении вероятностей в данном исследовании.

Можно заметить, что использование приведённых формул для предсказания н-граммов предполагает отсутствие нулевых вероятностей при подсчёте. Так как невозможность составления корпуса всех возможных в языке н-граммов очевидна, при составлении моделей для предотвращения появления нулевых вероятностей используются различные методы сглаживания данных. В данной работе было применёно сглаживание Лапласа, или аддитивное сглаживание - метод, при котором частота каждого слова при подсчёте увеличивалась на 1. Данный метод подразумевает, что, к примеру, вероятность каждого биграмма вычисляется следующим образом (V - количество уникальных слов или символов в словаре) (Jurafsky et al., 2014:18):

Для обучения и тестирования языковой модели был создан корпус текстов, созданных для обучения РКИ на базовом и первом сертификационном уровне. Тексты для обучающего корпуса были взяты из следующих учебников по русскому языку как иностранному: «Добро пожаловать в Нижний Новгород» (под общ. ред. Н.В. Макшанцевой), «Дорога в Россию» (3-я часть; В.Е. Антонова, М.М. Нахабина, А.А. Толстых), «Между строк» (под ред. Е.А. Шериной), «Разговоры о жизни» (Н.А. Летова, И.А. Пугачёва, В.В. Яркина), «Поехали!» в двух томах (С.И. Чернышов, А.В. Чернышова), «Полный вперёд!» (2-я часть; под ред. О.В. Ильиных, Е.А. Потураевой). Первые четыре издания предназначены для первого сертификационного уровня, последнее два - для базового уровня освоения русского языка. Тексты для тестового корпуса были отобраны из собрания учебно-контролирующих текстов для ТРКИ-1 Н.Г. Большаковой и В.Н. Поваровой. Общий объём обучающего корпуса составил 377070 знаков с пробелами, объём тестового корпуса - 16018 знаков. Н-граммы извлекались без учёта регистра и знаков препинания.

Было создано несколько моделей: на четырёхграммах, пятиграммах и шестиграммах. Данные размерности обычно не используются в работе со словарными н-граммами, так как дают очень большую разреженность данных, однако при построении моделей на символьных н-граммах исследователи обычно применяют бульшие размерности, например, от трёх до семи (Brakensiek et al., 2004:110).

С целью оценки построенных моделей для каждой из них вычислялась перплексия. Перплексия - это величина, показывающая, насколько хорошо распределение вероятностей или вероятностная модель прогнозирует появление какого-либо образца. Она определяется как обратная вероятность тестового корпуса, нормализованная по количеству слов. Для тестового корпуса W с количеством слов N перплексия может быть вычислена следующим образом (Jurafsky et al. ,2014:14):

Для применения на практике, как правило, выбирается вероятностная модель с наименьшей перплексией, так как меньшая перплексия означает, что данная модель лучше предсказывает появление слов в документах.

Следует заметить, что перплексия для символьных языковых моделей во многих случаях получается намного меньше, чем перплексия для словарных моделей. Так, для моделей на символьных триграммах она может составлять от 3-4 (Kozielski et al., 2014:347) до 10-13 (Brakensiek et al., 2004:111), а для моделей на пятиграммах 3-6 (там же; корпусы текстов в приведённых исследованиях по размеру превосходили корпус, использованный в настоящей работе). Для наших моделей значения перплексии получились следующими:

Тип модели	Средняя частота	Количество уникальных значений	Перплексия
4-граммы	11.661460367044123	30732	2.271106894713273
5-граммы	4.448266017923193	80566	2.2578934789202
6-граммы	2.4740806196626925	144853	1.2481584084378157

Исходя из значений перплексии, наиболее эффективной из построенных моделей является модель, использующая символьные шестиграммы. Для более обстоятельной оценки работы программы на каждом этапе разработки она была протестирована с использованием уже упоминавшихся текстов, загруженных из сети Интернет.

3.4 Апробация результатов и дальнейшие направления исследования

Оценка представленной в настоящем исследовании системы упрощения производилась в несколько этапов. На первом результаты работы программы с использованием длинного и краткого словарей замен были представлены эксперту-преподавателю РКИ с целью определения словаря для дальнейшего использования. Для оценивания предлагались упомянутые в разделе 3.2 настоящего исследования десять текстов на пять различных тем.

В заменах, выполняемых и предлагаемых для выполнения при использовании длинного словаря замен, экспертом были обнаружены следующие типы ошибочных замен, многие из которых были впоследствии убраны при создании краткого словаря:

1) Слова в паре связаны между собой не синонимическими отношениями (а, например, отношениями гипо-гиперонимии или меро-партонимии), при этом заменить сложное слово на предложенное простое можно далеко не во всех контекстах;

2) Слова в паре слабо связаны семантически, поэтому замена одного другим возможна очень редко;

3) Пары, где сложное слово является более широким понятием, чем соответствующее ему простое слово;

4) Пары, где одно из слов было неверно распознано морфологическим анализатором, что лишало смысла предлагаемую замену;

Исходя из этих данных, для дальнейшего тестирования программы было принято применять краткий словарь замен.

Разрабатываемый функционал также апробировался на группе из пяти слушателей из иностранных государств НА МВД РФ, уровень владения русским языком которых не превышал первый сертификационный. Им был предложен один из обработанных с использованием краткого словаря текстов (текст о Нижнем Новгороде) для анализа. В частности, слушателей попросили подчеркнуть незнакомые слова, а также ответить на вопросы по тексту. При анализе выявленных студентами незнакомых слов были получены следующие данные:

Общее количество слов, определённых как сложные	70
Количество слов, которые показались сложными трём или более студентам из пяти	27
Общее количество замен	28
Количество сложных слов, для которых была предложена замена	12
Количество заменённых слов, которые были подчёркнуты как сложные	3

Из общего количества сложных слов 72% не входят в лексический минимум на первом сертификационном уровне освоения русского языка. Среди них 87% слов с тремя и более слогами, 52% слов с четырьмя и более слогами, 24% слов с пятью и более слогами и 7% слов с шестью и более слогами (данные из системы «Лексикатор»). Следует также отметить, что все замены, признанные сложными, отмечались не более чем одним из студентов.

По итогам анализа текстов, а также устного опроса экспертом было выявлено, что наибольшую сложность для изучающих РКИ на начальном и среднем уровне в предложенном тексте представляли длинные (от четырёх слогов) слова, а также причастные обороты.

Как указано в секции 3.3, исходя из значений перплексии, наилучшей языковой моделью из созданных является модель на символьных шестиграммах. Чтобы сделать окончательные выводы об эффективности этих двух моделей, из исходной коллекции текстов, на которых тестировалась программа, было выбрано три (биографический, художественный и текст о русских традициях). Данные тексты были предложены носителям русского языка, имеющим высшее образование в области лингвистики, на предмет определения подходящих и неподходящих по контексту замен. Были получены следующие результаты:

Количество замен, отмеченных как неправильные/общее количество замен
Текст	Модель на четырёх граммах	Модель на пяти граммах	Модель на шести граммах
Традиции	0,285	0,375	0, 31
Художественный	0,2	0,27	0,3
Биографический	0,35	0,5	0,61
В среднем	0,278(3)	0,381(6)	0.40(6)

Таким образом, результаты, демонстрируемые четырёхграммной моделью, в среднем получаются лучше, чем результаты, демонстрируемые моделями на пятиграммах на шестиграммах, хотя в некоторых случаях они могут быть примерно одинаковыми. Это говорит о необходимости дальнейших проверок работоспособности различных моделей при увеличении корпуса упрощённых текстов, а также добавлении нового функционала в программу.

Разумеется, на данный момент существует множество возможностей для совершенствования представленной в настоящей работе программы. Помимо расширения словаря замен и обучающего корпуса, а также усложнения языковой модели, с точки зрения лексического упрощения учебных текстов представляется возможным также внести некоторые изменения в функционал программы. Например, так как анализ показал, что большую сложность при изучении русского языка как иностранного представляют многосложные слова, а также причастия, следует добавить объяснение многоосновных слов (например, слово «восьмиугольник» комментировать как «с восемью углами» или «имеющий восемь углов»), а также причастий (добавлять в комментарий к слову глагол, от которого они произошли). При дальнейшем усложнении системы автоматического упрощения необходимо будет принять во внимание также синтаксическое упрощение и упрощение на уровне дискурса.

Заключение

Целью данной выпускной квалификационной работы было исследовать проблемы автоматической адаптации учебных текстов для изучающих русский язык и предложить вариант её решения на лексическом уровне. Для достижения этой цели были выполнены следующие задачи:

1. В теоретической части исследования были проанализированы особенности задачи автоматической адаптации в целом, а также автоматической адаптации учебных текстов на русском языке;

2. В практической части был предложен и реализован метод автоматического лексического упрощения учебных текстов для изучающих русский язык, в частности:

а. Было предварительно установлено, какой функционал должен быть предложен в создаваемой программе для автоматического упрощения текстов для программ РКИ: необходимо выполнять частичную лексическую адаптацию на основе предварительно выбранного словаря замен и языковой модели, при этом должна существовать возможность исключения слов, не подлежащих упрощению;

б. Были выбраны оптимальные средства разработки программы: в качестве языка разработки был выбран язык программирования Python версии 3.4.4, для составления словарей замен использовались средства библиотек pymorphy2 и lxml. Материалами для создания программы послужили данные из онлайн-словаря русских синонимов с сайта slova.zkir.ru, лексические минимумы для уровня ТРКИ-1 и ниже, а также тексты из учебников РКИ;

в. Предложенный метод автоматической адаптации учебных текстов был реализован с использованием выбранных средств разработки.

3. Реализованный метод был несколько раз опробован на разных аудиториях, что дало возможность точно определить дальнейшие направления исследования: так, было выяснено, что лексическая адаптация текстов для программ РКИ должна предполагать не только замену синонимов, но и уточняющую модификацию.

Таким образом, цель исследования можно считать достигнутой, а само исследование на данном этапе завершённым.

Список использованной литературы

1. Aluisio S.M., Gasperin C., Maziero E., Specia L., Pardo T. Natural language processing for social inclusion: a text simplification architecture for different literacy levels // Proceedings of SEMISH-XXXVI Seminбrio Integrado de Software e Hardware. - 2009. - p. 387-401

2. Aluisio S.M., Specia L., Gasperin C., Scarton C.. Readability assessment for text simplification // Proceedings of the NAACL HLT 2010 Fifth Workshop on Innovative Use of NLP for Building Educational Applications. - 2010. - p. 1-9

3. Angrosh M.A., Siddharthan A. Hybrid text simplification using synchronous dependency grammars with hand-written and automatically harvested rules //EACL. - 2014. - С. 722-731.

4. Angrosh M.A., Siddharthan A. Text simplification using synchronous dependency grammars: Generalising automatically harvested rules // Proceedings of the 8th International Natural Language Generation Conference. - 2014. - p. 16-25.

5. Aranzabe M.J., de Ilarraza A.D., Gonzalez-Dios I. First approach to automatic text simplification in Basque //Proceedings of the Natural Language Processing for Improving Textual Accessibility (NLP4ITA) workshop (LREC 2012). - 2012. - С. 1-8.

6. Aranzabe Urruzola M.J., Dнaz de Ilarraza Sбnchez A., Gonzбlez Dios I. Transforming complex sentences using dependency trees for automatic text simplification in Basque. - 2013.

7. Bдr D., Zesch T., Gurevych I. A Reflective View on Text Similarity // RANLP. - 2011. - С. 515-520.

8. Blei D.M., Ng A.Y., Jordan M.I. Latent dirichlet allocation // the Journal of machine Learning research. - 2003. - Т. 3. - С. 993-1022.

9. Bott S., Saggion H. An unsupervised alignment algorithm for text simplification corpus construction // Proceedings of the Workshop on Monolingual Text-To-Text Generation. - Association for Computational Linguistics, 2011. - С. 20-26.

10. Bott S., Saggion H., Mille S. Text Simplification Tools for Spanish // LREC. - 2012. - С. 1665-1671.

11. Brakensiek A., Rigoll G. Handwritten address recognition using hidden Markov models // Reading and learning. - Springer Berlin Heidelberg, 2004. - С. 103-122.

12. Brouwers L., Bernhard D., Ligozat A., Francёois T. Syntactic sentence simplification for french // Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR)@EACL. - 2014. - С. 47-56.

13. Burstein J. et al. The automated text adaptation tool // Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. - Association for Computational Linguistics, 2007 - С. 3-4.

14. Chandrasekar R., Srinivas B. Automatic induction of rules for text simplification // Knowledge-Based Systems. - 1997 - Т. 10. - №3. - С. 183-190.

15. Coster W., Kauchak D. Simple English Wikipedia: a new text simplification task // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. - Association for Computational Linguistics, 2011. - С. 665-669.

16. Crossley S.A., Allen D.B., McNamara D.S. Text readability and intuitive simplification: A comparison of readability formulas //Reading in a foreign language. - 2011. - Т. 23. - №1. - С. 86.

17. Crossley S., Yang H.S., McNamara D. What's so simple about simplified texts? A computational and psycholinguistic investigation of text comprehension and text processing // Reading in a Foreign Language. - 2014. - Т. 26. - №1. - С. 92.

18. De Belder J., Deschacht K., Moens M.F. Lexical simplification // Proceedings of ITEC2010: 1st international conference on interdisciplinary research on technology, education and communication. - 2010.

19. De Belder J., Moens M.F. Text simplification for children // Prroceedings of the SIGIR workshop on accessible search systems. - ACM, 2010. - С. 19-26.

20. Drndarevic B., Saggion H. Reducing text complexity through automatic lexical simplification: An empirical study for Spanish //Procesamiento del lenguaje natural. - 2012. - Т. 49. - С. 13-20.

21. Feng L. Text simplification: A survey // The City University of New York, Tech. Rep. - 2008.

22. Grigonytй G. et al. Improving readability of Swedish electronic health records through lexical simplification: First results // European Chapter of ACL (EACL), 26-30 April, 2014, Gothenburg, Sweden. - Association for Computational Linguistics, 2014. - С. 74-83.

23. Inui K. et al. Text simplification for reading assistance: a project note //Proceedings of the second international workshop on Paraphrasing-Volume 16. - Association for Computational Linguistics, 2003. - С. 9-16.

24. Jiang J.J., Conrath D.W. Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. - 1997.

25. Jurafsky D., Martin J.H. Speech and language processing //International Edition. - 2000.

26. Kandola J., Cristianini N., Shawe-taylor J.S. Learning semantic similarity // Advances in neural information processing systems. - 2002 - С. 657-664.

27. Kandula S., Curtis D., Zeng-Treitler Q. A semantic and syntactic text simplification tool for health content // AMIA Annu Symp Proc. - 2010 - Т. 2010. - С. 366-70.

28. Karpov N. Corpus-Based Text Retrieval and Adaptation for Learning System, in: International Conference on Advances in Computing and Information Technology - ACIT 2014. Newark: Institute of Research engineers and Doctors, 2014. P. 60-65.

29. Karpov N., Vitugin F., Baranova J. Single-sentence Readability Prediction in Russian, in: Analysis of Images, Social Networks and Texts / Науч. ред.: D.I. Ignatov, M. Khachay, A. Panchenko, N. Konstantinova, R. Yavorsky. Vol. 436: 3rd International Conference on Analysis of Images, Social networks, and Texts. NY: Springer, 2014. Ch. 436. P. 91-100.

30. Karpov N., Sibirtseva V. Towards Automatic Text Adaptation In Russian // Higher School of Economics Research Paper No. WP BRP. - 2014. - Т. 16.

31. Karpov N., Sibirtseva V. Development of modern electronic textbook of Russian as a foreign language: content and technology / Издательский дом НИУ ВШЭ. Series WP "Working Papers of Humanities". 2012. No. 2012-6.

32. Keskisдrkkд R. Automatic text simplification via synonym replacement - 2012.

33. Kocharov D. Evaluation of Lemmas N-grams for the Russian Language.

34. Korobov M.: Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. - 2015. - p. 320-332.

35. Kozielski M. et al. Open-lexicon Language Modeling Combining Word and Character Levels // Frontiers in Handwriting Recognition (ICFHR), 2014 14th International Conference on. - IEEE, 2014. - С. 343-348.

36. Navigli R., Lapata M. An experimental study of graph connectivity for unsupervised word sense disambiguation //Pattern Analysis and Machine Intelligence, IEEE Transactions on. - 2010. - Т. 32. - №4. - С. 678-692.

37. Panchenko A. et al. A study of heterogeneous similarity measures for semantic relation extraction // JEP-TALN-RECITAL 2012, volume 3: RECITAL. - 2012.

38. Panchenko A., Morozova O. A study of hybrid similarity measures for semantic relation extraction // Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. - Association for Computational Linguistics, 2012. - С. 10-18.

39. Panchenko A. et al. A Semantic Similarity Measure Based on Lexico-Syntactic Patterns // Proceedings of KONVENS 2012 - 2012. 38. S.E. Petersen, M. Ostendorf. Text Simpli?cation for Language Learners

40. Petersen S.E., Ostendorf M. Text simplification for language learners: a corpus analysis // SLaTE. - 2007. - С. 69-72.

41. Ramisch, C. N-gram Models for Language Detection. - 2008.

42. Rello L. et al. Simplify or help? Text simplification strategies for people with dyslexia // Proceedings of the 10th International Cross-Disciplinary Conference on Web Accessibility. - ACM, 2013 - С. 15.

43. Saggion H. et al. Text simplification in simplext. making text more accessible // Procesamiento del lenguaje natural. - 2011. - Т. 47 - С. 341-342.

44. Shardlow M. A survey of automated text simplification //International Journal of Advanced Computer Science and Applications. - 2014 - Т. 4 - №1.

45. Siddharthan A. A survey of research on text simplification // ITL-International Journal of Applied Linguistics. - 2014. - Т. 165. - №2 - С. 259-298.

46. Siddharthan A. Syntactic simplification and text cohesion //Research on Language&Computation. - 2006. - Т. 4. - №1 - С. 77-109.

47. Siddharthan A. Text simplification using typed dependencies: A comparison of the robustness of different generation strategies //Proceedings of the 13th European Workshop on Natural Language Generation. - Association for Computational Linguistics, 2011. - С. 2-11.

48. Spasiж I., Ananiadou S. A flexible measure of contextual similarity for biomedical terms // Pacific Symposium on Biocomputing. - 2004. - С. 197-208.

49. Vajjala S., Meurers D. Readability assessment for text simplification: From analysing documents to identifying sentential simplifications // ITL-International Journal of Applied Linguistics. - 2014. - Т. 165. - №2. - С. 194-222.

50. Woodsend K., Lapata M. WikiSimple: Automatic Simplification of Wikipedia Articles // Aaai. - 2011.

51. Yea Seul Kim, Hullman J., Adar E. DeScipher: A Text Simplification Tool for Science Journalism // Computation+Journalism Symposium. - 2015.

52. Андрюшина Н.П. и др. Требования по русскому языку как иностранному. Первый уровень. Общее владение / Н.П. Андрюшина и др. // М.-СПб.: ЦМО МГУ - «Златоуст», 2007. - 32 с.

53. Н.В. Арефьев, А.И. Панченко, А.В. Луканин и др. Сравнение трёх систем семантической близости для русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Москва, 27-30 мая 2015 г.). Вып. 14 (21). -- Т. 2. -- Изд-во РГГУ Москва, 2015. -- С. 116-128.

54. Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко О перспективах создания системы автоматического распознавания слитной устной русской речи / Интеллектуальные системы. Вып. 1-4. - T. 8. - Москва, 2004. - C. 45-70.

55. Баранова Ю.Н., Елипашева Т.С. Создание вспомогательного информационного ресурса для анализа учебных текстов на русском языке / Ю.Н. Баранова, Т.С. Елипашева // Человек в информационном пространстве. Яр.: ЯГПУ. - 2014. - С. 232-246.

56. Будников Е. А. Обзор некоторых статистических моделей естественных языков // Машинное обучение и анализ данных. - С. 245.

57. Гудков В.Ю., Гудкова Е.Ф. N-граммы в лингвистике //Вестник Челябинского государственного университета. - 2011. - №24.

58. Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка //Труды СПИИРАН. - 2010. - Т. 1. - №12. - С. 35-49.

59. Ланко А.А. О задаче определения стиля документов на естественном языке // Молодежный научно-технический вестник. - 2015.

60. Леонтьева Н.Н. О методах смысловой компрессии текста // Интернет и современное общество. - 2007. - С. 269-273.

61. Первухина С.В. Адаптированный художественный текст: способы повышения понятности // Вестник Челябинского государственного университета. - 2011. - №25.

62. Сибирцева В.Г., Карпов Н.В. Автоматическая адаптация текстов для электронных учебников / В.Г. Сибирцева, Н.В. Карпов // Новая русистика. - 2014. - №7. - с.19-33.

63. Черняк В.Д. Русский язык и культура речи: учебник / А.И. Дунаев и др.; под общ. ред. В.Д. Черняк. - М.: Издательство Юрайт; ИД Юрайт, 2011. - 493 с. - Серия: Основы наук.

Приложение 1

Текст, упрощённый при помощи краткого словаря замен и языковой модели на символьных четырёхграммах

Иван Купала в России. Русские купальские обряды

Издревле все народы мира отмечали в конце июня праздник вершины лета. На Руси таковым праздником является Иван Купала. В ночь с 23 на 24 июня все праздновали этот мистический, загадочный, но в то же время разгульный и весёлый праздник, полный обрядовых действий, правил и запретов, песен, приговоров, всевозможных примет, гаданий, сказок, поверий.

Еще в пору язычества у древних русичей жило божество Купало, олицетворяющее летнее плодородие. В его честь вечерами и распевали песни, и прыгали через костер. Это обрядовое действие превратилось в ежегодное празднование летнего солнцестояния, смешивая в себе языческую и христианскую традицию. Иваном божество Купало стало называться после крещения Руси, когда его заместил не кто иной, как Иоанн Креститель (точнее -- его народный образ), крестивший самого Христа и чье рождество праздновалось 24 июня.

Купальские обряды

В это день люди опоясывались перевязями из цветов, на голову надевали венки из трав. Водили хороводы, пели песни, разводили костры, в середину которых ставили шест с укрепленным на нем горящим колесом -- символом солнца.

В песнях, которые распевались в деревнях, Купала называется любовным, чистоплотным, веселым. В день Ивана Купалы девушки завивали венки из трав, а вечером пускали их в воду, наблюдая, как и куда они плывут. Если венок тонет, значит, суженый разлюбил и замуж за него не выйти.

На Иванов день принято было обливать грязной водой всякого встречного. Считалось, чем чаще человек бежит купаться, тем чище будет его душа. Купаться же было предписано на заре: тогда купание владело целебной силой.

В купальную ночь разжигали очищающие костры. Вокруг них плясали, через них прыгали, кто удачнее и выше -- тот будет счастливее. В купальских кострах матери сжигали снятые с хворых детей рубашки, чтобы вместе с этим бельём сгорели и самые болезни. Молодёжь, напрыгавшись через костры, устраивали шумные весёлые игры, потасовки, бег наперегонки. Непременно играли в горелки.

В народе верили, что все чудодейственные и целебные травы распускаются как раз в ночь на Ивана Купалу. Поэтому знающие и опытные люди, а особенно сельские лекари и знахари, ни под каким видом не пропускали Ивановой ночи и собирали целебные коренья и травы на весь год.

Ходили слухи, что в полночь на Купалу расцветает папоротник. Чудесный огненный цветок может указать счастливцу местонахождения всех кладов, как бы глубоко они ни были зарыты. Около полуночи на широких листьях папоротника появляется почка, которая поднимается все выше, выше, потом шатается, переворачивается и начинает «прыгать». Ровно в полночь созревшая почка с треском раскрывается и из нее появляется огненно - красный цветок. Человек сорвать его не может, но если увидит, все его пожелания исполнятся.

С днем Ивана Купалы люди связывали знания о чудесах. В ночь на Купалу нельзя было спать, так как оживала и становилась активной вся нечисть: ведьмы, оборотни, упыри, русалки... Считалось, что на Ивана Купалу ведьмы тоже справляют свой праздник, стараясь как можно больше причинить зла людям.

Вот так и проходил праздник Ивана Купалы -- в разгульных обрядах, гаданиях и прочих веселых и милых шалостях

Выполненные замены:

существовало - > жило

обладало - > владело

деревенские - > сельские

сорочки - > рубашки

представления - > знания

легенд - > сказок

Варианты выполненных замен:

Другие возможные замены:

всевозможных - > разный

чудесах - > чудо

весёлый - > смешной

середину - > центр

лекари - > доктор

обладало - > иметь

всякого - > разный

удачнее - > хороший

хворых - > больной

чистоплотным - > честный

иной - > другой

всякого - > любой

хворых - > слабый

всякого - > каждый

чаще - > лес

прочих - > другой

божество - > бог

чистоплотным - > чистый

приговоров - > решение

были - > факт

весёлые - > смешной

Приложение 2

Код, использовавшийся для создания списка простых слов

import re

clean = open('cleantexts.txt', 'w+', encoding = 'utf-8')

with open('wordlist.txt', encoding='utf-8') as f:

words = f.readlines()

new = []

for i in words:

if (i[:-1] not in new) and (re.findall('\s+', i[:-1]) = []) and i[0].isalpha():

new.append(i[:-1])

new.sort(key = lambda x: x[0])

for i in new:

clean.write(i)

clean.write('\n')

clean.close()

Приложение 3

Код, использовавшийся для извлечения синонимов из онлайн-словаря

import lxml.html as html

f = open('cleantexts.txt', 'r', encoding='utf-8')

vocab = f.readlines()

f.close()

vocabulary = []

for i in vocab:

vocabulary.append(i[:-1])

def synonyms(word):

wordlist=[]

synonyms = []

try:

page = html.parse("http://slova.zkir.ru/dict/{}".format(word))

root = page.getroot()

words = root.find_class("synonim")

for i in range(len(words)):

if words[i].text_content() not in wordlist:

wordlist.append(words[i].text_content())

except OSError: pass

for i in wordlist:

if (i[0] == ' ') and (i.count('-') == 0) and (i[1:].count(' ') == 0) and (i[1:] not in

vocabulary):

synonyms.append(i[1:])

elif (i[0] != ' ') and (i.count('-') == 0) and (i.count(' ') == 0) and (i not in

vocabulary):

synonyms.append(i)

return synonyms

with open('synonyms.txt', 'w+', encoding = 'utf-8') as f:

for word in vocabulary[6:]:

syns = synonyms(word)

for i in syns:

f.writelines(i + ' ' + word + '\n')

Приложение 4

Код, использовавшийся для составления грамматических пар

import pymorphy2

morph = pymorphy2.MorphAnalyzer()

def grammar_pairs(s):

word1 = s.split()[0]

word2 = s.split()[1]

form1 = morph.parse(word1)[0]

form2 = morph.parse(word2)[0]

lex1 = form1.lexeme

grammar_pairs = []

if form1.tag == form2.tag:

lex2 = form2.lexeme

if len(lex1) == len(lex2):

for i in range(len(lex1)):

grammar_pairs.append('{} {} {}'.format(lex1[i].word, lex2[i].word, '1'))

else:

for i in range(len(lex1)):

grammar_pairs.append('{} {} {}'.format(lex1[i].word, form2.word, '0'))

else:

for i in range(len(lex1)):

grammar_pairs.append('{} {} {}'.format(lex1[i].word, form2.word, '0'))

return grammar_pairs

gr_pairs = open('grammarpairs2.txt', 'w+', encoding='utf-8')

with open('synonyms2.txt', 'r', encoding = 'utf-8') as f:

p = f.readlines()

for i in p:

try:

for ii in grammar_pairs(i):

gr_pairs.write(ii)

gr_pairs.write('\n')

except:

pass

gr_pairs.close()

f1 = open('substitutions2.txt', 'w+', encoding='utf-8')

with open('grammarpairs2.txt', 'r', encoding='utf-8') as f:

fl = f.readlines()

r = list(set(fl))

r.sort(key=lambda x: x[0])

for i in r:

f1.write(i)

f1.close()

Приложение 5

Код, использовавшийся для вычисления частоты и вероятности н-граммов

Страница:

дипломная работа "Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне" скачать

Подобные документы

Направления компьютерной лингвистики
Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

реферат [19,0 K], добавлен 02.11.2008
Создание программы-переводчика текстов с английского на русский язык
Лингвистическое обеспечение автоматизированной системы. Алгоритмы сортировки методом прохождения бинарного дерева. Перевод входной строки в инфиксной форме в постфиксную. Конструирование программы-переводчика с английского на русский язык в Delphi.

курсовая работа [1,2 M], добавлен 18.08.2009
Разработка Web-приложения "Зоопарк"
Основные инструменты построения Web-приложения. Язык сценариев PHP. Системный анализ предметной области базы данных. Коды SQL запросов на создание таблиц. Разработка Web-приложения. Описание функциональности модулей. Система управления содержимым статей.

курсовая работа [4,8 M], добавлен 28.04.2014
Проектирование мобильного приложения
Разработка приложения для проверки использования времен глаголов в английском языке. Создание базы данных. Анализ используемых средств для реализации автоматического разбора текста. Проектирование мобильного приложения с помощью диаграмм деятельности.

дипломная работа [2,6 M], добавлен 13.09.2017
Разработка мобильного приложения "SuperraceGT3000"
Создание, изучение и разработка приложение на Android. Среда разработки приложения DelphiXE5. Установка и настройка среды программирования. Этапы разработки приложения. Инструменты для упрощения конструирования графического интерфейса пользователя.

курсовая работа [1,6 M], добавлен 19.04.2017
Работа в редакторе Word 2000
Пользовательский интерфейс редактора Word 2000. Работа с документом на уровне файловых операций. Интеграция OLE-объектов в Word. Создание и редактирование файлов HTML. Средства рисования и решение задач в Word. Редактирование текста и оформление таблиц.

реферат [75,4 K], добавлен 16.07.2010
Имитационное моделирование
Язык GPSS как один из наиболее эффективных и распространенных языков моделирования сложных дискретных систем. Транзакт - элемент системы массового обслуживания. Решение задач на основе моделирования с применением языка GPSS, создание имитационной модели.

курсовая работа [54,7 K], добавлен 25.11.2010
Редактирование текста в MS Word
Интерфейс текстового редактора MS Word. Редактирование и форматирование текста в MS Word, вставка таблиц, текста WordArt и объектов из другого приложения. Создание схематических диаграмм, использование данных из табличного процессора Microsoft Excel.

презентация [1022,7 K], добавлен 05.06.2015
Создание web-приложения, представляющего собой интернет–магазин по продаже специализированного оборудования для ПК
Основы Web-программирования. Сервер баз данных MySQL. Язык сценариев PHP. Язык гипертекстовой разметки HTML. Назначение и цели разработки сайта. Форма входа и регистрации, обратная связь интернет–магазина. Требования к структуре сайта, описание контента.

курсовая работа [754,5 K], добавлен 02.06.2014
Средства и технологии обработки текстовой информации
Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

курсовая работа [35,0 K], добавлен 25.04.2013

Другие документы, подобные "Автоматическая адаптации учебных текстов для изучающих русский язык, её решение на лексическом уровне"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.