Проектирование портала для анализа и оценки стиля научных текстов

Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 27.08.2017
Размер файла 2,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Важной особенностью портала является необходимость хранения большого количества данных - корпусов произвольного размера, предустановленных и от различных пользователей. Использование облачных технологий позволит справиться с этой задачей. Сравнение существующих облачных платформ с точки зрения развёртывания хранилища корпусов и веб-сервисов было также проведено в работе [1]. На основе различных характеристик - вычислительных мощностей, организации хранилища данных, возможности разработки решений на разных языках программирования, политики ценообразования и наличия пробного использования - предпочтение было отдано платформе «Microsoft Azure». Результаты анализа платформ приведены ниже в таблице 2.2.

Таблица 2.2. Сравнительный анализ облачных платформ [1]

Характеристика

Amazon EC2

Google App Engine

Microsoft Azure

Вычислительные мощности виртуальных машин

Память хранилища (ГБ)

4 до 48 000.

Нет ограничений.

4 до 64 000.

Память оперативная (ГБ)

1-244.

3,75-208.

0,768 - 448.

Процессоры (количество)

1-40.

1-32.

1-32.

Операционные системы

Linux(CentOS, Debian, SUSE ит.д.), Windows Server.

Linux(CentOS, Debian, SUSE ит.д.) Windows Server.

Linux (CoreOS, CentOS, SUSE, ORACLE), Windows Server.

Хранилище данных

Реляционное хранилище.

Максимальный размер 64 ТБ.

Максимальный размер 500 ГБ.

Максимальный размер 500ГБ.

BLOB.

Не могут превышать 5 Тб. Ограничений на общий объем данных и количество объектов нет.

Максимальный размер объекта составляет 2 ГБ, но каждый вызов API может обрабатывать только максимум 1 МБ.

Блочный BLOB не превышает 200 ГБ. Страничный BLOB не превышает 1 ТБ. Одна учетная запись может содержать до 500 ТБ.

Табличное хранилище.

Таблицы организуются в “домены”, размер которых не может превышать 10 Гб. На количество “доменов“ ограничений не существует.

Для сохранения одной сущности выделяется до 1 ГБ памяти, количество операций чтения и записи являются неограниченными.

Запись может иметь до 255 полей и не может превышать 1 Мб размере. Размер объектов в одном аккаунте не может превышать 500 Тб.

Разработка решений

Портал разработчика

Да.

Да.

Да.

EclipseTools

Да.

Да.

Да.

VisualStudioTools

Да.

Да, но только Python.

Да.

Java SDK

Да.

Да.

Да.

Мобильное SDK

iOS, Android, Fire OS.

iOS, Android.

iOS, Android, Windows Phone.

PHP SDK

Да.

Да.

Да.

Python SDK

Да.

Да.

Да.

Ruby SDK

Да.

Нет.

Да.

.NET SDK

Да.

Нет.

Да.

Мониторинг состояния сервисов

Amazon CloudWatch.

Диагностическое API.

Диагностическое API.

Ценообразование

Плата производиться по факту использования.

Плата производиться по факту использования.

Плата производиться по факту использования.

Пробное использование

12 месяцев, 750 часов/месяц на виртуальную машину, BLOB хранилище на 5 Гб, 20000 запросов на получение и 2000 на отправку. База данных NoSQL размером 25 Гб и 200 миллионов запросов в месяц.

Дается 300 долларов на любые службы Googleappengine в течение 60 дней.

Дается 10 000 рублей на любых служб Azure в течение 30 дней. По программе «BizSpark» можно получить 750 $ на 5 разработчиков в течение 3 лет. А также необходимо программное обеспечение от компании «Microsoft».

Выводы по главе 2

Сформулированные функциональные и нефункциональные требования к порталу для анализа и оценки академического стиля направлены на расширение возможностей использования функций портала при сохранении дружественности интерфейса для пользователей любой квалификации. Основные понятия области применения метода оценки качества стиля текста на основе сравнения с эталонным корпусом отражены в виде множества взаимосвязанных понятий и могут быть в дальнейшем использованы при создании соответствующих классов.

Функциональные требования представлены в виде диаграмм вариантов использования. Базовые сценарии использования приложения включают: анализ корпуса для пользователей-лингвистов, получение рекомендаций по отдельной статье для пользователей, не являющихся специалистами, и использование социальной части портала. Подобная формализация позволяет описать на её основе жизненный цикл системы и выделить функциональные компоненты портала.

Глава 3. Проектирование портала для анализа и оценки стиля научных текстов

В данной работе проводится проектирование портала на уровне эскизного проекта. В предыдущей главе уже описаны понятия предметной области и варианты использования портала. На основе имеющихся функциональных и нефункциональных требований необходимо провести следующие этапы проектирования:

? моделирование жизненного цикла системы для определения порядка работы с системой;

? моделирование взаимодействия компонентов системы в ходе жизненного цикла;

? разработка архитектуры портала на основе проведённого моделирования;

? разработка макетов интерфейса.

Следует уточнить, что при проектировании основной акцент делается на двух основных сценариях использования портала: анализ корпуса и формирование рекомендаций для статьи пользователя.

3.1. Моделирование жизненного цикла системы и взаимодействия её компонентов

Моделирование жизненного цикла системы производится в виде диаграммы активностей в нотации UML. Процесс работы с порталом достаточно масштабный, поэтому разделён на несколько диаграмм. На рис. 3.1 представлен порядок действий пользователя, обозначенного как User. В следующих диаграммах будут подробно рассмотрены активности «Открытие корпуса», «Разметка корпуса по новому типу аннотации», «Формирование отчёта/рекомендаций».

Рисунок 3.1. Основная диаграмма активностей

Под выбором сценария подразумевается выбор процесса анализа корпуса или формирования рекомендаций для отдельной статьи. В случае последнего варианта пользователь загружает статью перед переходом к выбору корпуса.

В следующих диаграммах помимо пользователя-«User» в качестве акторов выделены различные компоненты, которые могут представлять собой отдельные сервисы. Их описание приведено в таблице 3.1.

Таблица 3.1. Описание сервисов портала

Обозначение

Название компонента

Функции

System

Компонент взаимодействия с пользователем (далее Система)

Осуществляет взаимодействие с пользователем (функции интерфейса), управление остальными сервисами (функции диспетчера)

Search Engine

Сервис поиска корпусов

Выполняет поиск корпуса по запросу

Corpus Visualizer

Визуальный редактор разметки

Визуализирует разметку корпуса для пользователя, предоставляет возможность ручного редактирования разметки (добавления/редактирования/удаления аннотаций)

PR Editor

Визуальный редактор лексико-синтаксических шаблонов

Предоставляет интерфейс для создания лексико-синтаксических шаблонов и формирует на их основе обрабатывающие ресурсы для автоматической разметки корпуса

Annotator

Компонент разметки корпуса

Наносит разметку документа/корпуса автоматически, используя обрабатывающие ресурсы, соответствующие типам аннотаций

Statistics Processor

Компонент сбора статистики

Собирает статистические данные на основе разметки корпуса

Report Generator

Компонент формирования отчётов

Формирует отчёты-анализы и отчёты-сравнения, используя статистические данные; производит сравнение характеристик документа и корпуса

На рис. 3.2 представлена диаграмма активностей «Открытие корпуса». В ходе этого процесса:

1. Пользователь выбирает в интерфейсе параметры и передаёт запрос на поиск корпуса.

2. Система формирует поисковый запрос и передаёт его сервису поиска корпусов.

3. Сервис поиска корпусов осуществляет выборку соответствующих корпусов и возвращает ранжированный список Системе.

4. Система выводит список найденных корпусов пользователю.

5. Пользователь выбирает корпус. При этом в систему передаётся его идентификатор.

6. Система вызывает визуальный редактор разметки и передаёт данные корпуса.

7. Визуальный редактор разметки визуализирует корпус.

8. Пользователь просматривает корпус.

Рисунок 3.2. Диаграмма активностей «Открытие корпуса»

После открытия корпуса пользователь может отредактировать разметку вручную (данная активность опущена на диаграмме) или перейти на следующий шаг анализа. Рассмотрим вариант, когда пользователю необходимо автоматически разметить корпус, создав собственный тип аннотаций (рис. 3.3).

Рисунок 3.3. Диаграмма активностей «Разметка корпуса по новому типу аннотации»

1. Пользователь делает запрос на создание нового типа аннотации.

2. Система передаёт команду визуальному редактору лексико-синтаксических шаблонов.

3. Визуальный редактор начинает взаимодействие с пользователем.

4. Пользователь создаёт набор шаблонов для выделения аннотаций.

5. Пользователь сохраняет тип аннотации.

6. Визуальный редактор лексико-синтаксических шаблонов генерирует обрабатывающий ресурс для автоматического нанесения разметки на основе полученного набора шаблонов.

7. Пользователь запрашивает разметку корпуса по созданному типу аннотации.

8. Система передаёт запрос с указанием обрабатывающего ресурса компоненту нанесения разметки.

9. Компонент нанесения разметки запускает обрабатывающий ресурс.

10. После окончания обработки система сохраняет разметку и передаёт запрос на визуализацию корпуса с новой разметкой.

11. Визуальный редактор разметки отображает корпус пользователю.

12. Пользователь просматривает корпус.

Последняя диаграмма описывает процесс генерации отчётов обоих типов. Диаграмма представлена на рис. 3.4. Ниже приведено описание активностей:

1. Если необходима настройка параметров отчёта, пользователь выбирает типы разметки и типы статистики.

2. Пользователь передаёт запрос на формирование отчёта по корпусу или рекомендаций по статье.

3. При формировании рекомендаций система передаёт компоненту разметки запрос на разметку статьи.

4. Компонент разметки запускает обрабатывающие ресурсы, соответствующие выбранному корпусу, пока набор типов разметки не будет соответствовать.

5. Система передаёт компоненту сбора статистики запрос на анализ корпуса или формирование рекомендаций.

Рисунок 3.4. Диаграмма активностей «Формирование отчёта/рекомендаций»

6. Компонент собирает статистику по корпусу. Если формируются рекомендации, также собирается статистика по этому документу. Данные передаются компоненту формирования отчётов.

7. Компонент формирования отчётов формирует отчёт-анализ или проводит сравнительный анализ статьи и корпуса и формирует отчёт-рекомендации (отчёт-сравнение).

8. Система выводит отчёт пользователю.

9. Пользователь просматривает/скачивает отчёт.

Представленные диаграммы активностей описывают цикл работы пользователя портала по основным сценариям без учёта некоторых вариантов использования, которые будут восстановлены при дальнейшей реализации портала. При проектировании также выделились компоненты, сервисы портала, которые выполняют отдельную смысловую функцию.

Взаимодействие пользователя и различных частей портала для сценариев анализа корпуса и формирования рекомендаций (без разметки корпуса) представлено в виде диаграмм последовательностей в Приложении В. На этих диаграммах отражено содержание запросов, которые передают друг другу акторы.

3.2. Архитектура портала

Как показано в предыдущем разделе, различные функции портала могут быть разделены на взаимодействующие друг с другом, но сравнительно независимые компоненты-сервисы. Подобное разделение хорошо подходит для распределённых систем и позволяет оптимально распределять нагрузку между серверами и повышает надёжность системы.

Функции описанных сервисов могут быть условно разделены на функции интерфейса, отвечающие за взаимодействие с пользователем, бизнес-логику - основные инструменты портала, предназначенные для анализа корпусов и формирования рекомендаций для отдельных статей, и работу с данными. Портал должен иметь базу данных для хранения пользовательской информации, а также отдельное хранилище для корпусов, т.к. они могут занимать большие объёмы памяти. Таким образом архитектура портала является частным случаем трёхслойной архитектуры [16]. Упрощённое описание архитектуры представлено на рисунке 3.5.Трёхслойная архитектура предполагает наличие следующих элементов:

? слой интерфейса (представления);

? слой приложения (домена, бизнес-логики);

? сервер БД (источник данных).

Портал является браузерным приложением и работает с тонким клиентом. Слой интерфейса отвечает за взаимодействие с пользователем, а также содержит некоторые связанные с этим модули, такие как визуальный редактор разметки и визуальный редактор лексико-синтаксических шаблонов.

Последние два модуля могли бы быть вынесены на слой бизнес-логики, однако их роль больше связана с интерфейсом и обеспечением более удобной и понятной для пользователя работы по анализу корпусов, нежели с основной задачей портала.

Рисунок 3.5. Упрощённое описание архитектуры портала

Слой приложения содержит модули для выполнения основных функций по работе с корпусами, а также социальную часть портала. Сервис поиска корпусов позволит оперативно подбирать корпус в зависимости от указанных параметров, ключевых слов или даже, возможно, от всего текста загруженной пользователем статьи. Разработка этого модуля чрезвычайно важна для портала, т.к. качество оценки стиля статьи по реализуемому методу будет напрямую зависеть от степени семантической близости пользовательской статьи и эталонного корпуса.

Социальная часть портала включает в себя форум, инструкции по работе с порталом и коллекцию материалов, в том числе элементы, созданные пользователями и переведённые ими в общий доступ: например, новые обрабатывающие ресурсы, списки слов и т.д. с описаниями, а также результаты анализов корпусов, проведённых с помощью портала. Теоретически социальная часть может считаться частью слоя взаимодействия с пользователем, однако из-за более тесной связи с базой данных и необходимостью обеспечивать интеллектуальный поиск (по аналогии с поиском корпусов) в данной архитектуре он является частью слоя приложения. Стоит отметить, что указанные в данном слое сервисы, как и модули визуальных редакторов в слое представления, являются достаточно независимыми и могут быть развёрнуты на различных серверах в случае большой нагрузки.

Наиболее важным для портала является сервис обработки корпусов, который и выполняет основную функцию системы - анализ корпусов и формирование рекомендаций по качеству стиля для отдельных статей. Согласно предложенному методу анализа корпусов, его следует выполнять в три этапа, каждый из которых реализован в отдельном компоненте архитектуры. Предполагается, что данный сервис будет активно использовать ресурсы библиотеки GATEEmbedded для работы с корпусами текстов и созданные с её помощью специальные элементы.

Первый компонент - компонент разметки корпуса. Он отвечает за обработку выбранного корпуса с помощью имеющихся ресурсов, созданных на основе имеющихся плагинов среды GATE (например, базовые плагины для токенизации, разбиения на предложения, морфологического разбора), специализированных изначально добавленных в систему обрабатывающих ресурсов (к таким будут относиться средства для нанесения маркеров стиля по критериям, обозначенным в предыдущих главах) или обрабатывающих ресурсов, созданных пользователем с помощью визуального редактора лексико-синтаксических шаблонов. Последние будут также использовать специализированные плагины, написанные с помощью библиотек GATE Embedded, только настроенные на выделение пользовательских лингвистических конструкций, списков слов и др.

Разметка корпуса является необходимым для дальнейшего анализа этапом, однако при использовании корпусов, уже имеющихся в системе, дополнительная разметка может не понадобиться, особенно при использовании портала «не лингвистами» для оценки качества стиля собственных статей. Поэтому работа данного компонента может быть пропущена. Стоит уточнить, что при разметке корпуса с помощью некоторых лексико-синтаксических шаблонов может понадобиться ручное редактирование аннотаций, поэтому между этапом разметки и этапом сбора статистики нужна возможность возвращения результатов в интерфейс для работы с пользователем. Этим, в частности, объясняется само разделение компонентов разметки и сбора статистики.

Таким образом, компонент разметки корпуса получает на вход корпус и список обрабатывающих ресурсов, аннотации от которых должны быть нанесены на корпус. Для новых корпусов, которые ещё не имеют разметки и, соответственно, аннотаций никаких типов, перед запуском обрабатывающих ресурсов по умолчанию проводится базовая обработка от токенизации до морфологического разбора. На выходе сервис, реализуемый данным компонентом, выдаст корпус с обновлённой разметкой. Корпус и разметка принимаются и выдаются в формате, пригодном для вывода в интерфейс, обработки с помощью ресурсов GATE и последующих компонентов. При необходимости можно встроить механизмы конвертации в удобные для пересылки данных форматы и обратно для модулей визуализации и компонентов сервиса обработки корпусов.

Вторым этапом как анализа, так и формирования рекомендаций по стилю статьи, является сбор статистики по имеющейся разметке. Данный сервис принимает в качестве входных данных:

? размеченный корпус;

? список «тегов», т.е. типов аннотаций, которые будут учитываться при сборе статистики;

? типы статистических характеристик, которые должны быть вычислены для отчёта.

Этот компонент подсчитывает базовые характеристики, например, количество слов в документе, количество аннотаций определённого типа в документе, количество предложений, содержащих такие аннотации и т.д. Затем на их основе вычисляются указанные во входных данных статистические характеристики - как для корпуса в целом, так и для отдельных документов. В качестве выходных данных выводятся вычисленные значения характеристик в удобном формате, например, XML-файла.

Последний компонент сервиса отвечает за создание отчётов по анализу корпуса и формирование рекомендация для отдельной статьи на основе сравнения с эталонным корпусом по теме. Для анализа корпуса необходимо только вывести в определённом удобном для пользователя формате, формирование рекомендаций же требует отдельной обработки статистических характеристик документа и эталонного корпуса. Результат также выводится в удобном для пользователя формате в виде рекомендаций с указаниями на количественные различия между документом и средними результатами по корпусу.

Последний слой архитектуры - работа с данными: базой пользователей и их документов, корпусов, отчётов и других файлов, а также отдельное хранилище корпусов. Хранилище корпусов должно быть достаточно большим или по крайней мере масштабируемым, т.к. в ходе развития популярности портала предполагается размещение крупных коллекций документов.

Предложенная архитектура обеспечивает высокую степень масштабируемости и надёжность системы за счёт полной или относительной независимости отдельных её компонентов. Важным при дальнейшей разработке продукта будет являться выбор стандартов передачи данных между отдельными сервисами для повышения скорости, т.к. корпус текстов может быть достаточно объёмным - вплоть до нескольких тысяч документов.

3.3. Проектирование интерфейса для базовых сценариев использования

Далее приведено несколько макетов интерфейса для основных сценариев использования портала, а именно для анализа корпуса и формирования рекомендаций. При создании данных макетов учитывались диаграммы вариантов использования, описанные в главе 2. Макеты являются не окончательным вариантом дизайна, но могут быть опорой для разработчиков при реализации портала, т.к. созданы с учётом основных требований - дружественности интерфейса при сохранении гибкости и настраиваемости приложения.

В данной работе представлены макеты, соответствующие следующим прецедентам (см. диаграммы в разделе 2.4 и расшифровку в Приложении Б):

1. Выбрать корпус.

2. Посмотреть корпус.

3. Настроить разметку.

4. Выбрать типы статистики.

5. Получить рекомендации по стилю статьи.

3.3.1. Поиск и выбор корпуса

На рисунке 3.6 приведён макет интерфейса для поиска корпуса. Этот шаг является первым в процессе анализа корпуса, хотя сама функция может быть использована и вне этого процесса. В макете отражены следующие прецеденты:

? найти корпус по теме;

? посмотреть корпус;

? загрузить корпус;

? создать подкорпус;

? выбрать корпус.

Основной способ поиска корпусов - по ключевым словам, например, «computerscience», «нейронные сети» и др. Для уточнения результатов можно использовать расширенный поиск (данный элемент по умолчанию скрыт). Расширенный поиск позволяет выбирать корпуса с определёнными значениями параметров: размером, автором (в данном случае автор - пользователь, добавивший корпус), источником и т.д. Существуют также метки для обозначения особых свойств корпуса, не представленных в виде отдельного параметра.

В результатах поиска выводится список подходящих корпусов и их параметры. В последнем столбце «Действия» расположены кнопки, позволяющие открыть корпус, редактировать его (если у пользователя имеются права на редактирование данного корпуса), создать подкорпус (функция по примеру НКРЯ [10]) и т.д. Встав на строчку с нужным корпусом, можно выбрать его и продолжить анализ, нажав соответствующую кнопку.

Рисунок 3.6. Поиск корпуса

3.3.2. Просмотр корпуса и настройка разметки

Просмотр корпуса может выполняться как в качестве второго шага анализа, так и отдельно. На рисунке 3.7 приведён интерфейс для первого варианта. При просмотре корпуса, например, в ходе его выбора, интерфейс будет аналогичным, но некоторые действия по редактированию и созданию разметки будут недоступны. Макет отражает следующие прецеденты:

? посмотреть корпус;

? посмотреть документ корпуса;

? загрузить корпус, создать подкорпус;

? разметить корпус;

? нанести аннотацию вручную;

? выбрать существующий тип аннотации;

? создать тип аннотации;

? настроить разметку;

? сохранить разметку.

Основные параметры корпуса, такие как название, открытый или ограниченный доступ, метки, список включённых в него документов и др. указываются в начале страницы и являются нередактируемыми по умолчанию (но могут быть изменены в режиме редактирования пользователем, имеющим на это права). Полезно также хранить историю изменений всех параметров и элементов корпуса, включая разметку, чтобы иметь возможность откатить изменения в случае ошибки, а также для удобства совместного редактирования корпусов (такая возможность является одним из требований к приложению). Также на эту страницу вынесена кнопка создания корпуса на случай, если пользователь убедится в необходимости загрузки собственного корпуса в процессе просмотра других или захочет провести исследование над подкорпусом.

По умолчанию при просмотре корпуса показывается полный список входящих в него документов, однако для удобства просмотра отдельных текстов существует поиск по корпусу. Результаты поиска выводятся в таблице.

Инструмент поиска по корпусу также может быть использован полностью или частично для создания подкорпусов в разделе «Создать корпус». Как при расширенном поиске корпусов, здесь можно указать параметры текста: его размер (в количестве слов или знаков), автор (здесь: автор как непосредственный автор текста, а не загрузивший его пользователь), источник (например, журнал Scopus), дата публикации (самой статьи в источнике) или дата загрузки документа в корпус и другие параметры, которые будут сочтены необходимыми для анализа документов.

В таблице результатов поиска также есть столбец «Действия» для просмотра, редактирования, скачивания, удаления и других действий с документами, которые могут понадобиться в процессе просмотра, анализа или редактирования корпуса. Для отдельных документов также будет полезна история редактирования текста и разметки.

Рисунок 3.7. Просмотр корпуса и настройка разметки

Просмотр документа может осуществляться как на отдельной странице, так и на текущей. В процессе анализа окно просмотра документа также выполняет роль редактирования и настройки разметки. Окно просмотра сделано по аналогии со средой GATEDeveloper, но в упрощённом виде. Так, например, при наличии у одного слова нескольких аннотаций, при нажатии на него все аннотации будут указаны в нижней части окна в виде различных вкладок. Здесь же производится редактирование и удаление аннотаций. Добавить аннотацию вручную можно, выделив фрагмент текста и нажав кнопку «Добавить аннотацию». Некоторые аннотации могут иметь несколько вариантов расшифровки: для профессиональных лингвистов и обычных пользователей, как, например, обозначение существительного - NN.

Цветовое выделение различного типа аннотаций является одним из самых больших достоинств интерфейса программы GATEDeveloper и рекомендуется для повышения наглядности и общей дружественности интерфейса приложения. Легенда с расшифровкой и полным списком типов разметки находится в боковой части окна. При снятии галочки напротив типа разметки цветовые выделения аннотаций с этим типом не показываются в окне с текстом документа. Полезно также сделать инструмент для просмотра количества аннотаций каждого вида в открыть документе.

Важное замечание: в отличие от GATEDeveloper, где отображаются только типы аннотаций, которые есть в документе, данное приложение должно отображать все типы аннотаций, присутствующие в корпусе в целом. Так, например, если в открытом тексте нет ни одной аннотации с типом «Complexconjunction», данный тип аннотации может присутствовать в других документах корпуса и тоже может учитываться при анализе корпуса.

Раздел «Типы разметки» также выполняет функцию настройки списка типов аннотаций для дальнейшего анализа. По нажатию кнопки «Подробнее…» открывается окно, в котором можно:

? увидеть полный список использованных в корпусе аннотаций и их подробные описания;

? выбрать из имеющихся в разметке корпуса типов аннотации набор, который будет проанализирован;

? загрузить настройки, сохранённые ранее;

? разметить корпус по другим типам аннотации с помощью имеющихся обрабатывающих ресурсов или создать свой обрабатывающий ресурс с помощью визуального редактора лексико-синтаксических шаблонов (то же самое позволяет кнопка «Добавить тип» в главном окне);

? сохранить и опубликовать настройки разметки (например, «Типы разметки для анализа глагольных форм»).

После редактирования разметки корпуса можно сохранить или отменить изменения. Здесь также предлагается ввести версионность и ограничение прав доступа, чтобы над одним корпусом одновременно и независимо могли работать несколько групп исследователей и пользователей. Следующим шагом в анализе корпуса является настройка статистики.

3.3.3. Выбор типов статистики для отчёта

В портале будет некоторое количество общедоступных типов статистики с соответствующими описаниями - прецедент «Выбрать типы статистик». Также для повышения гибкости метода анализа требуется инструмент для создания пользовательских типов статистики - прецедент «Создать тип статистики». Пользовательские типы статистики могут использовать стандартные значения, такие как общее количество слов или аннотаций определённого типа в документах, в собственных формулах. Например, один сложный союз в предложении выделяется двумя аннотациями, поэтому для определения точной частоты встречаемости многие статистики касательно этого параметра необходимо разделить на 2. Такую формулу пользователь сможет создать с помощью конструктора формул. Базовая страница для выбора статистики показана на рис. 3.8.

Настройки статистики, как и настройки разметки корпуса, можно сохранить и загружать при повторном создании отчётов, а также опубликовать (при создании данного макета предполагалось, что открытие/ограничение доступа указывается при сохранении настроек). Наличие типов статистики в отчёте определяется наличием галочки напротив этого типа статистики в таблице, порядок их следования можно редактировать с помощью механизма drag'n'drop или специального мастера настройки оформления отчётов, если такой будет создан. После всех необходимых настроек пользователь может сформировать отчёт по анализу корпуса, сохранить его в системе, опубликовать и скачать.

Рисунок 3.8. Выбор типов статистики для отчёта

3.3.4. Проверка качества стиля статьи

Интерфейс проверки качества стиля статьи должен быть максимально простым, но в то же время давать возможность пользователям более высокой квалификации воспользоваться средствами, которые смогут улучшить точность рекомендаций. Поэтому, в отличие от ранее рассмотренных интерфейсов процесса анализа корпусов, макет части портала для проверки пользовательских статей (представлен на рис. 3.9) содержит все три условных шага процесса на одной странице. Макет отражает следующие прецеденты:

? открыть статью;

? загрузить статью;

? найти корпус по теме;

? посмотреть корпус;

? посмотреть разметку;

? разметить корпус;

? выбрать типы статистик;

? получить рекомендации по стилю статьи;

? сохранить рекомендации.

Рисунок 3.9. Проверка качества стиля пользовательской статьи

На первом шаге пользователь загружает статью или выбирает её из использованных им ранее. Список всех статей приведён в таблице, где можно выбрать одну из них, открыть её (в том числе для редактирования разметки) или удалить.

Далее требуется выбрать наиболее подходящий по теме корпус. Для этого можно перейти к поиску корпусов, который откроется в новом окне. Однако более удачным решением был бы автоматический подбор корпуса по тексту статьи. На данный момент наличие такой функции не является обязательным в портале, но на макете она предусмотрена в виде кнопки «Мне повезёт!» (аналог ранее существовавшей кнопки в поисковой системе Google). Параметры выбранного тем или иным способом корпуса отображаются ниже.

Также в проекте интерфейса этого этапа есть кнопки «Редактировать разметку» и «Настроить статистику». По умолчанию будут использованы все типы разметки, которые имеются в выбранном корпусе, и предустановленные настройки статистики. После нажатия кнопки «Получить рекомендации» будет сформирован соответствующий отчёт на основе корпуса и загруженной статьи. В ходе выполнения алгоритма проверки качества стиля статьи сама статья будет автоматически размечена с помощью тех же обрабатывающих ресурсов, что и выбранный корпус. Вид страницы после формирования рекомендаций показан на рисунке 3.10.

Поскольку рекомендации построены на результатах разметки статьи, важно визуализировать эту разметку, а также дать возможность подкорректировать её и получить рекомендации на основе уже исправленной разметки. При запуске алгоритма для статьи, уже имеющей разметку, соответствующую выбранному корпусу, повторная автоматическая разметка не производится.

Таким образом, пользователь фактически сможет получить рекомендации по статье, только загрузив её в систему и нажав кнопку. В то же время все этапы выполнены алгоритма смогут быть проконтролированы и настроены.

3.3.5. Уточнения к предложенному проекту интерфейса

Как уже было сказано выше, данные макеты интерфейса не являются окончательным дизайном, но предназначены для определения важных моментов, которые должны быть учтены при разработке портала. Кроме этого, есть уточнения, которые не были отражены в макетах и будут приведены в этом разделе.

Первое уточнение касается окон просмотра/редактирования корпуса, документа, разметки статьи и других. Эти функции используются в алгоритмах анализа и проверки работы, но могут также понадобиться пользователям в качестве отдельных инструментов. Например, при совместном редактировании разметки корпуса группой исследователей. Идея версионности корпусов и разметки, актуальная при том же варианте использования портала, уже была описана в комментариях к макетам интерфейса.

Рисунок 3.10. Просмотр результатов формирования отчёта

Наличие элементов, добавляемых пользователем - корпус, документ, аннотация, тип разметки, тип статистики и т.д. - приводит к необходимости создания «личного кабинета», где пользователь может продолжать работу с ними вне алгоритма: редактировать, размещать в открытом доступе или для ограниченной группы пользователей. Группам пользователей, работающим над одним проектом, также был бы удобен личный кабинет для группы или отдельного проекта.

Отдельно стоит отметить возможность разработки алгоритмов интеллектуального поиска, которые могли бы предлагать пользователям наиболее релевантные варианты при выборе корпуса, что значительно упростить работу непрофессиональных пользователей. В частности, при реализации алгоритма автоматического подбора корпуса по тексту статьи весь процесс формирования рекомендаций для пользователя будет состоять из загрузки статьи и нажатия кнопки. Такие улучшения помогут повысить порог вхождения пользователей и обеспечить удобство и, соответственно, популярность ресурса.

Вывод по главе

Для реализации портала предложена трёхслойная архитектура, которая обеспечит масштабируемость системы и улучшит её надёжность за счёт грамотного распределения нагрузки между сервисами и хранилищами данных, которые могут находиться на различных рабочих станциях. Информационная система с подобной архитектурой подходит для размещения на облачных сервисах, что также позволить регулировать потребление ресурсов в зависимости от популярности портала. Жизненный цикл системы и взаимодействие компонентов отражены в диаграммах активностей и последовательности.

Предложены прототипы интерфейса основных вариантов использования приложения. Важными требованиями к интерфейсу является простота и гибкость. В частности, это означает, что непрофессиональные пользователи должны иметь возможность загрузить и проверить свою статью за минимальное число действий, в то время как лингвистам-исследователям на каждом этапе работы могут потребоваться собственные расширения и контроль за результатами обработки корпуса.

Заключение

В ходе данного исследования были выделены функциональные и нефункциональные требования к реализации портала для анализа и оценки стиля научных публикаций на английском языке.

В целом есть два основных пути использования портала:

- Первый - это анализ статистических характеристик разметки корпуса для профессиональных лингвистов, проводящих исследования собственных корпусов.

- Второй - сравнение характеристик статьи пользователя с характеристиками эталонного корпусадля пользователей, которым не требуются дополнительные настройки с точки зрения лингвистики, только рекомендации системы.

Первый сценарий требует большой гибкости сервиса и работы с объёмными данными, второй - максимальной простоты интерфейса.

Функциональные требования к порталу представлены в виде диаграмм вариантов использования, основные процессы жизненного цикла системы и взаимодействие компонентов внутри системы также описаны с помощью диаграмм.

Функции портала естественным образом подразделяются на функции взаимодействия с пользователем, основные сервисы и работу с данными. В связи с этим для реализации портала предложена трёхслойная архитектура, каждый слой которого составляют взаимодействующие друг с другом, но фактически независимые компоненты. Подобная архитектура способствует улучшению масштабируемости и надёжности системы, т.к. каждый компонент может располагаться на отдельных серверах. Весь портал и хранилища данных могут быть размещены в облачном сервисе.

Ранее был создан исследовательский прототип приложения, выполняющего некоторые из будущих функций портала, на основе среды GATEDeveloper, библиотеки которой также будут использоваться в разработке функций разных компонентов портала: визуального редактора разметки, компонента разметки корпусов, компонента сбора статистики.

Понятия и концепции, использовавшиеся для моделирования предметной области, соответственно близки к терминологии среды. В целом разработанные модели предметной области, архитектура и макеты интерфейса вместе с комментариями дают эскизное представление об устройстве будущего портала и станут опорой для его разработчиков.

Работы по созданию портала для анализа и оценки стиля научных публикаций на английском языке являются частью исследований научно-учебной группы «Разработка программного обеспечения для проведения корпусных исследований английского языка» по теме «Разработка программного обеспечения для проведения стилистического исследования письменной научной речи на английском языке» (2017), поддержанных грантом Научного фонда НИУ ВШЭ (17-05-0020).

Результаты проведённых исследований были представлены на международных конференциях и в статьях [19], [35].

Библиографический список

1. Бармина Е. И. Система для обработки корпусов текстов / Е. И. Бармина, Р. Н Бушуев, Н. В. Котельникова, В. В. Ланин, О. А. Плотникова // Математика и междисциплинарные исследования - 2016. Пермь: Пермский государственный национальный исследовательский университет, 2016. С. 245-250.

2. Бартков Б. И., Минина Л. И., Миронец Ю. А. Структурные и функциональные особенности научного текста. Академия наук СССР, Дальневосточный науч. центр, Кафедра иностранных языков, 1985.

3. Большакова Е. И. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов / Е. И. Большакова, Н. В. Баева, Е. А. Бордаченкова, Н. Э. Васильева, С. С. Морозов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог `2007 / Под ред. Л. Л. Иомдина, Н. И. Лауфер, А. С. Нариньяни, В. П. Селегея - М.: Изд-во РГГУ, 2007. C. 70-75.

4. Евстигнеева Г. А. Способы выражения причинно-следственных отношений в научном стиле речи: (На материале учебных текстов).дис. канд. филол. наук. Киев, 1983.

5. Ермакова Л. М. Методы автоматической классификации текстов по функциональным стилям / Л. М. Ермакова, М. А. Абашев, Р. В. Никитин, Р. И. Ушаков // Вестник Пермского университета. Математика. Механика. Информатика. Выпуск 4(27). Пермь, 2014.

6. Ланин В. В., Лядова Л. Н. Исследовательский портал по моделированию информационных систем // В кн.: Открытые семантические технологии проектирования интеллектуальных систем. Материалы III международной научно-технической конференции (Минск, 21 - 23 февраля 2013 года ) / Отв. ред.: В. Голенков. Мн. : БГУИР, 2013. С. 97-102.

7. Скрипак И. А. Языковое выражение экспрессивности как способа речевого воздействия в современном научном дискурсе: на материале статей лингвистического профиля на русском и английском языках.дис. канд. филол. наук. Ставрополь, 2008.

8. Смирнова Л. Н. Курс английского языка для научных работников. Л.: Наука, 1971.

9. Смирнова Л. Н. Scientific English. Английский язык для научных работников. Курс для начинающих. Л.: Наука, 1980.

10. Соколова Е. Г., Загорулько Ю. А., Кононенко И. С. Опыт систематизации знаний и Интернет-ресурсов для портала знаний по компьютерной лингвистике// Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог 2009" (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). М.: РГГУ, 2009. С. 465-470.

11. Фаулер, М. Архитектура корпоративных программных приложений.: Пер. с англ. -- М.: Издательский дом "Вильяме", 2006. 544 с.

12. Цвиллинг М. Я. Научная литература: язык, стиль, жанры. М.: Наука, 1985. - 336 с.

13. Шаров С. А. Представительный корпус русского языка в контексте мирового опыта // НТИ, Сер. 2. 2003. №6. С. 9-17.

14. Шучалова Ю. С., Ланин В. В. Исследовательский портал для анализа и оценки стиля научных публикаций // В кн.: Математика и междисциплинарные исследования - 2016. Пермь: Пермский государственный национальный исследовательский университет, 2016. С. 280-284.

15. Jordan R. R. English for Academic Purposes. Cambridge.: Cambridge Press, 2012.

16. Khosmood F., Levinson R. A. Automatic natural language style classification and transformation // BCS Corpus Profiling Workshop, 2008.

17. LaurenceAnthony'sAntConc [Электронный ресурс] // URL: http://www.laurenceanthony.net/software/antconc/ (дата обращения: 08.02.2017).

18. Luyckx K., Daelemans, W. Shallow text analysis and machine learning for authorship attribution // Computational Linguistics in the Netherlands 2004: selected papers from the Fifteenth CLIN Meeting / van der Wouden T. [Ed.], e.a., Utrecht, LOT, 2005, P. 149-160.

19. Scholz T., Conrad S. Style Analysis of Academic Writing // Natural Language Processing and Information Systems: 16th International Conference on Applications of Natural Language to Information Systems, Proceedings. NLDB 2011, Alicante, Spain, June 28-30, 2011. P. 246-249.

20. Siepmann D. Writing in English: A Guide for Advanced Learners / J. D. Gallagher, M. Hannay, J. L. Mackenzie. UTB 2011.

21. Strinyuk S. A., Shuchalova Y., Lanin V. Academic Papers Evaluation Software / Application of Information and Communication Technologies (AICT), 2015 9th International Conference on,14-16 Oct. 2015. Rostov-on-Don : IEEE, 2015. P. 506-510.

22. Swales J. M., Feak C. B. Academic Writing for Graduate Students. Essential Tasks and skills. 3d Ed. The University of Michigan, 2012.

23. Turabian K. A Manual For Writers of Term Papers, Theses, and Dissertations. 6th Ed. The University of Chicago Press, 1996.

24. Wallwork A. English for Academic Research: Vocabulary exercises. Springer, 2013.

25. Wallwork A. English for Research: Usage, Style, and Grammar. Springer, 2013.

26. Wallwork A. English for Writing Research Papers. New York / Dordrecht Heidelberg / London. Springer, 2011.

Приложение A

Элементы лексико-синтаксических шаблонов

- Лексические характеристики:

- «имя» токена (конкретная форма слова);

- лексическая категория (e.g. «прилагательное»);

- корень слова;

- концептуальная категория (e.g. «человек»).

- Логические операторы OR, AND, NOT.

- Специальные символы:

- $ - 0 или 1 токен;

- 0 или более токенов;

- 1 или более токенов.

- Присваивание переменной значения из компонентов шаблона: ?X =.

- Группирующие операторы: <>, [].

- Повторение:

- * - 0 или более раз;

- + - 1 или более раз.

- Диапазон:

- *N - от 0 до N;

- +N - от 1 до N.

- Необязательные конституенты: {}.

Приложение Б

Описание прецедентов

Таблица 1. Описание прецедентов

Название

Актор

Описание

Авторизоваться

Неавторизованный пользователь

Пользователь входит в свой аккаунт на портале

Зарегистрироваться

Неавторизованный пользователь

Пользователь создаёт свой аккаунт на портале

Получить рекомендации по стилю статьи

Авторизованный пользователь

Пользователь получает файл с рекомендациями по стилю статьи на основе сравнения собственной статьи и одного из корпусов

Получить аналитический отчёт по корпусу

Авторизованный пользователь

Пользователь получает файл с результатами анализа разметки одного из корпусов

Читать инструкцию

Авторизованный пользователь

Пользователь читает инструкцию к порталу

Читать форум

Авторизованный пользователь

Пользователь просматривает форум

Читать материалы и исследования

Авторизованный пользователь

Пользователь просматривает материалы и исследования, загруженные на портал

Выбрать корпус

Авторизованный пользователь

Пользователь выбирает корпус для дальнейшего анализа

Посмотреть корпус

Авторизованный пользователь

Пользователь просматривает данные корпуса и список входящих в него документов

Посмотреть документ корпуса

Авторизованный пользователь

Пользователь просматривает содержимое документа вместе с разметкой

Загрузить корпус

Авторизованный пользователь

Пользователь загружает в систему свой корпус

Создать подкорпус

Авторизованный пользователь

Пользователь создаёт подкорпус, выбирая документы из существующего корпуса

Найти корпус по теме

Авторизованный пользователь

Пользователь ищет корпус с помощью введенных параметров и ключевых слов

Разметить корпус

Авторизованный пользователь

Пользователь редактирует разметку (набор аннотаций) корпуса

Выбрать существующий тип аннотации

Авторизованный пользователь

Пользователь автоматически размечает корпус с помощью существующего в системе типа аннотации (которому соответствует обрабатывающий ресурс, наносящий аннотации данного типа)

Нанести аннотацию вручную

Авторизованный пользователь

Пользователь выделяет часть текста и добавляет аннотацию, заполняя её тип и атрибуты

Создать тип аннотации

Авторизованный пользователь

Пользователь создаёт новый тип аннотации, которому соответствует обрабатывающий ресурс, наносящий аннотации этого типа

Сохранить тип аннотации

Авторизованный пользователь

Пользователь сохраняет новый тип аннотации и соответствующий обрабатывающий ресурс

Опубликовать тип аннотации

Авторизованный пользователь

Пользователь разрешает нескольким или всем пользователям доступ к созданному типу аннотации и соответствующему обрабатывающему ресурсу

Создать список слов

Авторизованный пользователь

Пользователь создаёт список слов, используемый в лексико-синтаксическом шаблоне

Загрузить список слов

Авторизованный пользователь

Пользователь загружает список слов, используемый в лексико-синтаксическом шаблоне

Опубликовать список слов

Авторизованный пользователь

Пользователь разрешает нескольким или всем пользователям доступ к созданному списку слов

Выбрать шаблон

Авторизованный пользователь

Пользователь выбирает для создания типа аннотации существующий в системе лексико-синтаксический шаблон

Создать шаблон

Авторизованный пользователь

Пользователь создаёт собственный лексико-синтаксический шаблон для нанесения аннотаций определённого типа

Опубликовать шаблон

Авторизованный пользователь

Пользователь разрешает нескольким или всем пользователям доступ к созданному лексико-синтаксическому шаблону

Настроить разметку

Авторизованный пользователь

Пользователь переходит к выбору типов аннотации, которые должны быть проанализированы в отчёте

Выбрать типы аннотации

Авторизованный пользователь

Пользователь выбирает один или несколько типов аннотаций, имеющихся в корпусе, для анализа

Сохранить набор типов аннотации

Авторизованный пользователь

Пользователь сохраняет набор типов аннотации для последующего использования

Опубликовать набор типов аннотации

Авторизованный пользователь

Пользователь разрешает нескольким или всем пользователям доступ к сохранённому набору типов аннотации

Сохранить разметку

Авторизованный пользователь

Пользователь сохраняет изменения, произведённые с разметкой (множеством аннотаций) в корпусе

Опубликовать разметку

Авторизованный пользователь

Пользователь разрешает одному или нескольким пользователям доступ к данной версии разметки корпуса

Выбрать типы статистик

Авторизованный пользователь

Пользователь выбирает виды статистики, которые будут рассчитаны в отчёте

Создать тип статистики

Авторизованный пользователь

Пользователь создаёт шаблон для нового вида статистики

Сохранить отчёт

Авторизованный пользователь

Пользователь сохраняет и/или скачивает файл с результатами анализа

Опубликовать отчёт

Авторизованный пользователь

Пользователь разрешает одному или нескольким пользователям доступ к файлу с результатами анализа

Открыть статью

Авторизованный пользователь

Пользователь выбирает статью для формирования рекомендаций

Загрузить статью

Авторизованный пользователь

Пользователь загружает статью в систему

Сохранить статью

Авторизованный пользователь

Пользователь сохраняет статью в системе

Посмотреть разметку

Авторизованный пользователь

Пользователь просматривает содержимое файла вместе с разметкой

Выбрать метрику расстояния

Авторизованный пользователь

Пользователь выбирает метрику расстояния или другие параметры сравнения статьи и эталонного корпуса

Сохранить рекомендации

Авторизованный пользователь

Пользователь сохраняет или скачивает файл с рекомендациями

Найти материал

Авторизованный пользователь

Пользователь ищет материалы, опубликованные на портале, по введённым параметрам

Добавить материал

Авторизованный пользователь

Пользователь создаёт в системе или загружает собственный материал

Оставить сообщение

Авторизованный пользователь

Пользователь оставляет сообщение на форуме

Приложение В

Диаграммы последовательностей

Рисунок 1. Диаграмма последовательностей процесса анализа корпуса (1 часть)

Рисунок 2. Диаграмма последовательностей процесса анализа корпуса (2 часть)

Рисунок 3. Диаграмма последовательностей процесса формирования рекомендаций (1 часть)

Рисунок 4. Диаграмма последовательностей процесса формирования рекомендаций (2 часть)

Размещено на Allbest.ur


Подобные документы

  • Проектирование портала записи на приём к специалистам узких специальностей. Составление методического руководства по использованию портала. Обзор требований к программному и аппаратному обеспечению. Электронная регистратура. Описание программных модулей.

    дипломная работа [1,9 M], добавлен 09.01.2015

  • Понятие портала как Intranet системы. Технологии функционирования Web-портала. Особенности и функции портала учебного заведения. Использование Web-портала в учебном процессе. Структура образовательного Intranet/Internet-портала школы № 24 г.Нефтеюганска.

    дипломная работа [3,0 M], добавлен 02.05.2012

  • Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.

    дипломная работа [3,5 M], добавлен 13.01.2015

  • Анализ видов существующих корпоративных порталов. Разработка архитектуры и структуры корпоративного портала в соответствии с требованиями. Установка и настройка программного обеспечения. Общие настройки портала, управление меню и настройка виджетов.

    дипломная работа [4,8 M], добавлен 19.01.2017

  • Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.

    курсовая работа [864,8 K], добавлен 06.11.2009

  • Анализ методов оценки надежности программных средств на всех этапах жизненного цикла, их классификация и типы, предъявляемые требования. Мультиверсионное программное обеспечение. Современные модели и алгоритмы анализа надежности программных средств.

    дипломная работа [280,5 K], добавлен 03.11.2013

  • Проектирование информационной системы учета научных публикаций в среде Adobe Dreamweaver. Анализ существующих технологий разработки в сервисе. Системы управления базами данных. Конструктор сущности "users", "papers". Функционал системы учета публикаций.

    дипломная работа [2,6 M], добавлен 14.08.2015

  • APRIORI - масштабируемый алгоритм поиска ассоциативных правил. Создание официального информационного портала для студенческого совета УлГУ "Династия". Принципы построение и создания хранилища данных. Перенос информационного портала на сервер ulsu.ru.

    курсовая работа [1,5 M], добавлен 21.12.2015

  • Жанры и форматы мультимедиа. Специфика интернета как медиаплатформы. Способы создания и распространения мультимедийного контента. Разработка контента мультимедийного интернет-портала о городских экстремальных видах спорта: аудитория, рубрикация и пр.

    дипломная работа [3,1 M], добавлен 20.08.2017

  • Аналитический обзор средств и языков описания интеллектуальных порталов. Устройство и особенности языка технологии OSTIS, результаты ее анализа. Разработка предметно-ориентированного языка проектирования интеллектуальных порталов. Описание пример модели.

    дипломная работа [2,5 M], добавлен 08.11.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.