Изучение пунктуации на примерах корпуса школьных текстов

Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 08.11.2015
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ОГЛАВЛЕНИЕ

  • ВВЕДЕНИЕ
  • Глава 1. Корпус текстов школьников
    • 1.1 Корпус текстов школьников в контексте корпусной лингвистики
    • 1.2 содержание корпуса текстов школьников
    • 1.3 Пополнение корпуса текстов школьников
  • Глава 2. Пунктуационный разметчик Интерробанг
    • 2.1 Техническое описание программы Интерробанг
    • 2.2 Язык разметки TEI для кодировки пунктуации
    • 2.3 Описание интерфейса. Работа в программе Интерробанг
  • Глава 3. Пунктуационная разметка текстов школьников. Классификация пунктуационных ошибок
  • Глава 4. Обработка корпуса с помощью программы интерробанг и анализ полученных данных
    • 4.1 Статистический анализ данных
    • 4.2 Анализ данных разметки и статистической обработки
      • 4.2.1 Оформление заголовков
      • 4.2.2 Удаленные знаки препинания
      • 4.2.3 Парность знаков
      • 4.2.4 Пробелы
      • 4.2.5 Абзацное членение
      • 4.2.6 Разделительные знаки
      • 4.2.7 Выделительные знаки
      • 4.2.8 Другие пунктуационные случаи
      • 4.2.9 Лишние знаки неясной этиологии
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
  • ПРИЛОЖЕНИЯ

ВВЕДЕНИЕ

Направление корпусной лингвистики, которая занимается сбором, обработкой и анализом текстовых данных, активно развивается сегодня по всему миру. Увеличивается число национальных корпусов (собрание текстов в электронной форме, представляющих определенный язык во всем многообразии жанров, стилей, территориальных и социальных вариантов), возникают новые форматы и типы корпусов: корпусы текстов одного писателя, корпусы синонимов, мультимедийные корпусы, представляющие данные сразу нескольких языковых и экстралингвистических уровней речи, корпусы эмоционально окрашенной речи и т.д.

Корпусные данные исследуются и используются для решения различных прикладных задач - от создания словарей до интеллектуальных диалоговых систем. Но на фоне многообразия данных, современных методов и алгоритмов обработки данных и их представления, до сих пор остаются области, не вполне охваченные исследователями, например, речь современных подростков.

Дискуссия о целесообразности создании корпуса ученических текстов, представляющих родную речь, ведется уже почти на протяжении целого десятилетия. За последние годы, наконец, сформировалось понимание того, что в условиях высокой технической оснащенности образовательных учреждений собирать школьный дискурс (сочинения, изложения, диктанты, пересказы, устные доклады и т.п.) перестало быть затруднительным, а практика корпусного анализа текстов дает ощутимый результат в развитии обучающих систем (В.А. Плунгян, 2005; О.Н. Камшилова, 2011; О.Э. Садовникова, 2013; Е.В. Рахилина, 2015).

Возможности корпусных технологий уже давно оценили и взяли на вооружение вузовские преподаватели: они используют их для того, чтобы оценить, какие ошибки учащиеся допускают чаще и с какими стоит и нужно специально работать, создают на базе корпусов специальные тренажеры для повышения уровня грамотности учащихся. Пример успешной работы с корпусными для создания тренировочных упражнений (О.Н. Камшилова и др., 2008).

Несмотря на положительный опыт учителей иностранного языка и давно прозвучавшее предложение лингвистов использовать актуальные корпусные данные (Н.Р. Добрушина, 2005; Н.Р. Добрушина, А.И. Левинзон, 2006), методисты, сталкивающиеся с вопросом, чем наполнить учебники и задачники по русскому языку, до сих пор не проявили интереса к текстам школьников.

Как правило, в случае отбора текстов для анализа и тренировки языкового навыка переиздают хорошо известные пособия; по традиции выбирают тексты из классической литературы, к сожалению, часто тяжелые, морально устаревшие, неблизкие и непонятные современному школьнику; либо тексты конструируются искусственно, и их неестественность вызывает у ребенка реакцию отторжения и нежелания изучать родной язык. Между тем материал для создания тренажеров под рукой - написанные учащимися тексты, в которых допущены типичные орфографические, пунктуационные и речевые ошибки.

У учеников и родителей часто возникает ложное ощущение, что учителей мало заботит, какие ошибки допускают школьники, где «больное место» у конкретного ребенка, в каких случаях ошибаются почти все учащиеся, и какую помощь им оказать. На самом деле учителю-русисту, ведущему в нескольких классах с большим количеством детей, сложно заметить, что усваивается школьниками, а какие правила и навыки так и не удалось закрепить. У него до сих пор не было инструмента и достаточной статистической информации, которые позволили бы представить полную картину ученических проблем исправиться с ними.

Кроме того, мониторинг корпусных данных, возможно, позволит учителю видеть, какие случаи не стоит исправлять в детских текстах. Язык меняется, и, хотя справочниками это еще не зафиксировано, на самом деле речь часто идет уже не об ошибке, а о языковой норме (достаточно вспомнить пример с предлогом «про» в значении «о»).

Именно такие соображения наводят на мысль о необходимости смены подхода к созданию справочного материала по русскому языку.

Корпус школьных текстов с размеченными ошибками может быть использован и в практических целях: для создания учебных тренажеров и как готовая база примеров и статистических данных для создания спелчекеров - современных систем проверки правописания. Разработчики таких программ на данный момент применяют данные, полученные преимущественно из справочной литературы и корпусов с текстами, написанными грамотно и проверенными корректорами (Орфограммка, Орфус, Литера5 и др.). Только некоторые спелчекеры (Орфограммка) обрабатывают данные об ошибках пользователей для улучшения процедуры проверки. Особый интерес для авторов спелчекеров представляют данные о пунктуационных ошибках - в связи с нехваткой данных ни одна из существующих систем проверки на сегодняшний день не может обеспечить качественной проверки пунктуации.

В рамках настоящей магистерской работы мы поставили цель изучить пунктуацию на примерах из собранного нами Корпуса школьных текстах. Анализ пунктуации и особенно пунктуационных ошибок представляет для нас исследовательский интерес как с теоретической точки зрения, так и с практической. С одной стороны, мы рассчитываем получить данные, позволяющие под иным углом взглянуть на методику изучения пунктуационных правил, с другой, мы видим одной из задач после наполнения корпуса и сбора статистических данных создание школьного спелчекера - программы, которая автоматически будет исправлять ошибки в загруженных текстах и выставлять оценки.

Глава 1. Корпус текстов школьников

Корпус текстов школьников (КТШ) - совокупность текстов, написанных подростками на уроках русского языка и словесности и в рамках домашних заданий по этим предметам. Тексты корпуса могут использоваться для лингвистических исследований регламентированной письменной речи, для разработки учебно-методических материалов.

Тексты собирались в ходе эксперимента, проводившегося в 2014-2015 гг. на базе школы 179 г. Москвы. В течение учебного года учащимся нескольких 7-х и 8-х классов школы предлагалось сдавать на проверку тексты, написанные в рамках курса словесности и русского языка, в удобном им формате - рукописном или напечатанном.

Учащиеся быстро оценили преимущества текстов, сданных на проверку в электронном виде: работа над ошибками - редактирование текста, включающее переписывание текста, по мнению учащихся, была менее трудоемким занятием в том случае, если текст был написан не от руки, а напечатан.

Глава представлена тремя разделами. В первом разделе речь пойдет о Корпусе школьных текстов в контексте корпусной лингвистики в целом: о предмете корпусной лингвистики, об истории вопроса, о предназначении корпусов, о корпусах подростковой речи и Корпусе текстов школьников как материале для социолингвистических и лингвистических исследований. Во втором разделе будет рассказано о технологии сбора текстов для КТШ. В третьем - о проблемах, с которыми мы столкнулись при наполнении Корпуса.

1.1 Корпус текстов школьников в контексте корпусной лингвистики

Корпусная лингвистика, возникшая во второй половине XX - одно из самых молодых направлений в науке и в то же время весьма популярное среди ученых-исследователей всего мира. Корпусная лингвистика позволяет изучать письменную и устную речь, предлагая для исследований большое количество данных, удобных для полуавтоматической и автоматической обработки, по результатам которой строятся и проверяются сложные лингвистические, исторические, социологические и др. гипотезы.

Объектом изучения корпусной лингвистики являются собранные в большом количестве тексты и записи звучащей речи на определенном языке или нескольких языках. Задача лингвиста не только собрать речевые данные, но и обработать их, исходя из целей и задач собираемого корпуса, а также анализируемых языковых уровней. В результате такой обработки исследователь получает разметку корпуса, т.е. не только текст как последовательность словоформ или лемм и знаков препинания, но и дополнительную информацию о тексте в целом (метатекстовая разметка: автор текста, жанр, врем создания и т.д.) и информацию о различных единицах текста (разметка, включающая леммы, теги с морфологической или семантической характеристикой слова, выделение синтагм, синтаксическую разметку предложений и т.д.). Аннотированные и размеченные тексты, т.е. материал, подготовленный для заключительного этапа исследовательской работы, анализа языковых фактов, - это и есть корпус.

В большинстве случаев современные корпусные данные формируются и обрабатываются с помощью специальных программ - утилит для сбора данных, программы, очищающие от избыточных данных и форматирующие, программы для разметки, программы для статистической обработки, программы, формирующие гипотезы, и, конечно, комплексные решения (WordSmith Tools, AntConc и др.).

Основное внимание в корпусной лингвистике долгое время было приковано к созданию содержащих метаразметку и грамматические пометы национальных корпусов, корпусов языков с большим числом носителей - английского, чешского, хорватского, венгерского, итальянского, русского, японского и т.п. Основой для таких корпусов в большинстве случаев служила классическая литература. Впоследствии такие корпуса пополнялись публицистическими произведениями и научными текстами, сегодня в них находится место интернет-дискурсу, устной речи и созданию мультимедийному контенту (в корпусах аудио и видеозаписи сопровождаются письменной расшифровкой и разметкой жестового сопровождения).

В конце XX-начале XXI вв. наметилась тенденция к созданию параллельных корпусов для двух или нескольких языков (English-Norwegian Parallel Corpus). Такие корпуса часто содержат мататекстовую, грамматическую и эрратологическую разметку, т.е. информацию об ошибках при переводе. Параллельные корпуса в значительной степени изменили подход в методике преподавания иностранных языков.

В наше время с целью сохранения мирового наследия активно создаются корпуса языков малых народов, например, электронный корпус текстов на языках малочисленных народов Сибири (на материалах ненецкого, телеутского, шорского и эвенкийского языков); корпуса древних текстов (например, Helsinki Corpus - корпус древне- и среднеанглийских текстов с 8 по 17 вв.) и текстов на языках, которые находятся под угрозой исчезновения (например, Сorpus of Chipaya texts).

На фоне повышенного интереса к концепции использования интернета как огромного корпуса, предназначенного для машинной обработки, и к разработкам по переводу текстового контента в онтологии знаний (В.Д. Соловьев и др., 2006) широкое распространение получили тематические корпуса (медицинские, юридические, экономические и др.).

В последние десятилетия интерес корпусной лингвистики прикован, в том числе и в России, к глубокому, многоаспектному изучению родного языка.

Работа ведется сразу по нескольким направлениям.

Изучается детская (дошкольная) речи (например, CHILDES Corus: содержит транскрибированную речь детей 20 национальностей, речь детей с нормальным развитием и с афазией или аутизмом) и речь билингвов и мультилинговов (например, Корпус устной речи русско-болгарских билингвов). На данных, полученных в этой области, строятся модели порождения речи.

Изучается наследуемый язык (например, Эритажный корпус, являющийся частью проекта «Корпуса и коллекции интерферированных вариантов русского языка»). После публикаций Кембриджского университета о подкорпусе CIC Cambridge Learner Corpus, который позволяет отслеживать наиболее частое употребление узуальных конструкций и типичных ошибок в академической речи, а потому используется при составлении учебников и тренажеров по английскому языку, повсеместно стали в университетах стали разворачиваться корпуса академической речи. Наконец, обозначился интерес к речи школьника.

Именно последнему направлению будет посвящено данное исследование.

На сегодняшний день известны два корпуса подростковой речи - SCOSE (создавался исследователям из Саарского университета (Germany), содержит речь подростков из Лондона и пригородов, около 12,000 словоупотреблений) и COLT (собран исследователями из Бергенского Университета; разработан на базе спонтанной устной речи детей в возрасте от 13 до 17 лет из разных пригородов Лондона; включает в себя около 5 000 000 слов; записи сопровождаются метаразметкой, сообщающей возраст, пол, социальный статус говорящего).

В первую очередь интерес такие корпуса вызывают у социолингвистов, изучающих сленг современных подростков (например, A.B. Stenstrцm, G. Andersen и др., 2012; E.M.D Drange. и др., 2014).

В данном исследовании ставится другая цель. КТШ собирается и обрабатывается таким образом, чтобы посмотреть на тексты школьников с эрратологической точки зрения: изучается, какие ошибки чаще всего допускают современные подростки в регламентированной учебным процессом речи - в сочинениях, изложениях, диктантах и других формах школьного языкового дискурса.

1.2 Содержание корпуса текстов школьников

Корпус текстов школьников - пополняемая база ученических текстов.

Ученические тексты, включенные в КТШ, - это тексты, написанные от руки (затем набранные на компьютере волонтерами) или напечатанные, авторами которых являются учащиеся 7-9 классов, т.е. подростки 12-15 лет. Все тексты? включенные в базу, переведены в текстовый формат (.txt) txt c кодировкой utf-8 и рассортированы по папкам: 7б1-2014, 8е-2013, 8е-2014, 9е-2014, неразобранное-2014. В настоящее время (июнь 2015г.) таких файлов 238 (приблизительно 100 000 словоупотреблений). Ожидают форматирования и сортировки 123 текста - преимущественно домашние сочинения семиклассников, написанные в почтовых редакторах; набора и форматирования - 220 рукописных текстов шестиклассников и семиклассников, написанных на уроке (не диктанты).

Во всех папках с отформатированными работами, кроме тех, которые содержат в своем название слово «неразобранные», содержатся тексты в формате .txt (имеют названия на кириллице) и их аннотированные и размеченные дубли в формате .ieb (имеют названия на латинице). На данный момент в корпусной базе 126 файлов в формате .ieb. (47 448 словоупотреблений).

Каждый такой файл аннотирован в программе Интерробанг с помощью метаразметки на языке TEI (http://www.tei-c.org/index.xml). Файлы содержат теги со следующими данными автор, класс, тип текста, проверивший, формат текста, степень доверия. В них заключена следующая информация:

- автор: указана фамилия и имя автора текста;

- класс: указана цифра, информирующая, в каком классе написан текст;

- тип текста:

- сочинение: это значение присваивается тем текстам, которые проверяющий отнес к так называемым первичным(оригинальным) ученическим текстам, например, сочинению, рецензии;

- изложение: это значение присваивается текстам, где очевидно, что текст вторичный, содержит большое количество информации из первичного текста, например, реферат, изложение;

- диктант: такое значение присваивается текстам, написанным под диктовку (на данный момент таких текстов нет в корпусе);

- иное: данное значение проверяющий присваивает в том случае, если сомневается, к какой из предыдущих групп отнести текст, часто так происходит, если сложно определить, какой процент текста, является вторичным, а какой вторичным, например, это касается текстов в жанре аннотации;

- проверивший: указана фамилия проверяющего;

- формат текста:

- значение «печатный» присвоено в том случае, если учащийся сам набирал свой текст;

- значение «рукописный» соответствует текстам, которые был набраны на компьютере по рукописному оригиналу.

(Такая градация была введена для того, чтобы проверить, есть ли очевидная разница в рукописных и напечатанных текстах).

- степень доверия:

- значение «высокая»: текст, по мнению проверяющего, написан самостоятельно, в текстовом редакторе без проверки правописания;

- значение «низкая»: текст, по мнению проверяющего, написан несамостоятельно или в текстовом редакторе с проверкой правописания.

1.3 Пополнение корпуса текстов школьников

Сбор текстов для КТШ осуществлялся преподавателями-русистами московской средней общеобразовательной школы №179 Московского института открытого образования. В корпус принимались тексты, написанные учащимися 7-9 изобретательских и математических классов этой же школы на уроках словесности и русского языка, а также во время выполнения домашних заданий по русскому языку, начиная с декабря 2014 года. В Корпус также были добавлено несколько печатных текстов детей, обучавшихся в 8-ом классе в 2013/14 учебном году.

На первом этапе сбора текстов для КТШ возникло несколько проблем.

Наиболее серьезная связана с тем, что до сих пор в школах на проверку к учителю попадают преимущественно рукописные тексты, которые пока не представляется возможным подвергнуть машинной обработке.

Применение автоматизированных средств распознавания рукописного текста, несмотря на то, что над этим работают такие всемирно известные компании, как Nintendo, Zi Corporation, Paragon Software, Hewlett-Packard, ABBYY, Parascript, LLC, на сегодняшний день почти невозможно. Существующие системы способны распознавать с невысокой степенью достоверности лишь тексты, написанные почерком, на котором программа обучалась. Таким образом, наилучшим образом для пополнения корпуса текстов подходят тексты в электронном виде, которые машина может прочитать посимвольно.

Также не все напечатанные тексты являются машиночитаемыми. Так, разработчики программы ABBYY FineReader, лидера на рынке автоматических средств распознавания текстов, говорят о 80%-ном уровне достоверности при распознавании печатных материалов (напечатанных на бумаге), а при обработке библиотечных карточек десяти-двадцатилетней давности, ABBYY FineReader не может дать результат выше 60% достоверности. Поэтому сданная школьником на проверку напечатанная, но не электронная версия, не может быть включена в КТШ.

Чтобы не отказываться от пополнения корпуса рукописными текстами, было решено такие тексты перепечатывать на компьютере с сохранением всех возможных особенностей оригинального текста. Для исследования важнее было получить информацию о поддающихся анализу характерных особенностях рукописных текстов, чем отказаться от изучения таких текстов из-за того, что при наборе утрачивается информация о почерке автора, частично теряется оригинальное форматирование и возможны незначительные изменения текста, допущенные наборщиком.

Проблема небольшого количества электронных машиночитаемых текстов также связана с тем, что не все учителя и не сразу готовы перевести сдачу работ в электронный формат, особенно когда речь идет о русском языке. Рукописные работы - основной формат ученических работ, который необходимо сохранить, особенно в начальной школе - для постановки почерка и развития моторной грамотности, однако современному школьнику также необходимо прививать навыки электронного письма. В условиях того, что во многих школах активно поддерживается идея использования высокотехнологичных средств в процессе обучения, это стало возможным. Более того, как показала практика этого года, многие учащиеся охотнее пишут диктанты на компьютерах и сдают домашние задания по русскому языку в электронном виде, присылая их учителю по почте или загружая в школьную электронную среду.

Еще одной проблемой, касающейся наполнения корпуса школьными текстами, оказалось то, что школьники используют текстовые редакторы с функцией проверки правописания. Дело в том, что для КТШ в первую очередь интересны тексы подростков такими, какими их пишут дети, без редакторской или автоматической правки. Поэтому учащимся при выполнении задания изначально предлагали пользоваться программами с отключенным модулем проверки правописания (MS Word или OpenOffice.org Writer) или, что предпочтительнее, такими редакторами, в которых изначально не предусмотрена функция проверки (Notepad). Некоторые ученики не смогли удержаться от автоматической проверки. Поэтому было решено отмечать в корпусе тексты, которые, по мнению проверяющего, были проверены корректором, неважно человеком или машиной. Для этого в программу-разметчик была специально добавлена метка о доверии с выбором степени доверия.

Глава 2. Пунктуационный разметчик Интерробанг

Интерробанг -- это программа, которая создавалась для обработки Корпуса школьных текстов. С ее помощью планируется собрать информацию об ошибках, которые допускают школьники, - о типах ошибок и об их количестве и систематизировать полученные данные. В перспективе эта программа или программа такого типа позволит облегчить труд учителей русского языка при проверке и оценке текстовых работ учащихся.

Сейчас в Интерробанге можно загружать и аннотировать тексты, проверять и исправлять пунктуацию в тексте, помечая место с ошибкой с помощью предустановленных пиктограмм и тегов, объясняющих причину правки.

В актуальной версии Интерробанга предусмотрена функция статистической обработки. Для проверенного текста при нажатии на специальную кнопку или при печати обработанного документа, выводится информация о том, сколько всего в тексте было допущено ошибок (учитываются пропущенные и лишние знаки) и сколько ошибок на каждое конкретное правило было сделано. Результаты статистического анализа для группы текстов производятся путем запуска специального программного модуля: в этом случае можно определить, сколько ошибок определенного типа в конкретном классе или у конкретного автора, в текстах определенного типа (например, только в сочинениях), в текстах, набранных с рукописных материалов, и т.д.

Интерробанг - система с открытым кодом на языке Python, содержащая комментарии с описанием классов и функций. Установив необходимое программное обеспечение и распаковав архив с программой Итерробанг на своем компьютере, желающие могут по свою усмотрению менять функционал программы, дописывать программу.

Версию 1.0 программы Интерробанг (с инструкцией) можно скачать на странице студенческих проектов магистратуры НИУ ВШЭ «Теория языка и компьютерная лингвистика». Версия 1.1 доступна на сайте Кафедры лингвистики изобретательского профиля школы 179 в разделе «Проекты».

Программа получила свое название благодаря изобретению Мартина Спектера, руководителя рекламного агентства New York Advertising Agency, который 1962 году предложил в журнале TYPEtalks для обозначения риторического вопроса использовать специальную лигатуру, представляющую собой наложение восклицательного знака на вопросительный - ?. Название для знака придумали читатели. В нем соединились начало латинского слова interrogвtоvus («вопросительный») и английское слово bang (междометие «бух!»), которое в жаргоне американских корректоров обозначало восклицательный знак. Интерробанг некоторое время использовался в американской типографике. Автором программы Интерробанг увиден в этом слове отсыл к эрратологии, лингвистической области, занимающейся изучением ошибок.

2.1 Техническое описание программы интерробанг

Программа написана с использованием кроссплатформенной библиотеки Qt версии 4.8. Для использования библиотеки совместно с Python используется модуль PyQt4. Формы и диалоги программы созданы при помощи Qt Designer и преобразованы в модули Python при помощи pyuic.

Программа состоит из следующих модулей:

· interrobang.py: стартовый модуль программы, создает объект приложения QApplication, устанавливает язык программы в соотв. с системными настройками и создает главное окно программы;

· IebMainWindow.py: определяет главное окно программы, обрабатывает нажатие кнопок в главном окне и выбор пунктов меню. Является производным от класса QMainWindow;

· IebDocument.py: определяет документ, обрабатываемый программой. Документ отображается в главном окне программы элементом QTextEdit. IebDocument является производным от QTextDocument. Переопределяет обработчик события изменения документа contentsChange, в котором осуществляет выделение символов пунктуации. Реализует функции преобразования документа в формат TEI и загрузки из TEI;

· IebTextCharFormat.py: определяет представление символов пунктуации в документе. Является производным от класса QTextCharFormat;

· stats.py: вычисляет общую статистику по файлам Interrobang;

· find.py: ищет файлы, содержащие запрашиваемые значения атрибута subtype тега pc. Выдает абзацы с заданным значением.

2.2 Язык разметки TEI для кодировки пунктуации

Для разметки текстов КТШ было решено использовать метаязык TEI (Text Encoding Initiative), определяемый стандартами международного языка разметки информационных данных SGML (Standard Generalized Markup Language). Система текстового кодирования TEI активно поддерживается представителями гуманитарного сообщества, заинтересованными в автоматической обработке данных, - Association for Computers and the Humanities (Ассоциация по компьютерам и гуманитарным наукам), Association for Computational Linguistics (Ассоциация по вычислительной лингвистике) и Association for Literary and Linguistic Computing (Ассоциация по компьютерным технологиям в литературе и лингвистике). Она также широко используется при разметке корпусных данных и материалов электронных библиотек. Так, TEI используется для кодировки текстов Британского национального корпуса (http://www.natcorp.ox.ac.uk/) и коллекции документов проекта Персей (http://www.perseus.tufts.edu/), куда помещены произведения греко-римских классиков и английского Возрождения.

Основное внимание в TEI уделяется кодированию текстовой информации, но предусмотрены средства и для других форм, например, что важно в применении к данному исследованию, для графических изображений.

Основные элементы TEI применимы для обработки и конвертации данных на различных автоматических средствах как при создании новых ресурсов, так и при обмене существующими, что обусловлено основными принципами системы:

возможность получать в тексте эффекты, необходимые для исследовательской работы;

простота, ясность и конкретность;

несложность для использования без специализированного программного обеспечения;

возможность точного определения и эффективной обработки текстов;

возможность расширений, определяемых пользователем;

соответствие существующим и новым стандартам.

При разработке TEI-разметки для КТШ использовались как общепринятые теги, так и нестандартные - специально созданные под исследовательские задачи.

В результате структура TEI-документа для КТШ выглядт следующим образом:

tei - корневой элемент TEI

teiHeader - заголовок TEI

fileDesc - описание файла TEI

titleStmt - основные свойства документа

author - автор текста

title - сам заголовок

respStmt - проверяющий

authgrade - класс, в котором учится автор (нестандартный тег)

format - формат (печатный, рукописный) (нестандартный тег)

confidence - уровень доверия (нестандартный тег)

text - текст документа TEI

front - описание обложки документа TEI

divGen - тип текста

type - атрибут divGen, указывающий тип текста, принимает значения: Essay, Dictation, Exposition, Another

body - сам текст

p - абзац текста

choice - выбор

sic - оригинальный вариант

cor - правильный вариант

pc - символ пунктуации (может быть также внутри sic или cor)

Subtype - атрибут pc, указывающий причину постановки/удаления знака препинания, принимает значения: "subject_predicate_dash", "blank_dash", "quotes", "author_mark", "allocution", "expletive", "specifier", "dangling_object", "similie", "dangling_adverbial", "dangling_attribute", "apposition", "clauses", "homogeneous_clauses", "homogeneous", "homogeneous_generalization.

2.3 Описание интерфейса. Работа в программе Интерробанг

Для начала работы с программой Интерробанг на компьютере необходимо установить Python версии 2.7. и PyQt4, а также распаковать в отдельную папку архив с программой.

При запуске файла interrobang.py открывается рабочее окно программы (рис. 1).

В верхней части основного окна программы расположено главное меню:

· меню «Файл» с традиционным функционалом для большинства программ: «Импорт» - в нашем случае импортирует файл в формате .txt в обрабатываемый TEI-формат .ieb; «Открыть» - открывает уже имеющиеся в базе файлы в формате .ieb; «Сохранить»; «Сохранить как»; «Печать» - выводит на печать документ с основными атрибутами в заголовке, с проверенным текстом (с исправлениями и обозначениями причин правки), с результатами статистической обработки в конце; «Выход».

Рис. 1. Главное рабочее окно программы Интерробанг

· Меню «Сервис» с двумя пунктами: «Статистика» - выводит статистическую информацию об ошибках, отмеченных проверяющим в открытом файле, и «Дамп» - открывает окно с TEI-разметкой открытого файла.

· Меню «Справка» - выводит справку по графическим обозначениям причин постановки/удаления знака препинания.

Под меню расположена панель инструментов с кнопками основных операций:

- кнопка «Открыть»

- кнопка «Импорт»

- кнопка «Печать»

- кнопка «Сохранить»

- кнопка «Статистика»

- кнопка «Справка»

При загрузке файла с помощью кнопок «Открыть» или «Импортировать» в основной части окна появится пригодный для правки текст с выделенными программой знаками препинания. Все эти знаки препинания будут обозначены синим цветом (например, ), а в TEI-формате им будут присвоены теги с соответствующими значениями.

Система распознает:

".": "dot",

"!": "exclamation",

"?": "question",

",": "comma",

";": "semicolon",

":": "colon",

" - ": "dash",

u"\u2013": "dash",

u"\u2014": "dash",

"-": "hyphen",

"(": "open_parenthesis",

")": "close_parenthesis",

"[": "open_bracket",

"]": "close_bracket",

"{": "open_curly",

"}": "close_curly",

"...": "ellipsis",

"?!.": "qex_ellipsis",

"/": "slash",

"?!": "interrobang",

'"': "quote",

и различные типы кавычек:

u"\u00AB": "left_angle_quote",

u"\u00BB": "right_angle_quote",

u"\u201C": "left_quote",

u"\u201D": "right_quote",

u"\u201E": "low_quote",

u"\u201F": "high_quote",

u"\u2033": "prime_qoute",

u"\u2036": "reversed_prime_quote".

Правка осуществляется с клавиатуры компьютера.

Каждому знаку препинания можно приписать при помощи специальных значков в поле «Разметка» (внизу справа) причину постановки или удаления знака (рис. 2).

Рис. 2 Поле «Разметка» с объяснительными значками

О соответствии объяснительных значков правилам и типам ошибок можно прочесть в конце Главы 3.

При исправлении фон знака препинания меняется с синего на красный. Если знак удаляется (это действие осуществляется с помощью стандартных средств компьютерной клавиатуры), знак препинания зачеркивается и ему присваивается соответствующий TEI-тег исправления. Если понятно, с каким правилом связана ошибка, выбирается соответствующий значок в поле «Разметка» основного окна (справа внизу), а знаку препинания в .ieb-файле присваивается коррелирующий с выбранным значком TEI-тег.

Если знак добавляется, он автоматически оформляется нижним подчеркиванием, а проверяющим из набора значков в поле «Разметка» выбирается один или несколько символов, объясняющих причину постановки знака. В этом случае знаку препинания будет присвоен тег пунктуационной правки с одним или несколькими значениями.

Если один знак исправляется на другой или другие, то неправильный знак зачеркивается, а для новых выбирается значок, указывающий на причину замены, а в TEI-разметке появляется соответствующие теги внесенных исправлений.

Справа в главном окне находится специальное поле для ввода атрибутов текста - «Свойства» (см. рис. 3): автор; класс; тип текста - сочинение, изложение, диктант, другое; название текста; формат - печатный/рукописный; степень доверия - высокая/низкая; проверяющий.

Рис. 3. Поле «Свойства» для ввода значений основных атрибутов текста

Значения свойств будут сохранены в метатегах TEI-размтеки.

Данные о тексте можно вводить в любой момент, даже при повторном открытии документа, так же как и осуществлять пунктуационную правку.

После внесения исправлений и данных о тексте документ сохраняется.

Если интересна статистика об ошибках без вывода на печать, нажимается кнопка «Статистика», которая вызывает появление окна, где последовательно сообщается, в каких знаках ошибся писавший текст и сколько на каждое правило было сделано ошибок (см. рис. 4).

Рис. 4. Окно с выводом статистической информации о пунктуации в тексте

Если интересует TEI - разметка текста, достаточно нажать выбрать в «Сервисе» пункт «Дамп», чтобы вызвать программное окно (Shell, Python) с результатом TEI-обработки (см. рис. 5 и 6).

Рис. 5. TEI-разметка: метатеги

Рис. 6. TEI-разметка: теги

Глава 3. Пунктуационная разметка текстов школьников. Классификация пунктуационных ошибок

Пунктуационная разметка в нашем исследовании определена следующими задачами:

- обозначить все встречающиеся в текстах школьников знаки препинания;

- отметить все случаи, в которых учащийся допустил пунктуационную ошибку;

- осуществить проверку текста учащегося таким образом, чтобы, получив проверенную работу, ученик не только понимал, где он ошибся в пунктуации, но и почему знаки препинания должны были быть поставлены иначе в каждом в конкретном случае.

- провести статистический анализ пунктуационных ошибок в школьных текстах.

Для решения этих задач нам предстояло решить, как и по какому принципу собирать, обрабатывать и считать пунктуационные данные.

Сначала был сформирован список того, что мы считаем знаками препинания: "." (точка), "!" (восклицательный знак), "?" (вопросительный знак), "," (запятая), ";"(точка с запятой), ":" (двоеточие), " - " (тире), "-" (дефис: включили в группу пунктуационных знаков, так как с помощью дефисов выделяются одиночные приложения после определяемого слова), "/"(слэш), кавычки, открывающие скобки, закрывающие скобки, комбинированные знаки - "..." (многоточие), "?!." , "?!".

Затем предстояло определить, какие типы ошибок будут учитываться при заметке. При составлении классификации ошибок мы опирались на то, что расчленение письменного текста происходит по трем основаниям, определяющим принципы современной русской пунктуации:

- формально-грамматическому (с учетом синтаксического строения предложения и его компонентов),

- смысловому (отражение содержательной значимости речи),

- интонационному (распределение пауз, логических и смысловых акцентов, передача эмоциональных нюансов речи) (Правила русской орфографии и пунктуации, 2009).

Большая часть пунктуационных правил все же привязана к синтаксическому строению предложения, а именно, это

- знаки конца предложения;

- знаки, разделяющие части сложного предложения;

- знаки, указывающие на синтаксическую однородность;

- знаки, выделяющие группы слов с четко фиксируемым местом расположения (Т.В. Базжина, Т.Ю. Крючкова. Русская пунктуация, 2015).

Именно эти знаки препинания составляют необходимый пунктуационный минимум, который обязателен в школьной программе и, следовательно, применим при исправлении школьных текстов в программе Интерробанг.

Поскольку смысловые оттенки речи могут быть разнообразными, то и знаки, ориентированные на их передачу, допускают вариантность в соответствии с возможностью разного осмысления тех или иных конструкций (Правила русской орфографии и пунктуации, 2009). Наша программа не предполагает вариативности. Если вариант ученика допустим, проверяющий по своему усмотрению либо не исправляет его (предусмотрен вариант обозначения знака как авторского), или исправляет на тот, который ближе всего к правилам первого основания, т.е. к норме.

Согласно третьему основанию в программе обрабатываются случаи выделения междометий и конца предложений.

Для удобства школьников и проверяющих при создании типологии ошибок также было решено опираться на самые общие причины постановки/отсутствия знаков препинания, применяемые в школе, и, следовательно, причины ошибок. После нескольких встреч с практикующими преподавателями и обсуждений возможного набора правил, таких позиций было выделено 16. Вслед за [Т.В. Базжина, Т.Ю. Крючкова. Русская пунктуация, 2015], все правила были изначально разделены на две группы - правила, связанные с разделительной функцией, и правила, связанные с выделительной функцией. Затем выделилась также третья группа, куда попали случаи, которые невозможно отнести ни к одной из двух указанных выше групп.

По совету старшего преподавателя филологического факультета Казанского государственного университета и учителя Лицея при КГУ Афанасьевой Т.В. всем правилам были присвоены легко запоминающиеся объяснительные значки. Практика использования подобных значков уже имела место в школе до создания КТШ и хорошо себя зарекомендовала в заданиях, когда детей просят в собственном тексте разметить с помощью объяснительных значков логику расстановки знаков препинания. Такие задания связаны с тем, что на уроке преподаватель обычно не успевает адекватно оценить, усвоил ли ученик правило. Кроме того, используя объяснительные значки, ученики повторяют правила. О том, что использование системы объяснительных значков дает положительные результаты и дети успешно осваивают пунктуационную логику, свидетельствуют высокие баллы, которые получают школьники, знакомые с этой системой, на экзаменах по русскому языку при ответах на вопросы по синтаксису и пунктуации.

В системе Интерробанг используется следующий набор объяснительных значков, соответствующий правилам и типам пунктуационных ошибок:

Разделительные знаки препинания:

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

разделение частей сложного предложения / clauses

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

однородные части / homogeneous clauses

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

однородные члены предложения / homogeneous

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

обобщающее слово при однородных членах предложения / homogeneous generalization

Выделительные знаки препинания:

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

обращение / allocution

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

вводные и вставные конструкции / expletive

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

уточнение, примыкание, присоединение / specifier

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

обособленное дополнение / dangling object

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

сравнительный оборот / similie

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

обособленное обстоятельство / dangling adverbial

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

обособленное определение / dangling attribute

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

приложение / apposition

Другое:

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

тире между подлежащим и сказуемым / subject-predicate dash

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

эллиптическое тире / blank dash

- кавычки / quotes

- Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

авторская пунктуация / author mark

Глава 4. Обработка корпуса с помощью программы интерробанг и анализ полученных данных

Корпус школьных текстов был обработан с помощью программы Интерробанг - автоматически выделены знаки препинания (и сходные с ними символы). Затем в программе в ручном режиме исправлены ошибки и во всех допустимых случаях добавленным и удаленным знакам препинания были присвоены объяснительные значки (в TEI-разметке соответствующие значкам значения тегов) - иконки, привязанные к различным пунктуационным правилам и типам ошибок. Затем была произведен статистический анализ данных разметки и собраны примеры по типам ошибок.

В процессе разметки формировалось представление о видах пунктуационных ошибок и того, что принято считать пунктуационными огрехами, делались предположения о частотности тех или иных пунктуационных случаев вообще и некоторых типов ошибок в частности, поднимались вопросы происхождения ошибок, формировалась база интересных случаев. В результате разметки и таких наблюдений программа разметки КШТ несколько раз менялась, в первую очередь изменения коснулись набора объяснительных значков и списка метатегов.

В разделе 4.1 представлены результаты статистической обработки.

В разделе 4.2 приведен анализ данных разметки и статистической обработки.

4.1 Статистический анализ данных

Подсчет статистики ошибок в разметчике Интерробанг осуществляется по TEI-тегам choice при помощи программы stats.py. Знаки, которые попали в тег sic учитываются как удаленные, а те, которые попали в тег cor, - как добавленные проверяющим. Распределение осуществляется на основе значений атрибута subtype тега pc для объяснительных значков и значений атрибута pc для знаков препинания.

Таким образом, статистика учитывает количество недостающих/избыточных знаков (см. рис. 1) и причины постановки/удаления знака препинания (см. рис. 2).

Рис. 1. Распределение удаленных и добавленных знаков препинания в текстах разного типа

Рис. 2. Распределение по типу ошибок

Согласно полученным данным, КТШ в настоящий момент содержит 1168 аннотированных знаков (см. рис. 3), более половины из которых - запятые (630 знаков).

Рис. 3. Частота исправлений знаков препинания

Самый редкий знак в базе ошибок (1 случай) - многоточие. Такие двойные знаки, как "?!" и "?!." не только не удалялись и не добавлялись при проверке, но и не использовались в ученических текстах ни разу.

На данный момент ни разу не производилось никаких операций с такими знаками, как "!", фигурные и квадратные скобки, слеш и дефис для обособления одиночных приложений.

Знак, который чаще всего, 462 раза (см. рис. 2), приходилось добавлять проверяющим, - запятая. Также часто учащиеся пропускали кавычки - 156 раз - так как этот знак парный, следовательно, речь идет о 78 случаях. 75 раз было добавлено тире. Точку в конце предложения пришлось поставить 42 раза.

Самым удаляемым знаком в корпусе также была запятая (168 раз). На втором месте по количеству удалений была точка (84 раза), которую учащиеся часто ставили между частями сложноподчиненного предложения. 42 раза проверяющие убрали ";". Удивительно, что второй по количеству ошибок знак препинания, кавычки, ни разу не был удален - все случаи употребления были уместны.

Согласно данным о количестве использования объяснительных значков, проверяющему была понятна причина ошибки, сделанной учащимся, в 879 случаях, т.е. в корпусе зафиксировано более 250 ошибок неясной этиологии.

Ошибки в разделительных знаках препинания отмечены в 375 случаях, несколько меньше, 310 случаев, ошибок выделения, притом что правил, связанных с обособлением в два раза больше, чем причин для разделения. На остальные 4 объяснительных случая (тире между подлежащим и сказуемым и эллиптическое, употребление кавычек и авторские знаки) приходится суммарно 194 значка, из которых большинство связаны с «забытыми» кавычками (см. рис 2).

Чаще всего ошибки связаны с неправильным разделением частей сложного предложения - 303 случая, из которых 12 на неправильное разделение однородных частей. Большое количество ошибок школьники допускают при обособлении второстепенных членов - 171 пример, из них чаще всего ошибки касались обособления определений 93 случая, где 12 примеров касаются обособления особого типа определений - приложения. На третьем месте по частоте ошибок - использование кавычек (156 значков). Следующая группа - ошибки на знаки препинания при словах, грамматически не связанных с членами предложения: учащиеся ошиблись в 139 случаях, большинство из которых связано с неумением отличать вводные слова от не вводных и только один с обособлением обращения. 72 ошибки допущено школьниками по теме «Однородные члены предложения», причем 15 ошибок связано с использованием обобщающих слов. Учащиеся не всегда справляются с темой «Тире между подлежащим и сказуемым» - 30 примеров на нее. Наконец 5 и 3 случаев приходится на авторские знаки и эллиптическое тире соответственно.

В корпусе пока не зафиксировано ни одного примера неправильного обособления дополнений, т.е. оборотов со значением включения, исключения или замещения.

Также было проведено сравнение количества ошибок в оригинальных работах учащихся (сочинениях) и работах реферативного характера (изложениях) (см. рис. 3, 4, 5).

Одинаково много ошибок было сделано при использовании запятой. В изложении серьезно больше, чем в сочинении, было допущено ошибок на постановку ";" - в 14 раз. Также в изложениях в 2-3 раза было больше ошибок на использование скобок, тире и точки (см. рис. 4), однако

Рис. 4 Распределение ошибок в знаках препинания в изложения и сочинениях

Такое распределение не показательно, так как объем изложений превышает объем сочинений в 2,5 раза (см. рис. 3, 5):

- изложения (28956 слов, 4760 знаков препинания);

- сочинения (13008 слов, 2650 знаков препинания).

Рис. 5. Объем в Корпусе текстов разных типов

В сочинениях было допущено в три раза больше, чем в изложении, ошибок на постановку кавычек (см. рис. 6).

Рис. 6. Распределение ошибок в знаках препинания в сочинениях и изложениях

При анализе типа ошибок выяснилось, что как в сочинениях, так и в изложениях много ошибок допускается при разделении частей и при выделении вводных конструкций (см. рис. 7). Отмечено практически одинаковое значительное количество ошибок на однородные члены предложения в обоих типах текстов. При этом в изложении также превалируют ошибки на выделение определений и постановку тире между подлежащим и сказуемым, а в сочинениях на выделение обстоятельств и уточняющих и пояснительных конструкций.

Рис. 7. Распределение по типу ошибок в текстах разного типа

Несмотря на то, что еще рано говорить о сколько-нибудь серьезных выводах, данные, полученные в результате статистического анализа, позволяют нам строить гипотезы, которые мы сможем проверить после пополнения корпуса до более значительных размеров.

интерробанг пунктуационный корпусный текст

4.2 Анализ данных разметки и статистической обработки

В ходе проверки текстов КТШ при помощи программы Интерробанг были изучены примеры пунктуационных трудностей у современных школьников, в некоторых случаях были предложены гипотезы для объяснения причины ошибки и ее устранения (они будут изложены в соответствующих разделах).

Поиск примеров осуществлялся с помощью программы find.py, которая по файлам КТШ выбирает абзацы текста, содержащие знаки препинания и/или объяснительные значки (пример в ПриложенииБыл произведен поочередный сбор примеров для всех размеченных ненулевых объяснений (по результатам статистической обработки в корпусе не найдено ни одного случая ошибки на обособление дополнений), т.е. поиск по следующим значениям:

· авторская пунктуация,

· вводные и вставные конструкции,

· кавычки,

· обобщающее слово при однородных членах предложения,

· обособленное обстоятельство,

· обособленное определение,

· обращение,

· однородные части,

· однородные члены предложения,

· приложение,

· разделение частей сложного предложения,

· сравнительный оборот,

· тире между подлежащим и сказуемым,

· уточнение, присоединение,

· эллиптическое тире.

4.2.1 Оформление заголовков

Членение заголовка на значимые части

Приведем примеры оформления заголовков, сделанных школьниками к своим текстам:

Елизавета Грингауз Рецензия

Рацеева Ольга 7б1 буква и

БукваФ 7б Чекалов Павел

Аннотация к реферату Тест Тьюринга Бубнов

Алексеева Ирина Империя обмана Стива Джобса

Алексеева Ира.Кобальт

Очевидно, что несоблюдение правильного членения может легко привести к неправильному семантическому осмыслению таких заголовков, например, сложно понять, где заканчивается фамилия и начинается класс; являются ли сочетания цифр и букв обозначением класса или частью названия текста; невозможно отличить заголовок от информации о типе и жанре текста и т.д.

В следующей версии Интерробанга мы хотим предусмотреть специальное обозначение для ошибок на членение частей заголовка.

Опираясь на рекомендации, изложенные в изданиях по редакционно-издательскому делу, следует провести разъяснительную работу со школьными методистами и учителями русского языка о необходимости обучения детей правильному оформлению заголовки.

Точка в конце заголовка

Начиная с 30-х годов XX века закрепилось правило: «Точка в конце заголовка, состоящего из одного предложения, не ставится» [Правила русской орфографии и пунктуации, 2009]. В заголовках из знаков конца предложения могут употребляться знаки вопросительный, восклицательный и многоточие.

Несмотря на то, что на занятиях правило об оформлении заголовка без точки регулярно проговаривается, во многих работах (20%) учащиеся в конце заголовков ставят точку. Особенно это касается рукописных текстов (15 работ), но и в напечатанных работах (8 работ) такая ошибка тоже встретилась. Стремление школьников поставить точку в конце заголовка может быть тем, что в начальной школе у них был выработан навык постановки точки в указанной позиции: «Справочная книга редактора и корректора»: «Точку в заголовке, вынесенном в отдельную строку, опускают, за исключением изданий для начинающих читать детей (напр., в букваре), чтобы не мешать закреплению стереотипа: в конце предложения надо ставить точку». [А.Э. Мильчина, 1985. с. 24]

Меньшее количество ошибок на данное правило в печатных работах можно объяснить тем, что школьники регулярно читают современную учебную литературу, подвергшуюся профессиональной корректуре. Можно предположить, что выработанный в младших классах навык в рукописных текстах ставить точку вытесняется (особенно у детей с развитой визуальной памятью) неосознаваемым, но запоминаемым отсутствием точки после заголовка в печатных текстах.

В дальнейшем хочется проверить данную гипотезу, подкрепив или опровергнув ее большим количеством корпусных примеров.


Подобные документы

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Характеристика Русского Учебного Корпуса. Типы ошибок в русском учебном корпусе, совместная встречаемость тегов, алгоритм классификации. Проблема несбалансированности выборки. Результаты классификации, вклад признаков в различные классификаторы.

    курсовая работа [51,5 K], добавлен 30.06.2017

  • Изучение алгоритма рекурсивного спуска и системы построения грамматики с помощью лексического анализатора Lex. Написание программы интерпретатора языка разметки HTML. Проверка входной последовательности на корректность входа как общая функция программы.

    контрольная работа [226,7 K], добавлен 25.12.2012

  • Использование комплекта диакритических знаков и букв для набора текстов на европейских языках. Обозначение времени, знаков валют. Британские и американские особенности английского языка. Правила французской, испанской, итальянской и немецкой типографики.

    контрольная работа [216,2 K], добавлен 06.01.2015

  • Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.

    реферат [65,5 K], добавлен 29.01.2013

  • Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

    дипломная работа [3,0 M], добавлен 06.03.2012

  • Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.

    дипломная работа [2,4 M], добавлен 27.08.2017

  • Постановка и актуальность задачи написания программы для перевода текстов с транслита. Метод ее решения, входные и выходные данные. Список процедур и функций выполняемые программой. Ее структура: главная форма, форма "О программе" и "Редактор алфавита".

    курсовая работа [259,8 K], добавлен 26.03.2009

  • Системный блок (корпус) как важный элемент, обеспечивающий размещение и жесткую фиксацию всех устройств, обеспечение их электропитанием и защищающий "внутренности" от воздействия окружающей среды. Тип корпуса и число отсеков. Компоновка корпуса desktop.

    презентация [2,3 M], добавлен 10.08.2013

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.