Изучение пунктуации на примерах корпуса школьных текстов
Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 08.11.2015 |
Размер файла | 1,9 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
4.2.2 Удаленные знаки препинания
Первоначально при создании программы предполагалось, что система будет учитывать объяснение только поставленных проверяющим знаков препинания, однако в процессе обработки стало понятно, что причину удаления знака более чем в половине случаев также можно определить.
Знаки препинания, которые были удалены без объяснения причин:
· те, что противоречат общему принципу русской пунктуации - знаки препинания отсутствуют в устойчивых выражениях
· алогичные знаки - логика ребенка и причина постановки знака непонятны;
· авторские, интонирующие знаки, если они противоречат логике основных правил.
Знаки препинания, удаленные с указанием правила, которое необходимо разобрать с учащимся, чтобы избегать аналогичных ошибок в будущем:
1. знаки препинания между подлежащим и сказуемым,
2. знаки препинания при неоднородных членах предложения (тема «однородных члены»)
3. знаки препинания при повторяющихся союзах (тема «однородные клены»
4. для выделения одиночных деепричастий, утративших глагольное значение
5. для выделения сравнительных конструкций, ставших цельными выражениями
6. между однородными частями, связанными союзом и (для этого случая даже отдельно был введен значок, сообщающий о том, что мы имеем дело с однородными частями сложного предложения. Этот значок до сих пор ставился только в случае удаления части).
7. в устойчивых конструкциях с подчинительным союзами
8. в придаточных частях сложного предложениях, имеющих подчинительный союз или союзное слово, но начинающихся с других слов;
9. знаки препинания при бессоюзной связи (случаи замены знака)
4.2.3 Парность знаков
В процессе обработки материалов также было замечено, что знаки препинания в Корпусе делятся на
- одиночные: ("."(точка), "!" (восклицательный знак), "?" (вопросительный знак), ";"(точка с запятой), ":" (двоеточие), "-" (дефис), "..." (многоточие), "?!." и "?!";
- одиночные или парные в зависимости от контекста и положения в предложении выделяемых конструкций.
- Могут быть изначально разделяющими знаками, не ставятся в начале предложения, если с них начинается оборот и если они поглощаются знаками конца предложения или части сложного предложения: "," (запятая), " - " (тире).
- В (слэш) - в нашем корпусе встретился случай одиночного слэша ("/"), использованного не в качестве пунктуационного(км/ч).
- парные знаки, в случае с которыми при наличии открывающего знака обязательно должен быть закрывающий: открывающим кавычкам соответствуют закрывающие, например, у открывающего знака "«"будет закрывающий"»".
На данный момент о парности знаков можно говорить только по результатам наблюдений и преподавательского опыта, в дальнейшем этот параметр планируется включить в разметку для получения новых статистических данных, для создания полуавтоматической разметки и проверки работ, а также же для создания автоматической системы оценивания работ учащихся (в традиционной системе оценивания одиночные знаки дают одну ошибку, но и парные знаки также дают одну ошибку).
4.2.4 Пробелы
При разметке текстов мы столкнулись еще с одной особенностью печатных школьных текстов: в половине из них не соблюдаются типографические рекомендации по расстановке пробелов.
А продавец не знает ,что делать.
И вот зашел другой посетитель и говорит : "Я - лингвист.О чем идет спор?"
(Мельников А., 7б1, Сочинение о букве ять)
Реферат Кирилла Шмелькова посвящен актуальной теме- зарождение вселенной, а именно концепции Большого взрыва.
(Грингауз Е., 8е, Рецензия на реферат Шмелькова К.)
Как мы видим, пробелы могут быть пропущены, поставлены лишние или они поставлены в тех позициях, где их не могло быть вовсе.
Неправильная расстановка пробелов может даже привести к такой ситуации, когда на месте дефиса (орфографический знак) оказывается тире, т.е. знак препинания:
Его используют для гамма - облучения при анкологическихонкологических заболеваниях.
(Алексеева Ира, 8е, Кобальт)
Европейская типографическая практика предлагает следующие правила постановки тире (небольшие отличия в разных странах касаются пробелов при выделительном тире):
1. В тексте обычно не допускается наличие двух и более пробелов подряд, поскольку это даёт искажённое представление о количестве знаков, которое бывает важно при типографских расчётов объёмов.
2. Пробел ставится после запятой, точки (в том числе и обозначающей сокращения и инициалы), точки с запятой, двоеточия, вопросительного и восклицательного знака, многоточия (кроме многоточий, начинающих предложение).
3. Пробел может не ставиться, если тире идёт сразу после точки или запятой.
4. Пробел не ставится перед запятой, точкой, точкой с запятой, двоеточием, вопросительным и восклицательным знаками, многоточием (кроме многоточия, стоящего в начале предложения); после многоточия, стоящего в начале предложения; с внутренней стороны скобок и кавычек; с обеих сторон дефиса (за исключением односторонних дефисов, то есть случаев вроде «одно- и двухэтажный») и апострофа.
Мы считаем, что в следующей версии Интерробанга необходимо внести добавить разметку для исправления ошибок, связанных с постановкой пробелов, а школьникам, как и в случае с оформлением заголовков, рассказать о типографических приемах, делающих текст удобным для прочтения и пригодным для машинной обработки.
4.2.5 Абзацное членение
Во многих тестах, включенных в базу КТШ, отсутствует абзацный отступ в начале нового абзаца, как того требует в машинописном тексте ГОСТ 29.115-88: абзацный отступ должен равняться 3 или 5 пробелам и быть одинаковым для всего текста.
Стоит отметить, что, несмотря на то, что в книгоиздательском деле действительно принято выделять абзацы отступом, в интернет-пространстве тексты книг также часто оформлены без соблюдения требования абзацного отступа.
Рис. 1. Пример текста без абзацных отступов
Нам кажется, что в данном случае имеет смысл говорить о тенденции к отказу от обязательного абзацного оступа в печатном тексте.
4.2.6 Разделительные знаки
Разделение частей сложного предложения
Как следует из данных, приведенных в предыдущем разделе (4.1), ошибки, связанные с неправильным членением предложения на части, составляют основной процент ошибок в нашем корпусе.
Такой результат ожидаем, так как к ошибкам на «части» относится сразу несколько распространенных случаев:
1. постановка точки в конце предложения
Добывается путём окислительного обжига киновари.
(Гажеев С., 8.е, Реферат о ртути)
Отсутствие точки в конце предложения, которая должна бы обозначать окончание мысли,- очень частая ошибка в ученических текстах, особенно печатных.
2. разделение частей в сложносочиненной конструкции - самая редкая из всех ошибок на разделение части, которая может иметь разную природу:
- неправильный выбор знака:
Сейчас иногда в научных и рекламных целях употребляют стилизованные под древность шрифты с таким Н-образным начертанием буквы И;, однако их применение чаще сбивает с толку, чем помогает, особенно если шрифт используется для выделения отдельных слов, а то и букв.
(Рацеева О., 7б1, Сочинение о букве и)
- неумение выделить или увидеть грамматическую основу:
Ртуть является восемьдесятым элементом в таблице Менделеева, и имеет относительную атомную массу - двести целых пятьдесят девять сотых.
(Гажеев С., 8.е, Реферат о ртути)
- постановка лишней запятой между однородными частями:
Таким образом, мы видим, что Луна образовалась в результате столкновения гигантского метеорита с Землёй. И теперь Луна является неизменным спутником Земли, оказывающим постоянное воздействие на неё.
(Жук Т., 8е, реферат по статье «Теория гигантского столкновения»)
- разделение частей сложноподчиненной конструкции.
Здесь имеет смысл говорить о трех случаях:
- когда запятая пропущена между частями;
- когда не хватает двух запятых, обособляющих часть внутри другой части и;
- когда запятая поставлена не в том месте.
В древних государствах, чтобы покрасить стекло или фарфор, требовалось выделить из вещества краску.
А в средневековой Саксонии при плавлении некого вида руды выделялся ядовитый газ, который, рудокопы признали шалостью гнома Кобольда.
(Алексеева И., 8е, Реферат о кобальте)
- знаки препинания на стыке сочинительного и подчинительного союзов - случай редкий, но зато представленный не только в корпусе, но и во всех учебных пособиях и современных контрольно-измерительных материалах.
А, если не повезет,
То кто-то быстро умрёт.
(Рудак Георгий, 7б1, Сочинение «От жажды умираю надручьем»)
- разделение частей при бессоюзии: здесь возможны два типа ошибок: в первом случае пропущен знак препинания между частями (крайне редко); во втором - использован неверный знак.
Но L не только буква, на и цифра,: в Римской Империи ею обозначали число пятьдесят.
(Бубнов Е., 8е, Сочинение о лямбде)
Действительно, причин для постановки «запятой части» много, однако мы ввели только два объяснительных значка:
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
разделение частей сложного предложения/ clauses
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
однородные части/ homogeneous clauses
Второй значок ставится преимущественно в случае лишней запятой при однородных частях, чтобы приучить учащихся к мысли, что свойство однородности характерно не только для членов предложения, но и для частей сложного предложения. Мы не стали вводить значки для различения всех случаев, чтобы не перегружать систему значков, во-первых, а во-вторых, практика использования значков на уроках показала, что для того, чтобы научить детей ставить знаки препинания между частями необходимо в первую очередь научить их видеть разные грамматические основы.
Пунктуация при однородных членах предложения
Для этой темы было создано два значка:
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
однородные члены предложения/ homogeneous
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
обобщающее слово при однородных членах предложения/ homogeneous generalization
Первый используется при разделяющих "," и ";" и при удалении знака препинания, если члены предложения, между которыми он поставлен, являются неоднородными или их связывает одиночный сочинительный союз.
Они выделили этот инертный газ методом исключения, после того, как кислород, азот, и все более тяжелые компоненты воздух[а] были превращены в жидкость.
(Шахов В.,8е, Реферат о неоне)
Второй значок указывает то, что поставленные проверяющим ":" или " - " свидетельствуют о наличии в предложении обобщающих слов.
Корпусные исследования, а также разбор в классе работ, размеченных с помощью программы Интерробанг, подтвердили правильность решения о том, что двух объяснительных значков для ошибок, связанных с однородными членами предложения, достаточно,при этом необходимость введения в систему первого значка не вызывала сомнений, а второй значок помог учащимся и учителям быстро сориентироваться, какое правило следует повторить или пройти: ":" и " - " при обобщающих словах или же ":" и " - " при бессоюзной связи между частями сложного предложения.
4.2.7 Выделительные знаки
Обособление определений и приложений
За несколько лет до появления корпуса в своей преподавательской практике мы использовали только значок пояснения запятых и тире при обособленных определениях, выраженных прилагательными, причастиями или соответствующими оборотами, и при обособлении несогласованных определений.
Вторичное ядерное топливо - ядерное топливо, не сущуствующие в природе.
(Черных И., 8е, Реферат об уране)
Эта теория, получившая название гипотезы гигантского столкновения, объясняет низкую плотность лунного вещества.
(Жук Т., 8е, реферат по статье «Теория гигантского столкновения»)
Приложения - определения, выраженные существительными в той же падежной форме, что и определяемое слово, обозначались значком для обособленных определений, то не маркировались никак. Дети не переставали путать несогласованные определения и приложения. Поэтому появился самостоятельный значок
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
приложение/ apposition, который позволил ученику, кода он расставляет значки в диктанте, показать, что он различает эти две темы, а учителю, использующему Интерробанг, понять, с какой темой нужно помочь разобраться школьнику.
Дело в том, что в игре Half Life(период полураспада) лямбда - это логотип части исследовательского центра Black Mesa, Комплекса "Лямбда", в последствии стала символом сопротивления альянсу, а также напоминает руку, держащую монтировку, - самое известное оружие в игре.
(Фоминский Л., 8е, Сочинение о лямбде)
Для выделения приложений при создании программы мы решили считать дефис знаком препинания. Однако на данный момент в корпусе не встретилось ни одного такого случая использования дефиса. Большинство дефисов - это орфографические дефисы, присоединяющие частицы (например, -таки) , постфиксы (то, либо, нибудь) и префикс кое-.
Мы не хотим отказываться от идеи выделения пунктуационного дефиса при приложениях, так как это значимое правило в одной из основных тем школьной программы, кроме того, в ближайшем будущем база КТШ должна пополниться диктантами, в том числе со случаями выделения одиночных приложений. С другой стороны, мы видим необходимость и возможность автоматически исключить в следующей версии основную часть орфографических дефисов из пунктуационной разметки.
Колобродить - значит возиться, производить беспокойство, шум, суету, бесцельно шататься, слоняться, Беспокойно блуждать, рассеиваться, не сосредоточиваясь на каком-нибудь предмете.
(Чижиков А., 7б1, Сочинение с глаголом «колобродить» )
Обособление дополнений
На данный момент в корпусе не зафиксировано ни одного случая ошибки на обособление дополнений. При этом в корпусе встретилось четыре примера использования оборотов с предлогом «кроме» (в значении «за исключением») и два с «за исключением».
Кроме комнаты буквы Ё, в новой мультимедийной экспозиции имеются виртуальный «Город букв» и игровая комната.
(Чижиков Артем, 7б1, Сочинение о букве ё)
Конечно, проблемы остаются: мы не можем объяснить саму первопричину возникновения Вселенной , но более правдоподобной теории на сей счёт на данный момент просто нету ,кроме, конечно, высказывания ("Бог создал мир").
(Шмельков К., 8е, Реферат на тему «Большой взрыв»)
Не ожидала от «Ёлок» ничего, кроме очередной эксплуатации новогодней темы.
(Суд И., 8е-2014, Рецензия на новогодний фильм)
Кроме того, участники подготовили к отправке на электронную почту администрации президента видео с поздравлениями и пожеланиями от самих себя.
(Доспехов Д., 8е-2014, Репортаж о праздновании нового года)
Жаль, что наш современный алфавит не может похвастаться такой красивой буквой, за исключением, пожалуй, буквы Я, которая является дальней родственницей большого Юса!
(Врублевская О., 8е, Сочинение о букве я )
За исключением протона и электрона, все эти частицы очень скоро распадаются на другие элементарные частицы.
(Фаворская О., 8е, Реферат на тему «Темная материя»)
Выборка, касающаяся обособленных дополнений, для нашего Корпуса пока слишком мала, чтобы можно было утверждать, что учащиеся всегда обособляют такие конструкции.
Обособление обстоятельств и уточняющих и присоединительных конструкций
Первоначально создано два объяснительных значка - оба для обособления обстоятельств:
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
уточнение, примыкание, присоединение/ specifier
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
обособленное обстоятельство/ dangling adverbial
Первый значок использовался для того, чтобы показать, что некоторые существительные с предлогами, требуют обособления в связи с тем, что передают обстоятельственное значение причины или уступки.
Несмотря на разницу в возрасте, этих фильмов явно лучше вышел пираты силиконовый долины.
(Слепов Ф., 8е, Сравнительная рецензия по фильмам о Стиве Джобсе)
Второй значок относился к случаям уточняющих обстоятельств, которые, как мы предположили в ходе докорпусных наблюдений, нередко встречаются в детских текстах - значительно чаще, чем уточняющие определения.
В прошлом, 2014 году, на чемпионате мира во Франции, в Париже, он стал чемпионом мира.
(Кулдошин А., 7б1, Интервью с интересным человеком)
В нашей системе не было специального значка для случаев присоединения, поэтому по принципу сходства пунктуационного выделения для всех уточняющих оборотов и присоединительных конструкции был использован значок, который использовался ранее только уточняющих обстоятельств.
[…]мне надо по колобродить, и не чуть-чуть.
(Чижиков А., 8е, Сочинение с глаголом «Колобродить»)
Ртуть плавится при температуре плюс восемнадцать градусов по цельсию., То есть при комнатной температуре.
(Гажеев С., 8е, Реферат по теме «Ртуть»)
А с моей точки зрения, с точки зрения обывателя, фильм запутанный и неинтересный, так что смотреть его стоит только заинтерисованным в продукции "apple".
(Алексеева И., 8е, Сравнительная рецензия по фильмам о Стиве Джобсе)
Обособление сравнений
Большинство примеров, которым был присвоен значок
(сравнительный Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
оборот/ similie), касаются правила об обособлении сравнительных оборотов, в том числе это многочисленные случаи, когда оборот, начинающийся со сравнительного союза «как», не является сравнительным, а «как» задает отношения тождественности или имеет значение «в качестве».
L - двенадцатая буква латинского алфавита, заимствованная в Кириллицу как «Л», используется во многих науках, как сокращение в биологии имени Карла Линнея - одного из первых биологических систематиков.
(Бубнов Е., 8е, Сочинение о букве Л)
Выделение нечленов предложения
Вводным и вставным конструкциям был присвоен общий значок
(вводные Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
и вставные конструкции/ expletive), так как между ними много общего с точки зрения синтаксиса и в школе обычно вводные и вставные конструкции проходятся в одном блоке.
Нынешнее кириллическое Н, в свою очередь, выглядело как прописное греческое или латинское N.
(Рацеева О., 7б1, Сочинение о букве и)
По сходной причине этим же значком мы договорились отмечать случаи отсутствия в школьных текстах запятых при междометиях. Однако ни одного случая использования междометий в КТШ пока не засвидетельствовано.
Самым редким объяснительным значком (единичный случай использования) в нашем корпусе на данный момент является
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
обращение/ allocution, когда за обращение учащимся ошибочно было принято местоимение ты, следующее за основным обращением.
Шестиклассник, ты, ступаешь на сложный путь изобретателя в Е классах.
4 (Галимов С., 9е, Сочинение «Обращение к младшим ешкам»)
4.2.8 Другие пунктуационные случаи
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
этот знак, связанный с традиционным школьным правилом о постановке тире между подлежащим и сказуемым, мы применяли в двух случаях: если ученик не ставил в нужной позиции тире или если вместо тире между подлежащим и сказуемым оказывались другие знаки, как правило, это была ",".
Основное отличие в строение - это отсутствие у Луны раскаленного ядра.
(Жук Т., 8е, реферат по статье «Теория гигантского столкновения»)
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
эллиптическое тире/ blank dash: в нашем пока небольшом Корпусе встречаются единичные случаи пропуска тире в неполном предложении.
Неон используется для создания неоновых вывесок, а в жидком виде - как охладитель в криогенных установках.
(Шахов В., 8е, Реферат о неоне)
В первой версии программы Интерробанг мы упустили из виду такой значимый знак препинания, как кавычки. Однако при разметке мы столкнулись с большим количеством случаев, когда в ученических текстах не доставало кавычек, поэтому мы не только ввели этот знак препинания в общую систему, но и решили создать для него специальный значок (кавычки/ quotes), указывающий на кавычки
- при прямой речи,
- при цитатах,
- для выделения «чужих» слов,
- при необычно употребляемых слов.
(Мельников А., 7б1, Сочинение о букве ять)
В итоге в 126 текстов проверяющие добавили 156 кавычек, т.е. в 78 пунктуационных случаях учащимися были пропущены кавычки. В связи с таким высоким числом случаев неоправданного пропуска кавычек мы решили предположить, что правила на использование кавычек являются либо сложными для усвоения, либо в программе средней школы на изучение данной темы отводится слишком мало времени, потому что эти правила вынесены в программу старшей школы. Эти гипотезы предполагается проверить после пополнения корпуса текстами старшеклассников.
Те знаки, которые согласно школьным учебникам не считаются правильными, однако, учитывая смысловой и интонационный принципы пунктуации, могут быть поставлены, проверяющие относили к авторским и присваивали им объяснительный значок
- Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
авторская пунктуация/ author mark.
В некоторых случаях проверяющие предлагают заменить ученический знак препинания на тот, который признается школьной системой.
По поводу парного выступления.: Это наш дебют в данной дисциплине.
(Кулдошин А., 7б1, Интервью с интересным человеком)
Что такое радий? Радий - это химический элемент, излучающий радиацию, и в связи с этим очень интересный.
(Заиченко С., 8е, Реферат на тему «Радий»)
Вплоть до конца 18 века химики считали известь простым телом. В 1789 году А. Лавуазье предположил, что известь, барит и другие вещества , - сложные.
(Трофимова М., 8е, Реферат на тему «Кальций»)
4.2.9 Лишние знаки неясной этиологии
Весьма интересной частью нашего исследования КТШ в будущем могут стать многочисленные примеры, в которых учащимися поставлены лишние знаки препинания, для которых проверяющий зачастую затрудняется определить, к какому правилу их отнести или вовсе не может найти объяснения.
Приливная теория утверждает, что от Земли из за очень быстрого вращения вокруг своей оси оторвался кусок и из него, на орбите сформировалась Луна.
(Жук Т., 8е, реферат по статье «Теория гигантского столкновения»)
В данном тексте ,изложена информация о теории Большого Взрыва.
В нём рассказывается , на чём основана данная теория и без какой теории , она была бы неверна .
О превосходстве теории Большого Взрыва ,над другими теориями образования вселенной и фактах, подтверждающих её .
(Шмельков К., 8е, аннотация к статье «Большой взрыв»)
Неон открыли в июле 1898 года, английские химики Уильям Рамзай и Морис Траверс.
(Шахов В., 8е, Реферат о неоне)
Фильм «Ёлки»- типичный фильм на новогоднюю тему, и, как иногда водится, там представлены практически все социальные слои населения-от президента, до вора и гастрбайтера, которые встречают Новый Год в разных часовых поясах.
(Суд И., 8е-2014, Новогодняя рецензия на фильм)
ЗАКЛЮЧЕНИЕ
Методы обучения русскому языку в условиях активного развития компьютерных и образовательных технологий нуждаются в динамичных изменениях. Ценным материалом для корректировки образовательных стандартов могут стать корпусные данные, полученные при обработке текстов самих школьников.
В рамках настоящей магистерской работы была поставлена цель собрать Корпус школьных текстов, аккумулирующий примеры подростковой речи, регламентированной учебными задачами на уроках русского языка и словесности, и изучить пунктуацию в накопленном материале.
Сбор материала для Корпуса школьных текстов осуществлялся двумя способами: во-первых, корпус пополнялся за счет рукописных работ учащихся, переведенных в электронный формат, во-вторых, текстами, набранными подростками на компьютере.
Вторая группа текстов собиралась экспериментально. С разрешения директора школы 179, в которой проводился эксперимент, учащимся было предложено по желанию сдавать письменные творческие домашние задания и работы реферативного характера в рукописном (традиционный подход) или в электронном виде.
База корпуса продолжает активно пополняться оригинальными печатными работами и электронными версиями рукописных текстов. В новом учебном году планируется увеличивать объем корпуса, в том числе за счет диктантов и образцов устной регламентируемой речи (видеозаписями с письменной расшифровкой устных выступлений школьников).
Тексты в Корпусе группируются по классам, годам написания, типу текса и формата, поверяются и оцениваются. Таким образом, Корпус - это инструмент методической работы учителя, позволяющий отслеживать развитие учебных навыков у школьников. Кроме того, корпус школьных тексов может быть использован для социологических и лингвистических исследований, для изучения различных проявлений узуальной речи школьников.
В рамках настоящего исследования проводилось изучение пунктуации текстов Корпуса, в первую очередь эрратологического аспекта этой темы, т.е. анализировались пунктуационные ошибки, допускаемые школьниками среднего подросткового возраста.
Для обработки пунктуационного содержания текстов на основе современных справочников и учебников была разработана собственная типология ошибок и система пунктуационной разметки с использованием объяснительных значков. Эта классификация и система значков легли в основу создания программы-разметчика Интерробанг, которую использовали при проверке ученических работ, содержащихся в Корпусе.
С помощью программы Интерробанг в полуавтоматическом режиме было осуществлено аннотирование каждого текста Корпуса (кем написан, тип и форма текста и т.д.), автоматически произведена предварительная разметка существующих в текстах знаков препинания, в режиме ручной разметки закодированы внесенные проверяющим исправления, автоматически собрана база примеров всех типов ошибок и выполнен статистический анализ размеченных данных.
Полученные примеры и статистические показатели были проанализированы и описаны.
Результаты исследования могут быть использованы для уточнения правил и содержания образовательного стандарта по русскому языку в школе (учебных программ, контрольно-измерительных материалов и т.д.).
Изучение пунктуации на материале школьных текстов также имеет большое практическое значение. Собранная база примеров с пунктуационными ошибками позволит сделать учебные тренажеры, а результаты статистической обработки предполагается использовать для создания пунктуационного спелчекера - системы автоматической проверки пунктуационной грамотности.
Кроме того, в процессе работы над данной магистерской было замечено, что школьникам необходимо прививать культуру печатного письма, причем не только в контексте коммуникации в социальных сетях, которой посвящено ряд исследовательских работ, но и оформления учебных текстов.
Обозначенные перспективы использования материалов Корпуса школьных текстов, программы Интерробанг и результатов данной работы свидетельствуют о том, что, несмотря, на то, что в рамках настоящей магистерской работы все поставленные цели были достигнуты, исследования в области изучения корпусных данных школьного речи будут продолжены.
На данный момент на сайте www.compling.ru/interrobang в открытом доступе находится версия 1.0. программы Интеробанг. В планах автора обновление программы до версии 1.1. с модулем автоматического оценивания пунктуационной грамотности текста в зависимости от года обучения, также автор ставит перед собой задачу в ближайшее время разместить на указанном ресурсе собранный и размеченный Корпус текстов школьников.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
1. В.А. Плунгян. Зачем мы делаем национальный корпус русского языка? // Отечественные записки. №2(23) - М., 2005.
2. Камшилова О.Н. Анализ ошибок в корпусе ученических текстов: исследовательский и технологический аспект // Материалы Международной конференции «Корпусная лингвистика - 2011», 27-29 июня 2011, Санкт-Петербург - СПб., 2011. CC. 175-180.
3. О.Э. Садовникова. Прямое и косвенное использование корпусов в зарубежной лингводидактике // Magister Dixit, №4, 2013.
4. Е.В. Рахилина. О языковой интерференции и лингвистических корпусах русского языка // Русский мир, 2015
5. Камшилова О.Н., Колина М.В., Николаева Е.А. Разработка корпуса текстов петербургских школьников: задачи и перспективы // Прикладная лингвистика в науке и образовании, СПб., 2008.
6. Н.Р. Добрушина. Как использовать Национальный корпус русского языка в образовании? // Национальный корпус русского языка: 2003-2005. Результаты и перспективы, М., 2005.
7. Н.Р. Добрушина А.И. Левинзон. Информационные технологии в гуманитарном образовании: Национальный корпус русского языка // Вопросы образования, №4, 2006.
8. А.В. Кучуганов, Г.В. Лапинская. Распознавание рукописных текстов // Материалы международной научной конференции Ижевск, 13-17 июля 2006 г.
9. Корпус речи школьников СПБ. [Электронный ресурс] - [Санкт-Петербург, 2009-2012]
10. Орфограммка. Веб-сервис проверки правописания [Электронный ресурс] / ООО «Орфограмматика» - [2013]
11. В.Д. Соловьев, Б.В. Добров, В.В. Иванов, Н.В. Лукашевич. Онтологии и тезаурусы. Учебное пособие - Казань, Москва, 2006.
12. О.Г. Горина. Использование технологий корпусной лингвистики для развития лексических навыков студентов-регионоведов в профессионально-ориентированном общении на английском языке [Диссертация на соискание ученой степени к.п.н.] - М., 2014.
13. A.B. Stenstrцm, G. Andersen, I.K. Hasund. Trends in Teenage Talk: Corpus compilation, analysis and findings. - John Benjamins Publishing, 2002.
14. Drange E.M.D., Hasund I.K., Stenstrцm A.B. "Your mum!" Teenagers' swearing by mother in English, Spanish and Norwegian // International Journal of Corpus Linguistics. - 2014. // Т. 19, №1. - С. 29-59.
15. I.M. Palacios Martнnez. The Language of British Teenagers. A Preliminary Study of its Main Grammatical Features. // Journal of the Spanish Association of Anglo-American Studies. 33.1, 2011
16. Т.В Базжина., Т.Ю. Крючкова. Русская пунктуация. Пособие-справочник. - М.: Форум, 2015.
17. Правила русской орфографии и пунктуации. Полный академический справочник / Под ред. В.В. Лопатина. -- М: Эксмо, 2009.
18. А.Э. Мильчин, Л.К. Чельцова. Справочник издателя и автора. Редакционно-издательское оформление издание. 2-е изд., испр. и доп. - М.: ОЛМА-Пресс, 2003.
19. А. Einsohn. The Copyeditor's Handbook: A Guide for Book Publishing and Corporate - Communications University of California Press, 2005.
20. Д.Э. Розенталь. Справочник по правописанию и литературной правке. 16-е изд. - М.: 2012.
21. Н.С. Валгина., В.Н. Светлышева. Орфография и пунктуация: Справочник.-М.: Издатель Булатникова И.C., ООО «Большая Медведица», 2002.
22. А. Einsohn. The Copyeditor's Handbook: A Guide for Book Publishing and Corporate - Communications University of California Press, 2005.
23. Справочник по TEI: Text Encoding Initiative. [Электронный ресурс]
24. Справочники по Python. [Электронный ресурс]
25. Справочник по PyQt4. [Электронный ресурс]
ПРИЛОЖЕНИЕ 1
Хранение файлов Корпуса текстов школьников
ПРИЛОЖЕНИЕ 2
Образец осуществленной разметки в Рабочем окне программы Интерробанг
ПРИЛОЖЕНИЕ 3
Образец напечатанного размеченного документа
ПРИЛОЖЕНИЕ 4
Образец TEI-разметки документа
<?xml version="1.0"?>
<tei xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<author>Алексеева</author>
<title>Рецензия-сравнение</title>
<respStmt>Выборнова</respStmt>
<authgrade>8</authgrade>
<format>typed</format>
<confidence>high</confidence>
</titleStmt>
</fileDesc>
</teiHeader>
<text>
<front>
<divGen type="Another"/>
</front>
<body>
<p>Алексеева Ирина <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Империя обмана Стива Джобса<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>
</p>
<p/>
<p>В этой статье я хочу сравнить два фильма<pc>,</pc>
рассказывающие</p>
<p>об одном и том же событии<pc>,</pc> но имеющие длинный
список отличий<pc>:</pc> <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Империя соблазна<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> и <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Пираты силиконовой долины<choice>
<sic/>
<cor>
<pc>"</pc>
</cor>
</choice>
<pc>.</pc> <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Империя соблазна<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> рассказывает о полной жизни Стива Джобса<choice>
<sic/>
<cor>
<pc subtype="homogeneous_generalization">,</pc>
</cor>
</choice> всех ее мелких моментах<pc>,</pc> а в фильме <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Пираты силиконовой долины<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> подробно отснят и рассмотрен момент кражи идеи Стива
Джобса Биллом Гейтсом<pc>.</pc> Если оценивать два этих
фильма<pc>,</pc> то можно увидеть полный<choice>
<sic/>
<cor>
<pc subtype="homogeneous">,</pc>
</cor>
</choice> красивый сюжет и отлельный фрагмент из жизни Стива
Джобса<pc>.</pc> <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Империя соблазна<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> снята позже<choice>
<sic/>
<cor>
<pc subtype="similie">,</pc>
</cor>
</choice> чем <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Пираты силиконовой долины<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>
<choice>
<sic/>
<cor>
<pc subtype="similie">,</pc>
</cor>
</choice> и сделана лучше<pc>,</pc> сюжет более красочный и
развервернутый<pc>,</pc> качество и графика лучше<pc>.</pc> Если
описовать кратко<choice>
<sic/>
<cor>
<pc subtype="clauses">,</pc>
</cor>
</choice> то <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Империя соблазна<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> о том<pc>,</pc> как Стив Джобс работал над компьтерами и
создавал apple о его карьерном росте и несносном характере<pc>,</pc>
о том<choice>
<sic/>
<cor>
<pc subtype="clauses">,</pc>
</cor>
</choice> как <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>apple<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> пришел в упадок и как возродился<pc>.</pc> А фильм
<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>Пираты силиконовой долины<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice> рассказывает <pc>(</pc>а настоящее название <choice>
<sic/>
<cor>
<pc>"</pc>
</cor>
</choice>Пираты кремниевой долины<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>
<pc>,</pc> а переводчики просто ошиблись<pc>)</pc> о конкретном
моменте жизни Стива Джобса<choice>
<sic/>
<cor>
<pc subtype="clauses">,</pc>
</cor>
</choice> о том<pc>,</pc> как Билл Гейтс украл главную продукцию
<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>apple<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>
<pc>.</pc>
</p>
<p>Я советую посмотреть оба фильма для полного погружения в жизнь
гениального Стива Джобса<pc>.</pc> С точки зрения
предпринимателей и</p>
<p>компьютерщиков<choice>
<sic/>
<cor>
<pc subtype="expletive">,</pc>
</cor>
</choice> фильм получился жизненный и автор успешно воссоздал
образ Стива Джобса<pc>.</pc> А с моей точки зрения<pc>,</pc> с
точки зрения обывателя<choice>
<sic/>
<cor>
<pc subtype="specifier">,</pc>
</cor>
</choice> фильм запутанный и неинтересный<choice>
<sic/>
<cor>
<pc subtype="clauses">,</pc>
</cor>
</choice> так что смотреть его стоит только заинтересованным в
продукции <choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>apple<choice>
<sic/>
<cor>
<pc subtype="quotes">"</pc>
</cor>
</choice>
<pc>.</pc>
</p>
</body>
</text>
</tei>
Размещено на Allbest.ru
Подобные документы
Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Характеристика Русского Учебного Корпуса. Типы ошибок в русском учебном корпусе, совместная встречаемость тегов, алгоритм классификации. Проблема несбалансированности выборки. Результаты классификации, вклад признаков в различные классификаторы.
курсовая работа [51,5 K], добавлен 30.06.2017Изучение алгоритма рекурсивного спуска и системы построения грамматики с помощью лексического анализатора Lex. Написание программы интерпретатора языка разметки HTML. Проверка входной последовательности на корректность входа как общая функция программы.
контрольная работа [226,7 K], добавлен 25.12.2012Использование комплекта диакритических знаков и букв для набора текстов на европейских языках. Обозначение времени, знаков валют. Британские и американские особенности английского языка. Правила французской, испанской, итальянской и немецкой типографики.
контрольная работа [216,2 K], добавлен 06.01.2015Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.
реферат [65,5 K], добавлен 29.01.2013Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.
дипломная работа [2,4 M], добавлен 27.08.2017Постановка и актуальность задачи написания программы для перевода текстов с транслита. Метод ее решения, входные и выходные данные. Список процедур и функций выполняемые программой. Ее структура: главная форма, форма "О программе" и "Редактор алфавита".
курсовая работа [259,8 K], добавлен 26.03.2009Системный блок (корпус) как важный элемент, обеспечивающий размещение и жесткую фиксацию всех устройств, обеспечение их электропитанием и защищающий "внутренности" от воздействия окружающей среды. Тип корпуса и число отсеков. Компоновка корпуса desktop.
презентация [2,3 M], добавлен 10.08.2013Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.
курсовая работа [727,0 K], добавлен 12.01.2014