Розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)
Традиційні та прикладні аспекти вивчення та розв’язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II. Особливості кодування Participle II у корпусах текстів. Тестування програми зняття омонімії форм Participle.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | украинский |
Дата добавления | 16.09.2014 |
Размер файла | 377,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ УНІВЕРСИТЕТ
Кафедра німецької філології та перекладу і прикладної лінгвістики
Дипломна робота бакалавра на тему:
«Розв'язання лексико-граматичної омонімії неособової форми англійського дієслова Participle II (на матеріалі корпусу англійських текстів)»
Студентки ПЛ-23б-10 групи
факультету перекладачів Туз Вероніки Анатоліївни
Науковий керівник
кандидат філологічних наук, Л.С. Савельєва
Київ - 2014
ЗМІСТ
Вступ
Розділ 1. Аспекти вивчення та розв'язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II
1.1 Традиційні та прикладні аспекти вивчення неособової форми англійського дієслова Participle II
1.2 Особливості кодування Participle II у корпусах текстів
1.3 Проблема омонімії в англійській мові
1.4 Встановлення омонімічних ланцюгів Participle II
Висновок до першого розділу
Розділ 2. Побудова алгоритму зняття омонімії
2.1 Дистрибутивний аналіз оточення форм Participle II
2.2 Правила утворення Participle ІІ регулярних і нерегулярних дієслів
2.3 Побудова алгоритму зняття омонімії Participle II
Висновок до другого розділу
Розділ 3. Програмна реалізація алгоритму
3.1 Етапи створення бази даних
3.2 Особливості програмної реалізації алгоритму
3.3 Тестування програми зняття омонімії форм Participle II в довільному тексті
Висновки до третього розділу
Висновки
Список використаних джерел
Додатки
ВСТУП
Явище омонімії властиве всім мовам світу, зокрема англійській мові. Спроби розв'язати проблему омонімії у традиційній лінгвістиці мають давню традицію. Дослідженню явища омонімії в англійській мові приділяли увагу Дж. Купер («Граматика», 1685 р.), Дж. Мердок «Словник розрізнень», 1811 р.). Ці та багато інших авторів виявляли зацікавленість у вивченні омонімів, їх походження та розвитку в окремих мовах, у сім'ях і групах мов.
На сьогодні проблеми омонімії ще активніше обговорюються у зв'язку з широко розгорнутою роботою зі створення систем автоматичного опрацювання текстової інформації, укладенням та удосконаленням тлумачних і перекладацьких словників. Незважаючи на значну кількість праць, ця ділянка роботи лінгвістів залишається актуальною, оскільки жодна зі створених систем автоматичного морфологічного аналізу не знімає омонімію на 100%.
Актуальність дослідження зумовлена необхідністю створення програм комп'ютерного морфологічного аналізу, спроможних автоматично знімати омонімію.
Об'єкт дослідження становлять омонімічні форми англійської неособової форми дієслова Participle II.
Предметом дослідження є омонімія форм Participle II в англійській мові та способи її зняття.
Матеріалом дослідження слугував обернений частотний словник англійської мови та відкритий корпус текстів ОANC (Open American National Corpus), BNC (British National Corpus), COCA (Corpus of Contemporary American English). На основі формалізованих процедур аналізу розмітки ОANC створено електронну базу даних, яка виконує функції інформаційно-довідкової та дослідницької комп'ютерної системи і слугує підґрунтям для написання алгоритму зняття омонімії, програмна реалізація якого уможливила створення системи автоматичного морфологічного аналізу, спроможної знімати омонімію.
Мета дослідження - розроблення методологічного та процедурного апарату для створення програми автоматичного зняття омонімії форм Participle II. Відповідно до головної мети, дослідження складалося з етапів, що вимагали вирішення низки самостійних теоретичних і практичних питань. Зокрема, необхідно було виконати такі дослідницькі завдання:
1) вивчити явище омонімії і закономірності вживання омонімічних форм Participle II;
2) укласти ланцюги з частин мови, що можуть бути омонімічними до Participle II;
3) написати алгоритм зняття омонімії форм Participle II;
4) створити програму мовою С# для автоматичного зняття омонімії;
5) тестувати програму зняття омонімії форм Participle II на довільному тексті.
Структурно робота складалася зі вступу, двох розділів, висновків та списку використаних джерел (36 найменувань, з них 2 - іноземними мовами).
У першому розділі «Аспекти вивчення та розв'язання лексико-граматичної омонімії неособової форми англійського дієслова Рarticiple II» здійснено аналіз традиційних та прикладних аспектів вивчення неособової форми англійського дієслова Participle II, вивчено проблему омонімії в англійській мові, виявлено особливості кодування Participle II у корпусах текстів опрацьовано корпус текстів ANC (American National Corpus), встановлено омонімічні ланцюги досліджуваних форм.
У другому розділі «Побудова алгоритму зняття омонімії» здійснено дистрибутивний аналіз формальних ознак форм Participle II, що можуть мати омоніми; запропоновано алгоритм зняття омонімії форм Participle II.
У третьому розділі «Програмна реалізація алгоритму» представлено етапи укладання бази даних, здійснено програмну реалізацію алгоритму зняття омонімії, представлено результати тестування програми.
РОЗДІЛ 1. АСПЕКТИ ВИВЧЕННЯ ТА РОЗВ'ЯЗАННЯ ЛЕКСИКО-ГРАМАТИЧНОЇ ОМОНІМІЇ НЕОСОБОВОЇ ФОРМИ АНГЛІЙСЬКОГО ДІЄСЛОВА РARTICIPLE II
1.1 Традиційні та прикладні аспекти вивчення неособової форми англійського дієслова Participle II
Неособові форми дієслова (вербалії) є об'єктом постійного аналізу в сучасній лінгвістиці. Результати дослідження включено до курсів теоретичної та практичної граматики англійської мови. Аналіз наукової літератури свідчить, що наразі в лінгвістиці відсутнє одностайне тлумачення «безособовості», а також багатьох проблем, пов'язаних із цим поняттям. Поняття «безособовості» найчастіше визначається як дія без діяча, без суб'єкта дії (що часто ототожнюється з особою), яка перетворюється з активної дії в дію-стан.
Значення та вживання Participle II. З визначенням у традиційній лінгвістиці, Participle ІІ має лише одну форму і є пасивним дієприкметником. Він вживається тоді, коли іменник або займенник, до якого він відноситься, позначає об'єкт вираженої ним дії:
англ. I have my task done.
укр. Моє завдання виконане.
англ. The patient has an arm broken.
укр. У хворого зламана рука.
Здебільшого Past Participle виражає дію, що передує дії, вираженій присудком речення:
англ. We looked at the destroyed bridge.
укр. Ми дивилися на зруйнований міст (міст було зруйновано раніше, ніж ми дивилися на нього).
Але Past Participle може також виражати дію, одночасну з дією, вираженою дієсловом-присудком, а також дію, безвідносну до часу:
англ. Her mother is a teacher loved and respected by everybody.
укр. Її мати - вчитель, якого всі люблять і поважають.
англ. A central angle is an angle formed by two radii [reidiai].
укр. Центральний кут - це кут, утворений двома радіусами.
Застосування комп'ютерних засобів до збирання, організації та програмного оброблення мовного матеріалу зумовило стрімку динаміку розвитку корпусної лінгвістики, що дозволяє оптимізувати і об'єктивізувати лінгвістичні дослідження.
У нашому дослідженні корпус текстів є інструментом, який скорочує час на технічну роботу. Оскільки, корпус як інформаційно-довідкова система дозволяє одержувати відповіді на значну кількість питань, пов'язаних із дослідженням мови за максимально короткий час.
Таким чином, за допомогою корпусного методу було встановлено парадигматичні класи англійської форми дієслова Participle ІІ. Зауважимо, що під парадигматичним класом, розуміємо множину слів з однаковим характером відношень між основою вихідної форми й основами інших словоформ парадигми, а також з однаковим набором кінцевих афіксів. Різні парадигматичні класи - це різні моделі формотворення.
Корпусний метод дозволив встановити 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів (див. п. 2.2.).
Розгортання парадигми здійснюється за спеціальними машинними правилами, які зв'язують інформацію двох таблиць (таблиці основ з номером парадигматичного класу) і приписують відповідну граматичну інформацію. Зворотна процедура, коли за словоформою треба вивести вихідну форму, передбачає інші машинні правила: текстова словоформа, синтезована із двох таблиць, одержує за відповідним кодом вихідну форму [7, с. 61].
Зняття омонімії неможливе без дослідження усіх можливих контекстів уживання слова. Досягти такого результату неможливо без звернення до корпусу текстів, який надає об'єктивні кількісні дані, забезпечуючи досягнення більш ґрунтовних та переконливих висновків. Водночас зауважимо, що незважаючи на революційні можливості корпусної лінгвістики, вона є лише частиною численного методологічного інструментарію сучасної лінгвістики. Навіть великі за обсягом корпуси не в змозі відобразити все можливе в мові, а натомість і незначні за обсягом корпуси можуть надати інформацію, яку нереально було б отримати не звертаючись до корпусного дослідження.
1.2 Особливості кодування Participle II в корпусах текстів
Кодування тієї чи іншої форми дає можливість зробити вибірку аналізованих форм із корпусу текстів. Дослідження систем кодування корпусів текстів дало можливість встановити наступне:
BNC (British National Corpus) кодує Participle II наступним чином:
VVN The past participle form of lexical verbs (форма дієприкметника минулого часу лексичних дієслів) e.g. forgotten, sent, lived, returned;
VHN The past participle form of the verb HAVE (форма дієприкметника минулого часу дієслова «мати»): had;
VBN The past participle form of the verb BE (форма дієприкметника минулого часу дієслова «бути»): been;
VDN The past participle form of the verb DO (форма дієприкметника минулого часу дієслова «робити»): done.
COCA (Corpus of Contemporary American English) кодує Participle II як:
VHN had (past participle);
VVN past participle of lexical verb (форма дієприкметника минулого часу лексичного дієслова): given, worked;
VVNK past participle catenative (bound in be bound to).
ANC (American National Corpus) кодує Participle II як:
VBN verb, past participle (дієслово, дієприкметника минулого часу): mentioned.
Аналіз тегів трьох корпусів показує, що кодування форми Participle II дещо відрізняється, оскільки в BNC кодів більше за рахунок допоміжних дієслів, хоча є спільні коди (VVN, VHN та VBN).
Оскільки в нашому дослідженні використано American National Corpus, то й кодування застосовуємо відповідне.
Для опису ланцюгів омонімії також використовуємо прийняте в цьому корпусі кодування, а саме:
VBN verb, past participle (дієслово, дієприкметник минулого часу): mentioned;
JJ adjective (прикметник): bound;
VBD verb, past tense (дієслово минулого часу): designed;
NN noun (іменник): bound.
1.3 Проблема омонімії в англійській мові
Існують різні визначення омонімії, засновані на розбіжностях поглядах лінгвістів щодо розуміння мовної форми. Ряд дослідників обмежує її звуковою оболонкою слова, інші вчені розширюють поняття форми, включаючи в нього і графічне представлення; таким чином, омонімічними можуть називатися всі можливі збіги одиниць у плані вираження. Цим пояснюється існування різних класифікацій омонімів, що враховують відмінності за формою, як загальні, так і по словоформам, ступінь збігу форми, а також належність омонімів до однієї і тієї ж, або різних частин мови.
У відповідності з формою омоніми поділяються на омофони, омографи й абсолютні омоніми. Омофони (homophones) 1. Arm - рука; 2. Arm (s) - зброя. 3. Bay - затока, бухта; 4. Bay - проліт, ніша; 5. Bay - гавкіт, гавкати; 6. Bay - гнідий; 7. Bay - лавр, лаврове дерево; 8. Bay - загата.
Ступінь збігу формальної сторони омонімів дозволяє виділити омоніми повні, що збігаються парадигмами (lighter - device; lighter -boat, PI. lighters), і часткові, що збігаються тільки в деяких словоформах (Rose - flower; Past form of the Verb «rise»), інші словоформи, зокрема множина іменника та інфінітив дієслова, не омонімічні; аналогічний приклад - словоформи saw (минулий час від дієслова see і однину іменника saw). Часткові омоніми (за термінологією В. В. Виноградова - «морфологічні омоніми», часто також називають «омоформи») дуже характерні для флективних мов з великою кількістю словоформ, однак їх немало і в англійській мові.
Залежно від приналежності кожного з омонімів до певної частини мови розрізняють омоніми лексичні, граматичні та лексико-граматичні. Лексичні омоніми однакові за граматичними характеристиками, але різні за значенням. Так, омоніми match - contest і match - person належать до однієї і тієї ж частини мови, але не зводяться до спільного значення. Однакова звукографічна форма і граматичні ознаки дозволяють вважати їх омонімами, але значеннєва різниця відносить ці омоніми до розряду лексичних. У граматичних омонімах можна виявити смислову спільність, але належать вони до різних частин мови, що, зокрема, відрізняє їх від багатозначного слова. Так, омоніми match - contest (noun) і match - put smth in competition (verb) не тільки однакові з погляду вимови та графіки, але і зв'язані спільним значенням compete; однак їх категоріальна відмінність робить ці слова граматичними омонімами. В аналогічних відношеннях перебувають омоніми mere (Noun) - pond, small lake і mere (adj) - not more than, пов'язані загальною семою «малість». Що стосується лексико-граматичних омонімів, то їхній збіг обмежується формальною стороною, а відмінності стосуються і граматичної, і лексичної характеристик. Приклади такої омонімії - пари match - possible husband / match - put smth in competition; stem - severe, strict /stern - back end of a ship і безліч інших. У цьому випадку, як правило, у формуванні омонімічної групи бере участь словотворча конверсія, а сам процес іменується модельованою омонімією. Наявність модельованої омонімії визнається не всіма лінгвістами через близькість лексичних значень цих омонімів. Однак, оскільки утворені з конверсії одиниці безсумнівно є самостійними словами, що володіють спільністю форми, логічно відносити їх до омонімів.
Омонімія в англійській мові може стосуватися не тільки слів і словоформ, але й інших одиниць мови, наприклад морфем (-s: 3rd person Sg, Present Indefinite form of a verb / Pl of a noun / Possessive marker;-er: Nounsuffix / Comparison form of Adjective suffix).
В основу кожної з наведених вище класифікацій покладено якусь одну ознаку. Існують, крім того, типології омонімів, побудовані на двох і більше параметрах (Єлісєєва В.В).
У даному дослідженні, розглядалась саме лексико-граматична омонімія, оскільки неособова форма дієслова Participle II може утворювати омонімію з іншими частинами мови, а також з особовою формою деяких дієслів Past Indefinite Active.
1.4 Встановлення омонімічних ланцюгів Participle II
У даному дослідженні розглядаємо лексико-граматичну омонімію Particilpe II. Для відбору найчастотніших форм англійського дієслова Participle II було використано English Conjugation: System And Functioning (reference-book), що подає кількісні характеристики вживаності словозмінних форм англійського дієслова [22].
Дані довідника базуються на дослідженні чотирьох масивів текстів (художня проза, драма, наукові та газетні тексти) загальним обсягом понад 12 млн. слововживань. Аналізу підлягали 287 дієслів, що входять у першу тисячу найбільш уживаних слів, і 805 утворених від них дієслів з післялогами. Кількісні характеристики 50 найчастотніших форм Participle II, розташованих за спадом частоти їх уживаності, подаємо в таблиці 1.4.1.
Таблиця 1.4.1
Кількісні характеристики найчастотніших форм Participle II
№ з/п |
Participle II |
Частота вживання |
|
1 |
BASED |
146,46 |
|
2 |
PRINTED |
92,01 |
|
3 |
MENTIONED |
85,53 |
|
4 |
DESIRED |
78,33 |
|
5 |
ADVANCED |
77,18 |
|
6 |
DIRECTED |
71,17 |
|
7 |
MARKED |
65,28 |
|
8 |
DRESSED |
65,03 |
|
9 |
CHARGED |
62,56 |
|
10 |
CLOSED |
60,68 |
|
11 |
CONTROLLED |
59,19 |
|
12 |
RECORDED |
58,06 |
|
13 |
COVERED |
55,73 |
|
14 |
SAID |
55,22 |
|
15 |
BOUND |
49,46 |
|
16 |
SURPRISED |
47,46 |
|
17 |
DESCRIBED |
45,43 |
|
18 |
EXTENDED |
44,53 |
|
19 |
WRITTEN |
40,50 |
|
20 |
PLANNED |
39,07 |
|
21 |
FOLLOWED |
38,38 |
|
22 |
RAISED |
37,23 |
|
23 |
SPREAD |
37,09 |
|
24 |
PREPARED |
36,86 |
|
25 |
INCREASED |
36,65 |
|
26 |
SIGNED |
36,56 |
|
27 |
CALLED |
35,69 |
|
28 |
USED |
35,00 |
|
29 |
FORCED |
33,17 |
|
30 |
PRODUCED |
32,12 |
|
31 |
REPORTED |
32,07 |
|
32 |
CARRIED OUT |
31,84 |
|
33 |
SUPPLIED |
31,36 |
|
34 |
DRIED |
31,02 |
|
35 |
FITTED |
30,34 |
|
36 |
PLACED |
29,54 |
|
37 |
FILLED |
29,11 |
|
38 |
BUILT |
28,88 |
|
39 |
LOST |
28,47 |
|
40 |
EXPRESSED |
27,75 |
|
41 |
COOKED |
27,42 |
|
42 |
LAID |
26,54 |
|
43 |
EXPECTED |
26,48 |
|
44 |
OFFERED |
26,35 |
|
45 |
SEATED |
26,10 |
|
46 |
RECEIVED |
25,01 |
|
47 |
NEEDED |
24,92 |
|
48 |
SUPPORTED |
24,27 |
|
49 |
SPENT |
24,16 |
|
50 |
DEVELOPED |
23,88 |
Омонімічні ланцюги подано в таблиці 1.4.2.
Таблиця 1.4.2
Омонімічні ланцюги найчастотніших форм Participle II
№ з/п |
Participle II |
Homonymy |
|
1 |
BOUND |
PII - N - V - А |
|
2 |
BASED |
PII - A - V |
|
3 |
MENTIONED |
PII - A - V |
|
4 |
ADVANCED |
PII - A - V |
|
5 |
DIRECTED |
PII - A - V |
|
6 |
MARKED |
PII - A - V |
|
7 |
DRESSED |
PII - A - V |
|
8 |
CONTROLLED |
PII - A - V |
|
9 |
CALLED |
PII - A - V |
|
10 |
FORCED |
PII - A - V |
|
11 |
PRODUCED |
PII - A - V |
|
12 |
DRIED |
PII - A - V |
|
13 |
FILLED |
PII - A - V |
|
14 |
BUILT |
PII - A - V |
|
15 |
SEATED |
PII - A - V |
|
16 |
SPENT |
PII - A - V |
За даними таблиці 1.4.2 акцентуємо увагу на таких спостереженнях:
1. З 50 (100%) найчастотніших Participle II в омонімію вступає 16 форм Participle II (32%);
2. Найдовший ланцюжок омонімії має наступний вигляд BOUND - PII - N - V - А (N - іменник, V - дієслово, А - прикметник);
Усі проаналізовані форми можна розподілити на два типи за складом ланцюгів: 1) PII - N - V - А; 2) PII - A - V. Приклади омонімічних ланцюгів Participle II подано в таблиці 2.2.3.
Таблиця 1.4.3
Приклади омонімічних ланцюгів найчастотніших форм Participle II
№ |
Participle II |
Homonymy |
Example |
|
1 |
BOUND |
Adjective |
Take the bound newspapers to the recycling bin, but leave the loose ones. |
|
Verb |
The colt bound through the meadow. |
|||
Noun |
This area is out of bound. |
|||
2 |
BASED |
Adjective |
Based rules make me nervous. |
|
Verb |
He based his assumption of her guilt on the fact that she had no alibi. |
|||
3 |
MENTIONED |
Adjective |
Mentioned name was very familiar to me. |
|
Verb |
He mentioned this information several times. |
|||
4 |
ADVANCED |
Adjective |
Our plans are too advanced to make the change now. |
|
Verb |
The general advanced his troops to the new position. |
|||
5 |
DIRECTED |
Adjective |
He gave me a carefully directed program. |
|
Verb |
He directed the company through a difficult time. |
|||
6 |
MARKED |
Adjective |
We have to read the marked pages. |
|
Verb |
We marked all the books with prices. |
|||
7 |
DRESSED |
Adjective |
Dressed in white snow trees were so beautiful. |
|
Verb |
He woke up and dressed. |
|||
8 |
CONTROLLED |
Adjective |
Controlled office was full with beginners. |
|
Verb |
She always controlled everybody. |
|||
9 |
CALLED |
Adjective |
The so called boyfriend loves you very much. |
|
Verb |
My friend called me Niki. |
|||
10 |
FORCED |
Adjective |
He gave a forced smile. |
|
Verb |
He forced his way through the crowd. |
|||
11 |
PRODUCED |
Adjective |
Produced dress was ready for sale. |
|
Verb |
Her joke produced laughter. |
|||
12 |
DRIED |
Adjective |
Dried ground needs to be watered. |
|
Verb |
He dried his shirt. |
|||
13 |
FILLED |
Adjective |
Filled with tears eyes. |
|
Verb |
Water filled the basin. |
|||
14 |
BUILT |
Adjective |
These cars are really built. |
|
Verb |
He built this house with his best friend. |
|||
15 |
SEATED |
Adjective |
The seated woman refused to stop staring at him. |
|
Verb |
The usher seated me in the back row. |
|||
16 |
SPENT |
Adjective |
Spent money gave me no peace. |
|
Verb |
We spent a few days in Baltimore. |
Висновок до першого розділу
У ході дослідження встановлено 21 парадигматичний клас англійської форми дієслова Past Participle. Їх виділення залежало від утворення дієсловом форми Past Participle.
Визначено диференційні ознаки Participle II, зокрема такі: 1) Past Participle має лише одну форму і є пасивним дієприкметником. Він вживається тоді, коли іменник або займенник, до якого він відноситься, позначає об'єкт вираженої ним дії; 2) здебільшого Past Participle виражає дію, що передує дії, вираженій присудком речення; 3) Past Participle може також виражати дію, одночасну з дією, вираженою дієсловом-присудком, а також дію, безвідносну до часу.
Неособова форма англійського дієслова Participle II збігається за формальними ознаками з особовою формою деяких дієслів Past Indefinite Active (правильні дієслова та незмінні дієслова put-put-put). Слід розрізняти ці дві форми, оскільки вони хоч і збігаються формально, та все ж семантично різні. На відміну від Participle II, Past Indefinite вживається для вираження одноразової або постійної дії в минулому: I watched TV yesterday - Я дивилася телевізор учора; ряду послідовних дій у минулому: I dressed, had some coffee and decided to go for a walk with my friend - Я одягнулась, випила чашку кави та вирішила піти погуляти зі своєю подругою; повторювану дію в минулому: I watched that serial every Saturday - Я дивилася той серіал кожної суботи.
Дослідження виконувалося на основі корпусу текстів American National Corpus, тому форми Participle II мають код: VBN verb, past participle (дієслово, дієприкметника минулого часу).
РОЗДІЛ 2. ПОБУДОВА АЛГОРИТМУ ЗНЯТТЯ ОМОНІМІЇ
2.1 Дистрибутивний аналіз оточення форм Participle II
Дистрибутивний аналіз виходить із розуміння, що кожна мовна одиниця має своє особливе оточення, тобто в дистрибутивних властивостях мовної одиниці реалізуються її внутрішні властивості, які відображають її функціональну роль. Немає двох одиниць, оточення яких би повністю збігалося. Деякі одиниці мови мають навіть одиничну дистрибуцію, як, скажімо, англ. am вживається тільки з І. Навіть коли дві одиниці абсолютно однаково звучать, наприклад, англ. two [tu:] «два» і too [tu:] «також», то вони мають різне сусідство: після англ. Two [tu:] можуть іти іменники (/ have two [tu:] sons «Я маю двох синів»), тоді як частка too стоїть, як правило, в кінці фрази і не може мати ад'юнктів (/ am too [tu:] «Я також», І have too [tu:] «Я маю також»).
Participle II поєднує в собі ознаки прикметника (Adjective) та дієслова (Verb). Тому, спочатку потрібно встановити сполучуваність прикметника та дієслова, а потім з'ясувати сполучуваність Participle II.
Отже, можливість сполучення одних частин мови з іншими визначає синтаксична дистрибуція/ сполучуваність. Для дієслів основною є,,ліва” та,,права” сполучуваності з іменниками (obtain franchises - obtain a contract - obtain information), з займенниками (earned it), з прислівниками (borrow again - borrow heavily), з дієсловами (it paid to be so - he got paid to follow).
Лексеми, які заповнюють правосторонні або лівосторонні позиції дієслова, прийнято називати актантами.
Синтаксично дієслова можуть поєднуватись у лівосторонній та правосторонній позиції з іменниками, займенниками, іменниковими групами, а також прислівниками, прийменниками, інфінітивами або мати незаповнену правосторонню позицію. Іменникова група представлена іменником або займенником у функції підмета або додатка.
У лексичному ракурсі розглядається специфіка сполучуваності лексичних одиниць з тотожними або близькими значеннями, а при семантичній дистрибуції реалізуються різні поєднання в словосполученнях.
О. І. Смирницький зазначає, що дистрибуція лексем проявляється та існує завдяки лексико-семантичним зв'язкам між лексемами. Окремі слова можуть зв'язуватися за смислом. І така дистрибуція лексем за смислом можлива лише завдяки тому, що у нашій свідомості відображаються зв'язки та відношення між зазначеними предметами та явищами реального світу [28, с. 115]. Під лексичною дистрибуцією мовної одиниці розуміють здатність конкретної мовної одиниці поєднуватись з іншими мовними одиницями при утворенні речень у зв'язному мовленні, це одна з фундаментальних якостей мовних одиниць, яка виражає синтагматичні відноси між одиницями [28, с. 116]. Під дистрибуцією ми розуміємо ідентифікацію усіх лексико-граматичних і семантичних комбінацій дієслів з метою визначення їх комунікативної мети.
Тепер розглянемо прикметник: прикметник у реченні може вживатися або перед іменником (a quiet park), або після дієслова-зв'язки (are happy):
I've got a new toy. (У мене є нова іграшка.)
My toy is new. (Моя іграшка - нова.)
Існують випадки, коли прикметник можна вживати у реченні лише у певній позиції. Певні прикметники вживаються тільки перед означуваним іменником: chief (=main), elder (=older), eldest (=oldest), inner, outdoor, outer, principal (=main), upper та ін.:
I don't like indoor games. (Мені не подобаються ігри, які відбуваються в приміщенні.)
The only problem he has is he's got no free time. (Єдина проблема полягає в тому, що у нього немає часу.)
На противагу їм тільки після дієслова-зв'язки вживаються такі прикметники:
afraid, alone, alike, ashamed, awake, glad, unwell, well тощо.
I am pleased to meet you. (Я радий познайомитися з вами.)
Є прикметники, з якими можна вживати означений артикль для того, щоб назвати певну сукупність чи спільноту людей:
The young usually like to travel. (Молодь любить подорожувати.)
We must care for the sick. (Миповинні турбуватися про хворих.)
Виділяють такі групи прикметників, що вживаються з the:
a) соціальні чи економічні угрупування: the homeless - безпритульні, the hungry - голодні, the poor - бідні, the rich - багаті, the strong - сильні, the weak - слабкі тощо;
б) фізичний стан чи здоров'я: the blind - сліпі, the deaf - глухі, the sick -хворі та ін.
в) вік: the elderly - літні люди, the middle-aged - люди середнього віку, the old - старі, the young - молоді тощо.
Отже, основними опорними точками можна виділити іменник, дієслово-зв'язку та артикль.
Але виникає одна проблема, це - Participial Adjectives, тобто коли і Participle II і прикметник формально і семантично збігаються за всіма параметрами. Оскільки Participle II (дієприкметник минулого часу) за структурою виглядає як прикметник та ще й збігається з ним у вживанні в реченні, в англійській мові прийнято вживати термін Participial Adjectives. Такі Participle II вживаються для опису іменника, до якого вони відносяться, тобто так само як і звичайний прикметник. У деяких випадках Participial Adjectives мають дієслово-відповідник (to annoy, to computerize, to excite, etc), в той час як інші не мають (to renown, to self-centre, to talent). Як правило, Participial Adjectives, так само як інші прикметники можуть мати у препозиції такі слова: very, extremely, чи less (very determined, extremely self-centred). Більшість Participial Adjectives можуть виконувати роль означення, та предикатива в реченні. He's a talented footballer. (означення); That footballer is talented. (предикатив). Але не слід сплутувати Participle II з Participle I, тому що Participle I також може вживатись у подібній ролі, але вони мають трохи різне значення. Наприклад:
The bored man went to sleep during the discussion.
The boring man put other people to sleep during the discussion.
У першому реченні «bored» означає те, що чоловіку було нудно, а в другому реченні «boring» означало те, що інші люди вважали чоловіка занудою. Отже, для вирішення омонімії формального контекстного аналізу не достатньо, тут потрібен семантичний аналіз.
2.2 Правила утворення Participle ІІ регулярних і нерегулярних дієслів
Як відомо, в англійській мові розрізняють регулярні і нерегулярні дієслова. Регулярні дієслова - це правильні дієслова, які утворюються за правилами. Нерегулярні дієслова (їх ще називають неправильними) утворюються не за правилами регулярних. Схематично, правила утворення Participle ІІ досліджуваних дієслів подані у вигляді таблиць, у яких перераховано квазіфлексії з приписуваними правилами: для регулярних дієслів - табл. 2.2.1, для нерегулярних дієслів - табл. 2.2.2.
Таблиця 2.2.1
Правила утворення Participle ІІ регулярних дієслів
Суть правила |
Правило |
||
1. |
>ed |
PR1р |
|
2. |
>d |
PR2р |
|
3. |
<i >ed |
PR3р |
|
4. |
>ned |
PR4р |
|
5. |
>ped |
PR5р |
|
6. |
>red |
PR6р |
|
7. |
>led |
PR7р |
|
8. |
>ged |
PR8р |
|
9. |
>ted |
PR9р |
|
10. |
>med |
PR10р |
|
11. |
>ded |
PR11р |
|
12. |
>bed |
PR12р |
Для того щоб розрізняти правила регулярних і нерегулярних дієслів, до номера правила дописувалися індекси р Для регулярних дієслів. і н Для нерегулярних дієслів.: наприклад, PR1р - правило утворення Participle ІІ для тих правильних дієслів, до яких додається флексія >ed, PR24н - правило утворення Participle ІІ для тих неправильних дієслів, в яких буквосполучення an перед кінцевою d чергується з подвоєнням голосних oo - <oo*, де * означає незмінність кінцевої d і т. д.
У таблиці для нерегулярних дієслів до PR1н належать дієслова, які не мають форми Participle ІІ. Це такі дієслова, як can, may, must, shall, ought, should, will. До PR3н належать ті дієслова, форма який незмінна у Participle ІІ: come, put, spit, upset, set, read, become, burst, cost, hit, knit, let, rid, shut, split. Проте є такі дієслова в англійській мові, які мають дві форми Participle ІІ, одна з яких може утворюватися за PR3н (табл. 2.2.2).
Таблиця 2.2.2
Правила утворення Participle ІІ нерегулярних дієслів
Правило |
Номер правила |
||
1. |
- |
PR1н |
|
2. |
<. |
PR2н |
|
3. |
<> |
PR3н |
|
4. |
<a* |
PR4н |
|
5. |
<ai >n |
PR5н |
|
6. |
<aug* >t |
PR6н |
|
7. |
<ck >en |
PR7н |
|
8. |
<d >en |
PR8н |
|
9. |
<d* |
PR9н |
|
10. |
<d. |
PR10н |
|
11. |
<e** |
PR11н |
|
12. |
<ft. |
PR12н |
|
13. |
<i >d |
PR13н |
|
14. |
<lt |
PR14н |
|
15. |
<o >wn |
PR15н |
|
16. |
<o* |
PR16н |
|
17. |
<o* >ten |
PR17н |
|
18. |
<o** |
PR18н |
|
19. |
<o** >en |
PR19н |
|
20. |
<o** >n |
PR20н |
|
21. |
<o*d |
PR21н |
|
22. |
<oke >n |
PR22н |
|
23. |
<ole >n |
PR23н |
|
24. |
<oo* |
PR24н |
|
25. |
<orn |
PR25н |
|
26. |
<ou >ght |
PR26н |
|
27. |
<ou* >ht |
PR27н |
|
28. |
<oug >ht |
PR28н |
|
29. |
<ough >t |
PR29н |
|
30. |
<oun >d |
PR30н |
|
31. |
<ozen |
PR31н |
|
32. |
<pt |
PR32н |
|
33. |
<sen |
PR33н |
|
34. |
<t |
PR34н |
|
35. |
<t >en |
PR35н |
|
36. |
<t. |
PR36н |
|
37. |
<t.. |
PR37н |
|
38. |
<u* |
PR38н |
|
39. |
<u** |
PR39н |
|
40. |
<uck |
PR40н |
|
41. |
<ug* >t |
PR41н |
|
42. |
<t. |
PR36н |
|
43. |
<t.. |
PR37н |
|
44. |
<u* |
PR38н |
|
45. |
<u** |
PR39н |
|
46. |
<uck |
PR40н |
|
47. |
<ug* >t |
PR41н |
|
48. |
>den |
PR42н |
|
49. |
>en |
PR43н |
|
50. |
>n |
PR44н |
|
51. |
>ne |
PR45н |
|
52. |
>t |
PR46н |
|
53. |
<ou* >n |
PR47н |
|
54. |
>d |
PR48н |
|
55. |
<t. |
PR36н |
|
56. |
<t.. |
PR37н |
|
57. |
<u* |
PR38н |
|
58. |
<u** |
PR39н |
|
59. |
<uck |
PR40н |
|
60. |
<ug* >t |
PR41н |
|
61. |
>den |
PR42н |
|
62. |
>en |
PR43н |
|
63. |
>n |
PR44н |
|
64. |
>ne |
PR45н |
|
65. |
>t |
PR46н |
|
66. |
<ou* >n |
PR47н |
|
67. |
>d |
PR48н |
На основі вже створених правил утворення Participle ІІ (див. вище) були виділені такі парадигматичні класи для регулярних та нерегулярних дієслів: для регулярних дієслів - табл. 2.2.3, для нерегулярних дієслів - табл. 2.2.4.
Таблиця 2.2.3
Парадигматичні класи регулярних дієслів
№ з/п |
Правило |
Парклас |
|
1. |
PR1р |
1р |
|
2. |
PR2р |
2р |
|
3. |
PR3р |
3р |
|
4. |
PR4р |
4р |
|
5. |
PR5р |
5р |
|
6. |
PR6р |
6р |
|
7. |
PR7р |
7р |
|
8. |
PR8р |
8р |
|
9. |
PR9р |
9р |
|
10. |
PR10р |
10р |
|
11. |
PR11р |
11р |
|
12. |
PR12р |
12р |
Таблиця 2.2.4
Парадигматичні класи нерегулярних дієслів
1. |
PR1н |
1н |
|
2. |
PR2н |
2н |
|
3. |
PR2н + PR8н |
3н |
|
4. |
PR2н + PR35н |
4н |
|
5. |
PR3н |
5н |
|
6. |
PR3н + PR11р |
6н |
|
7. |
PR3н + PR9р |
7н |
|
8. |
PR3н + PR4н |
8н |
|
9. |
PR5н |
9н |
|
10. |
PR6н |
10н |
|
11. |
PR8н |
11н |
|
12. |
PR9н |
12н |
|
13. |
PR10н |
13н |
|
14. |
PR11н |
14н |
|
15. |
PR12н |
15н |
|
16. |
PR13н |
16н |
|
17. |
PR14н |
17н |
|
18. |
PR14н + PR7р |
18н |
|
19. |
PR15н |
19н |
|
20. |
PR16н + PR17н |
20н |
|
21. |
PR16н |
21н |
|
22. |
PR18н + PR2р |
22н |
|
23. |
PR19н + PR1р |
23н |
|
24. |
PR19н + PR2р |
24н |
|
25. |
PR21н |
25н |
|
26. |
PR22н |
26н |
|
27. |
PR23н |
27н |
|
28. |
PR24н |
28н |
|
29. |
PR25н |
29н |
|
30. |
PR26н |
30н |
|
31. |
PR27н |
31н |
|
32. |
PR28н |
32н |
|
33. |
PR29н |
33н |
|
34. |
PR30н |
34н |
|
35. |
PR31н |
35н |
|
36. |
PR32н |
36н |
|
37. |
PR33н |
37н |
|
38. |
PR34н |
38н |
|
39. |
PR35н |
39н |
|
40. |
PR35н + PR1р |
40н |
|
41. |
PR36н |
41н |
|
42. |
PR37н + PR1р |
42н |
|
43. |
PR38н |
43н |
|
44. |
PR39н |
44н |
|
45. |
PR39н + PR1р |
45н |
|
46. |
PR40н + PR7н |
46н |
|
47. |
PR41н |
47н |
|
48. |
PR42н |
48н |
|
49. |
PR43н |
49н |
|
50. |
PR44н |
50н |
|
51. |
PR44н + PR1р |
51н |
|
52. |
PR45н |
52н |
|
53. |
PR46н |
53н |
|
54. |
PR46н + PR1р |
54н |
|
55. |
PR47н |
55н |
|
56. |
PR48н |
56н |
Парадигматичні класи правильних дієслів повністю збігаються з правилами, наприклад, дієслова accepted, acquainted, adopted і т. д. відносяться до першого парадигматичного класу, оскільки Participle II утворюється за PR1р - додавання ed; appeal, control, expel - до сьомого парадигматичного класу, оскільки Past Participle утворюється за PR7р - додаванням led, і т. п.
Парадигматичні класи неправильних дієслів не збігаються з правилами. Цьому спричинила варіантність форм основного дієслова Слід відзначити те, що при аналізі форми дієслова враховувалися як британський, так і американський варіанти утворення Past Participle нерегулярних дієслів.:
- до 3н паркласу (парадигматичного класу) входять дієслова, які мають дві форми Past Participle і які утворюються за PR2н і PR8н: hide - hidden, hid;
- до 4н паркласу - за PR2н і PR35н: bite - bitten, bit;
- до 6н паркласу - за PR3н і PR11р: hid - hid, hidden;
- до 7н паркласу - за PR3н і PR9р: knit - knit, knitted;
- до 8н паркласу - за PR3н і PR4н: spit - spit, spat;
- до 18н паркласу - за PR14н і PR1р: kneel - knelt, kneelled;
- до 20н паркласу - за PR16н і PR17н: get - got, gotten;
- до 22н паркласу - за PR18н і PR2р: shine - shone, shined;
- до 23н паркласу - за PR19н і PR1р: swell - swollen, swelled;
- до 24н паркласу - за PR19н і PR 2р: wake - woken, waked;
- до 40н паркласу - за PR35н і PR1р: dwell - dwelt, dwelled;
- до 42н паркласу - за PR37н і PR1р: light - lighted, lit;
- до 45н паркласу - за PR39н і PR1р: hang - hung, hanged;
- до 46н паркласу - за PR40н і PR7н: strike - stuck, stricken;
- до 51н паркласу - за PR44н і PR1р: mow - mown, mowed;
- до 54н паркласу - за PR46н і PR1р: spoil - spoilt, spoiled;
У загальному, нараховано 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів.
2.3 Побудова алгоритму зняття омонімії Participle II
Наведені вище правила утворення Participle II дають можливість збудувати алгоритм зняття омонімії. Оскільки Participle II вступає в омонімію з дієсловом Past Indefinite Active та з іменником, то потрібно було спочатку встановити правила щодо розпізнавання в тексті дієслів та іменників, а потім на основі їх аналізу встановити правила розпізнавання безпосередньо Participle II. Потім необхідно було зв'язати з програмою потрібні бази даних. Отже, алгоритм має настпуний вигляд.
Алгоритм зняття омонімії типу PII- V
1. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції присвійний займенник (his, her (hers), its, our(ours), your (yours), their (theirs)), за яким слідує іменник? Так - п. 2, ні - п. 3.
2. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
3. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції теж іменник? Так - п.4, ні - п.5.
4. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
5. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they) та прислівник, а у постпозиції - сполучник та дієслово? Так - п. 6, ні - п. 7.
6. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
7. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а постпозиції прийменник? Так - п. 8, ні - п. 9.
8. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
9. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції займенник (this, these, that, those, such, (the) same)? Так - п. 10, ні - п. 11.
10. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
11. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції присвійний займенник (his, her (hers), its, our(ours), your (yours), their (theirs))? Так - п. 12, ні - п. 13.
12. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
13. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції іменник? Так - п.14, ні - п.15.
14. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
15. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а у постпозиції займенник (each, every, everybody, everyone, everything, all, either, both, other, another)? Так - п. 16, ні - п. 17.
16. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
17. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть сполучник, а у постпозиції кінець речення? Так - п. 18, ні - п. 19.
18. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
19. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник (He, she, it, we, you, they), а за ним слідує прислівник, у постпозиції стоїть теж займенник (each, every, everybody, everyone, everything, all, either, both, other, another)? Так - п. 20, ні - п. 21.
20. Приписати аналізованій словоформі код дієслова в минулому часі (Past Indefinite (закінчення -ed)).
21. Перевірити умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції дієслово, чи прийменник чи взагалі кінець речення? Так - п. 8, ні - п. 9.
22. Приписати аналізованій словоформі код Participle II.
23. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть дієслово, а у постпозиції - сполучник? Так - п.10, ні - п.11.
24. Приписати аналізованій словоформі код Participle II.
25. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть прислівник ступеня, а у постпозиції - інфінітив дієслова, іменник чи прийменник? Так - п.12, ні - п.13.
26. Приписати аналізованій словоформі код Participle II.
27. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник, а у постпозиції прийменник? Так - п. 14, ні - п.15.
28. Приписати аналізованій словоформі код Participle II.
29. Вивести на екран «Омонімія не розв'язана». Вийти з програми.
Алгоритм зняття омонімії типу PII- N
1. У препозиції до аналізованої словоформи стоїть прислівник, а постпозиції кінець речення? Так - п. 2, ні - п. 3.
2. Приписати аналізованій словоформі код іменника.
3. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть дієслово, а у постпозиції - сполучник? Так - п. 4, ні - п. 5.
4. Приписати аналізованій словоформі код Participle II.
5. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть прислівник ступеня, а у постпозиції - інфінітив дієслова, іменник чи прийменник? Так - п. 6, ні - п. 7.
6. Приписати аналізованій словоформі код Participle II.
7. Перевірити умову. У препозиції до аналізованої словоформи стоїть іменник, а у постпозиції дієслово, чи прийменник чи взагалі кінець речення? Так - п. 8, ні - п. 9.
8. Приписати аналізованій словоформі код Participle II.
9. Перевірити наступну умову. У препозиції до аналізованої словоформи стоїть займенник, а у постпозиції прийменник? Так - п. 10, ні - п. 11.
10. Приписати аналізованій словоформі код Participle II.
11. Вивести на екран «Омонімія не розв'язана». Вийти з програми.
Висновок до другого розділу
Дослідження виконувалося на основі корпусу текстів American National Corpus. Побудові алгоритму передував етап з визначення правил утворення форм Participle ІІ. На основі визначених правил утворення Participle ІІ були виділені парадигматичні класи регулярних та нерегулярних дієслів. Корпусний метод дозволив встановити 56 парадигматичних класів нерегулярних дієслів і 12 парадигматичних класів регулярних дієслів. Зокрема, було виявлено, що парадигматичні класи правильних дієслів повністю збігаються з правилами, наприклад, дієслова accepted, acquainted, adopted і т. д. відносяться до першого парадигматичного класу, оскільки Participle ІІ утворюється за правилом PR1р - додаванням ed; appeal, control, expel - до сьомого парадигматичного класу, оскільки Participle ІІ утворюється за моделлю PR7р - додаванням led і т. п. Парадигматичні класи неправильних дієслів з правилами не збігаються, що обумовлено варіантністю форм основного дієслова. У свою чергу, визначення правил утворення Participle II дало можливість збудувати алгоритм зняття омонімії.
РОЗДІЛ 3. ПРОГРАМНА РЕАЛІЗАЦІЯ АЛГОРИТМУ
3.1 Особливості програмної реалізації алгоритму
Створена нами програма автоматичного зняття омонімії використовує статистичний принцип морфологічного аналізу. Такий принцип передбачає наявність двох складових - статистичної моделі та статистичного аналізатора.
Суть такого підходу полягає в тому, що використовується корпус текстів з готовою морфологічної розміткою, де кожному слову вже приписано морфологічний тег. Тег в даному випадку позначає належність слова до однієї з частин мови чи форми слова. Наприклад, у відкритому американському національному корпусі тег VBN означає Participle II (наприклад based), а NNS іменник в множині (наприклад tables). Набір тегів та їх назви повністю залежать від домовленості між розробниками корпусу. Розмічений корпус текстів можна використовувати для багатьох лінгвістичних цілей, зокрема і для морфологічного аналізу. У такому випадку передбачається попередня обробка корпусу.
Також цей підхід називають «навчанням на прикладах», оскільки аналізатор визначає тег слова із введеного тексту за допомогою вже наявних у тексті тегів розмітки. Теоретично, якби аналізатор міг вербалізувати свої думки, це б виглядало наступним чином: Є слово table у контексті «John has a table in his room.». У вже проаналізованих текстах слово table у такому ж контексті найчастіше (або завжди) зустрічається з тегом NN. Отже, в цьому контексті воно теж NN з імовірністю Х% (Х = кількість вживань як NN поділене на кількість усіх вживань).
Практичне втілення такого підходу стикається з деякими труднощами.
По-перше, складним завданням є аналіз, який спирається на звернення до корпусу текстів у цілому. Навіть якщо допустити, що одне звернення до корпусу займає одну секунду. Тоді аналіз одного смс повідомлення займе до 160-ти секунд, що дорівнює майже 3-м хвилинам.
По-друге, рішення буде занадто громіздким, оскільки програма буде прив'язана до корпусу, розмір якого може обчислюватися гігабайтами.
Набагато доцільніше використовувати вже підготовлені дані. Наприклад, підраховану статистичну модель, яка буде являти собою список усіх можливих контекстів для кожного слова з співвіднесеною йому частиною мови і відносною (або абсолютною) частотою. Така модель може займати десятки мегабайт, але це набагато менше ніж гігабайти, і пошук за такою моделлю буде здійснюватися за мілісекунди.
Як уже згадувалося, статистична модель являє собою таблицю контекстів і тегів. Така відповідність набагато спрощує роботу програми, але все ще припускає тривалу ітерацію по таблиці, тобто пошук потрібного контексту.
Також проблемним є спосіб утримання такої моделі. Тримати таку модель у файлі можливо, але потрібно визначити структуру і спеціально реалізовувати процес зчитування та перевірки даних. Усе це, а також функцію швидкого пошуку (індексування), сортування та стиснення даних, включає в себе будь-яка база даних, зокрема, використана нами, Microsoft Access.
3.2 Етапи створення бази даних
І етап. Створення словника найчастотніших форм PARTICIPLE II.
На даному етапі було використано словник English Conjugation:System And Functioning(reference-book) [22]. За допомогою нього було проаналізовано 290 форм Participle II та виділено 50 найчастотніших.
ІІ етап. Створення словника ланцюгів омонімів до PARTICIPLE II.
На цьому етапі створення бази даних було використано обернений словник англійської мови. За допомогою даного словника було прописано омонімію для найчастотніших Participle II.
Рис. 1. Словник ланцюгів омонімів до PARTICIPLE II
омонімія англійський дієслово participle
ІІІ етап. Створення конкордансу вживань форм PARTICIPLE II (рис. 2).
Конкорданс вживань форм Participle II має таку структурою:
- left1 - слово, що стоїть на відстані 2 слів зліва від шуканого;
- left0 - слово, що стоїть безпосередньо зліва від шуканого;
- word - шукане слово (словоформа);
- base - лема шуканого слова в даному контексті;
- MSD - тег шуканого слова в даному контексті;
- right0 - слово, що стоїть безпосередньо праворуч від шуканого;
- right1 - слово, що стоїть праворуч від слова, яке стоїть безпосередньо праворуч від шуканого;
- frequency - частота даного контексту (з урахуванням слів, що стоять ліворуч, праворуч, а також леми і тега).
ІV етап Визначення найчастотніших моделей контекстного оточення форм PARTICIPLE II.
V етап. Дистрибутивний аналіз найчастотніших моделей контекстного оточення форм PARTICIPLE II та виведення правил алгоритму (Додаток 1).
Рис. 2. Конкорданс уживань форм PARTICIPLE II
Відкритий Американський Національний корпус (OANC) - це електронна колекція американської англійської мови, в тому числі текстів усіх жанрів та стенограми усних даних, отриманих з 1990 і надалі. Всі дані та анотації знаходяться у вільному доступі та необмежені для будь-якого використання. У корпусі представлено 15000000 слів сучасної американської англійської мови з автоматично-виробленими анотаціями для різних мовних явищ. 500000 слів рівномірно розподілені в більш ніж 19 жанрах американського варіанту англійської мови.
Подано таблицю кодувань зі структурою:
- Tag - тег американського корпусу;
- AbstractTag - тег, який має вивести програма.
Це потрібно для того, щоб визначити якою частиною мови є слово.
У випадку, коли програмі потрібно вивести не просто тег, а всі теги слова, використовується ще одна таблиця зі структурою:
- base - лема слова;
- tag_chain - ланцюжок можливих тегів.
3.3 Тестування програми зняття омонімії форм Participle II у довільному тексті
Програму зняття омонімії створено для Windows 7 та написано мовою C#.
Маючи в своєму розпорядженні базу даних контекстів, програма спочатку виділяє в тексті слова таким чином, яким це було зроблено в корпусі. Якщо в корпусі don't ділиться на do і n't, то і програма робить так само. Текст аналізується наступним чином:
1. У циклі йдемо за словами, запам'ятовуючи контекст. Додаємо кожне слово в чергу, де всього 5 елементів. Перші п'ять слів просто додаються в чергу. Кожне наступне слово зрушує всі наявні в черзі на одне вперед (друге стає першим, третє другим і т.д.).
2. Як тільки з'являється або змінюється середнє слово в черзі, перевіряється список з наявних слів у списку контекстів. Якщо це слово, для якого в базі є контексти, проводимо аналіз.
3. Спочатку намагаємося знайти найчастотніший тег для повного контексту (два слова ліворуч, два праворуч), якщо тег не знайдений тоді:
3.1. намагаємося знайти тег за двома лівими і одним правим словом, якщо тег не знайдений, тоді:
3.2. намагаємося знайти тег за двома правими і одним лівим словом, якщо тег не знайдений, тоді:
3.3. намагаємося знайти тег по одному лівому і одному правому слову, якщо тег не знайдений, тоді:
3.4. намагаємося знайти тег за двома правими словами, якщо тег не знайдений, тоді:
3.5. беремо найчастотніший тег для слова.
4. Приписуємо знайдений тег слову.
5. Коли всі слова проаналізовані, будуємо вихідний текст. Слова з тегом обертаються в маркери <tag> word </ tag >, решта записуються без змін.
6. За маркерами шукаємо і помічаємо слова кольором.
Робоче поле програми виглядає так:
Рис. Вікно програми зняття омонімії
Для перевірки роботи програми, потрібно знайти файл WindowsFormsClient.exe та натиснути на нього. Після чого відкривається два віконця та дві кнопки. У перше віконце потрібно ввести довільний англійський текст, після цього натиснувши кнопку process, програма виведе протегований текст у другому віконці. Потрібному слову буде приписаний тег відповідної частини мови, а також виділено його кольором. У програмі також є кнопка tags, натиснувши на неї, можна побачити таблицю із тегами для всіх частин мови (для наглядного розуміння роботи програми див. Додаток 2 та Додаток 3).
Висновки до третього розділу
Програмна реалізація алгоритму зняття омонімії спиралася на статистичний принцип морфологічного аналізу, що передбачає наявність статистичної моделі та статистичного аналізатора. Матеріалом для дослідження слугував відкритий Американський національний корпус (OANC) - корпус англійських текстів усіх жанрів. Застосування статистичного принципу полягало в тому, що використовувався корпус текстів з готовою морфологічної розміткою, де кожному слову вже приписано морфологічний тег. На основі даних розмітки вказаного корпусу текстів було створено статистичну модель кожного аналізованого слова - список усіх можливих контекстів для кожного слова з співвіднесеною йому частиною мови і відносною (або абсолютною) частотою.
Укладання правил творення дієприкметника минулого часу Participle ІІ для регулярних і нерегулярних дієслів, визначення парадигматичних класів для словозмінних форм дієслів та дослідження контекстів кожного аналізованого слова дало можливість створити алгоритм, що забезпечує: 1) розпізнавання форм Participle ІІ в тексті або реченні, 2) зведення до початкової форми, та враховуючи частотні характеристики 3) визначення граматичного класу. Даний алгоритм програми основується на статистичних даних і розрахований на закріплення знань про форми Participle ІІ дієслів активного стану в англійській мові, а також може виступати в ролі морфологічного словника англійського дієслова.
ВИСНОВКИ
Розв'язання омонімії на основі лінгвістичних методів та його програмна реалізація спрямовані на удосконалення систем комп'ютерного морфологічного аналізу тексту. Дослідження наукової літератури з проблеми розв'язання омонімії показало, що це завдання може бути розв'язане різними способами. Формально-граматичний підхід спрямований на створення складних систем правил, які дозволяли б у кожному конкретному випадку приймати рішення про належність слова до певного граматичного класу. Статистичний підхід спирається на збір статистики зустрічальності слова у схожому контексті, на основі якого і приймається рішення про граматичні характеристики слова. Спираючись на ці два підходи в пропонованому дослідженні здійснено спробу розв'язанні омонімії форм Participle II.
Для досягнення мети було виконано такі основні завдання: 1) досліджено явище омонімії і закономірності вживання омонімічних форм Participle II англійської мови; 2) укладено списки частин мови, що можуть бути омонімічними до Participle II в англійській мові; 3) визначено типи моделей сполучуваності для Participle II та омонімічних до нього форм; 4) побудовано алгоритм зняття омонімії форм Participle II англійської мови; 5) створено програму мовою С# для автоматичного зняття омонімії.
Перспективи подальших досліджень вбачаємо в необхідності удосконалення алгоритму, врахувавши всі ті диференційні ознаки варіантів форм, які не є загальними у вивченні, але й які можуть зустрічатися в різних стилях англійської мови. Це дасть змогу глибше розкрити систему словозмінних форм дієслова англійської мови.
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Анализатор предложных связей // Синтаксический анализ научного текста на ЭВМ. - К.: Наукова думка, 1999. - 127-163 с.
2. Арнольд I. В. Лексикология современного английского языка. - М.: Высшая школа. - 1986. - 296 с.
Подобные документы
Загальні властивості безособових форм дієслова в англійській мові. Особливості інфінітивних конструкцій як форми англійського дієслова, їх синтаксичні функції. Аналіз способів англо-українського перекладу речення з суб’єктним інфінітивним зворотом.
курсовая работа [62,0 K], добавлен 14.05.2014Загальне поняття про дієслово як частину мови, його значення в мові й мовленні. Зв'язок дієслова з іменником. Неозначена форма дієслова. Як правильно ставити питання до різних граматичних форм, які трапляються в реченнях і текстах. Часові форми дієслів.
презентация [80,7 K], добавлен 29.05.2014Поняття перекладу; безособові форми дієслова. Граматичні особливості інфінітиву, синтаксичні функції; перекладацькі трансформації. Дослідження, визначення та аналіз особливостей перекладу англійського інфінітиву в функції обставини в газетних текстах.
курсовая работа [48,1 K], добавлен 06.04.2011Процес словотворення і поділ морфем на корені та афікси (префікси і суфікси). Значення, використання і реалізація запозичених префіксів і суфіксів романського походження в системі англійського дієслова. Утворення дієслів за допомогою префіксів в тексті.
курсовая работа [37,9 K], добавлен 08.12.2010Порядок слів у простому поширеному реченні. Словосполучення та закономірності його перекладу. Видо-часові форми простого дієслівного присудка. Модальні дієслова. Особливості вживання форм присудка в підрядних реченнях. Неособові форми дієслова.
учебное пособие [1,2 M], добавлен 15.01.2010Підрядні речення умови та вживання умовного способу дієслова. Умовний спосіб дієслів у підрядних додаткових реченнях. Форми, що виражають нереальність. Приклади використання форм, для вираження нереальності (на матеріалі творів Артура Конан Дойла).
курсовая работа [43,3 K], добавлен 09.11.2013Поняття та характеристика різних форми дієслова, його морфологічні ознаки. Особливості доконаного та недоконаного виду дієслова. Минулий, теперішній і майбутній час дієслова. Привила написання частки "не" з дієсловами. Схема розбору даної частини мови.
презентация [3,9 M], добавлен 22.02.2011Явище міжмовної омонімії та його вивчення у слов’янському мовознавстві. Причини появи міжмовних омонімів. Поняття "фальшиві друзі перекладача". Дослідження міжмовної омонімії у слов’янському та чеському мовознавстві. Чесько-українська міжмовна омонімія.
курсовая работа [267,6 K], добавлен 20.12.2012Політична промова як об’єкт лінгвістичного вивчення, її загальна характеристика та зміст, структура та елементи, головні вимоги та фактори, що визначають ефективність, відмінні особливості. Лексична та фразеологічна основа текстів політичних промов.
курсовая работа [45,6 K], добавлен 31.01.2014Основы грамматики английского языка. Показатели третьего лица единственного числа глагола в Present Indefinite. Видовременные формы глаголов. Определение модального глагола или его эквивалента. Характеристика Participle I и Participle II, их функции.
контрольная работа [24,5 K], добавлен 20.08.2009