Автоматизація реферування

Роль передачі інформації в розвинутих країнах світу. Практичні та теоретичні аспекти формування реферату та автоматизованого реферування, його структура, перспективи, цільове призначення, функції. Реферування як процес згортання первинної інформації.

Рубрика Бухгалтерский учет и аудит
Вид курсовая работа
Язык украинский
Дата добавления 21.12.2010
Размер файла 69,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Приклади:
(7) Si: It is rather difficult to increase that rate significantly.

У прикладi (7) слово it є омонимiчним конектору. Пор.:

(8) Si-1: A properly working control system will deliver 457 milliliters per minute to reach the target pH. Si: As long as it delivers between 433 and 483 milliliters per minute ...

У прикладi (8) конектор it є маркером синтаксичного зв'язку речень Si и Si-1.

(9) Si: Связь не могла быть интерпретирована, так как в таблице отсутствовало сочетание РП23 с РПО141.

У прикладi (9) слово “так” є омонимiчним конектору. Пор.:

(10) Si-1: Элементы текста могут нести разную информацию при переводе. Si: Так, из сказуемого можно извлечь информацию о сопутствующих именных группах.

У прикладi (10) конектор “так” маркує синтаксичний зв'язок речень Si i Si-1. До ситуацiй другого типу вiдноситься вживання такого частотного маркеру категорiї визначеностi, як визначений артикль, для оформлення узагальненого чи єдиного об'єкту, а не для зв'язку речень через спiввiдношення об'єктiв [Блехман, 1985]:

(11) Si: The nucleus consists of protons and electrons.

У прикладi (11) артикль оформлює узагальнений об'єкт nucleus и тому не є конектором. Пор.:

12) Si-k : The detector consists of an orifice for measuring pressure ... Si: The pressure is proportional to the...

У реченнi Si прикладу (12) визначений артикль оформляє видiлений з класу об'єкт pressure, антецедент якого знаходиться в реченнi Si-k, тому даний артикль маркує синтаксичний зв'язок Si i Si-k. Процес розрiзнення конекторiв i псевдоконекторiв у кожнiй конкретнiй ситуацiї є обов'язковою умовою формалiзацiї поверхньо-синтаксичних зв'язкiв i розробки систем реферування. Для рiшення цього завдання була вжита спроба представити даний процес у виглядi невеликої кiлькостi стандартних операцiй. Перелiчимо цi операцiї. а) Визначення порядкового номеру потенцiйного конектора в реченнi та порiвняння його з деякою пороговою величиною. Ця операцiя використовується тому, що в мовi спостерiгається тенденцiя вживати конектори на початку речення або в позицiях, ненабагато вiддалених вiд першої. Так, дуже малою є ймовiрнiсть вживання конектора hence (“отже”) в позицiї, номер якої перевищує 7. У роботi [Берзон, 1972] наведенi пороговi позицiйнi характеристики росiйських конекторiв. Проте треба пiдкреслити, що позицiйний критерiй не може бути використаний на практицi в якостi єдиного критерiю вiдмiнностi конекторiв вiд псевдоконекторiв. Дiйсно, в реченнi

(13) Si: The usual method for such investigations is to hypothesize a particular mode of decay

артикль the знаходиться в першiй позицiї, але не є конекто-ром, тому що не оформлює об'єкт, що видiляється з класу “usual method for such investigations”. З цiєї причини виникає необхiднiсть використовувати також iншi операцiї аналiзу тексту, а саме: б) Пошук в оточеннi потенцiйного конектора дiагностичних лексичних одиниць. Ця операцiя є аналогiчною зняттю лексичної багатозначностi в системах машинного перекладу. Так, омонiмiя займенника such конектору може дiагностуватися наявнiстю на обмеженiй вiдстанi справа вiд нього слова as; займенника the same - слiв as або that тощо. Пор.:

(14) Si: The results were the same as in the previous experiments.

У прикладi (14) the same є псевдоконектором.

(15) Si-1: Reverse gel precipitation is a chemical process in which hydroxides of the required metals are precipitated by adding an alkali to an aqueous solution of the metal. Si: The same techique was employed to obtain...

У прикладi (15) the same є конектором.

в) Вияв у текстах конекторiв, котрi використовуються для формування одного з найбiльш розповсюджених рiзновидiв синтаксичного мiжфразового зв'язку - А-зв'язку [Блехман, 1985], - визначеного артикля i вказiвних займенникiв. Складнiсть цiєї операцiї викликана необхiднiстю виходу за межi речення, що мiстить потенцiйний конектор. Справдi, без притягнення екстралiнгвiстичної iнформацiї неможливо на внутрiшньофразовому рiвнi визначити, чи є конектором артикль у реченнi:

(16) The hydroxides are filtered to produce mixed oxides.

Iнакше кажучи, неясно, чи автор має на увазi деякi конкретнi гiдроксиди чи будь-якi гiдроксиди, тобто об'єкт є узагальненим - таким, що не видiляється з класу подiбних. З iншого боку, вихiд за межi цього речення дозволяє вiдповiсти на поставлене питання, не притягуючи, користуючись введеною в Главi 1 термiнологiєю, другий рiвень розумiння:

(17) Si-1: The result is hydroxides in the form of a fine slurry. Si: The hydroxides are filtered to produce mixed oxides.

У реченнi Si прикладу (17) визначений артикль є конектором, тому що оформлений їм об'єкт hydroxides видiляється з класу подiбних об'єктiв шляхом спiввiдношення з антецедентом, що знаходиться в реченнi Si-1.

3.5 Словник i граматика систем

Опрацювання апарату аналiзу тексту на мiжфразовому рiвнi мало цiллю утворення реально дiючих автоматизованих iнформацiйних систем, якi здiйснюють реферування англiйських i росiйських текстiв. Iдея такої системи, рiвно як i концепцiя гiперсинтаксису, описанi в серiї класичних робiт В.Ю.Берзона з мiжфразового аналiзу. В найбiльш розгорнутiй формi вони наведенi в монографiї [Добрускина, Берзон, 1986]. У системi, що описується нижче, використовується два машинних словника: словник конекторiв (Ск) i допомiжний словник (Св). Перший складається з незалежних англiйської та росiйської частин. Словник кожної частини мiстить понад 100 конекторiв. У другий включенi слова та словосполучення, що є дiагностуючими ознаками. Св, як i Ск, складається з незалежних англiйської та росiйської частин, кожна з яких подiлена на секцiї. Секцiя має таку структуру: номер секцiї; її довжина; лексичнi одиницi, наприклад, англiйськi слова “загального” значення: fact, problem, result тощо. Алгоритм розпiзнання складає систему правил, застосування яких до тексту дозволяє з достатньою надiйнiстю реалiзувати пошук конекторiв. У пояснювальнiй частинi Ск при кожному конекторi мiститься вказiвка на те, за яких умов лексична одиниця є конектором. Наприклад, займенник such є конектором, якщо його порядковий номер у реченнi не перевищує 8 i одночасно справа вiд нього на вiдстанi не бiльше трьох слiв вiдсутнє слово з певної секцiї Св (as, that). Умови формулюються в термiнах: - вiдстанi конектору вiд початку речення ( в кiлькостi слiв); - дiагностуючої ознаки; - напрямку пошуку дiагностуючого признаку; - вiдстанi дiагностуючого признаку вiд конектора; - вимоги наявностi чи вiдсутностi дiагностуючого признаку. Очевидно, що описана схема перевiрки умов не залежить вiд конкретної мови. Умови перевiряються за допомогою конкретних процедур. Кожному конектору вiдповiдає один запис Ск. Спочатку фiксується його довжина, пiсля цього слiдує так званий признак конектора, що може приймати одне з трьох значень: 1 - конектор є словом (however, “однако”); 2 - конектор є словосполученням (on the other hand, “с другой стороны”); 3 - конектор є основою слова (“эт-”, “так-”). За ознакою конектора слiдують: його системний номер, власне конектор i признак кiнця конектора. В iншiй частинi запису фiксуються групи процедур перевiрки. Кожна група мiстить тип конектора [Берзон, Зубов, 1977] i набiр процедур. Тип конектора визначає смислове вiдношення мiж реченнями, що зв'язуються:

А - итог В - противопоставление С - следствие D - перечисление Е - дополнение G - соединение Н - пространство, время I - подтверждение К - уточнение L - развитие мысли (А-связь) М - пояснение N - пример Р - цитата R - вопрос S - перефразирование

Треба зазначити, що деякi конектори можуть виражати рiзнi типи смислових вiдносин. Зокрема, конектор “так” потенцiйно вiдноситься до типiв G i N. В системi реалiзовано такi процедури: 1) Визначається номер позицiї потенцiйного конектора в реченнi, i цей номер порiвнюється iз заданим в описi процедури параметром. 2) Символ, що знаходиться в словi безпосередньо за ланцюжком символiв, спiвпавших з конектором, порiвнюється з тим, що задається у виглядi параметра. 3) Символ, що знаходиться в словi безпосередньо перед ланцюжком символiв, який спiвпадає з конектором, порiвнюється iз символом, що задається у виглядi параметра. 4) Перевiряється збiг знайденого в текстi слова з конектором - основою слова - пiсля додання до останнього одного з закiнчень, котрi входять у зазначену в описi процедури секцiю Св. 5) На вiдстанi не далi n слiв лiворуч чи праворуч вiд конектора визначається наявнiсть одного зi слiв, котрi входять у зазначену в описi процедури секцiю Св. Можлива iнверсiя результату: лексична одиниця є конектором при вiдсутностi, а не наявностi зазначеного слова. 6) Перевiряється виконання необхiдних умов А-зв'язку. Перевiрка полягає у вiдшуканнi антецеденту для iменника N, оформленого потенцiйним конектором. Пiд N розумiємо будь-яке слово, яке знаходиться праворуч вiд конектора не далi, нiж на певну вiдстань, i безпосередньо передує правiй ексклюзивнiй межi iменникової групи [Волосевич, 1971]. Антецедентом визнається слово A, котре входить у ту ж ПМО, що й N, i знаходиться в одному з наступних вiдносин з N: - A i N спiвпадають; - A i N - однокорiннi; - A i N - синонiми чи значення A є “вужчим”, нiж значення N. 7) Перевiряється виконання достатнiх умов А-зв'язку [Блехман, 1985]. Перевiрка полягає в порiвняннi слiв, котрi залежать вiд N (N-слiв), зi словами, котрi залежать вiд A (A-словами). N-словом вважається будь-яке слово, що знаходиться мiж конектором i N; A-словом - будь-яке слово, що знаходиться мiж A i ближчою лiворуч межою iменникової групи. A-зв'язок встановлюється в тому випадку, якщо сукупнiсть N-слiв входить у сукупнiсть A-слiв. Якщо в сукупностi N-cлiв є “зайвi” у порiвняннi з сукупнiстю A-слiв, то цi “зайвi” не перешкоджають встановленню А-зв'язку тiльки в тому випадку, якщо вони входять у список так званих описових залежних. Якщо антецедент не знайдений, то перевiряється умова неявного А-зв'язку - N спiвпадає з одним iз слiв “загального” значення.

3.6 Система квазiреферування

Опрацювання системи автоматичного реферування має чималий практичний iнтерес. Це викликано не тiльки регулярним збiльшенням обсягу документальних потокiв, але й таким важливим чинником, як запровадження в дiю промислово-орiєнтованих АСНТI з автоматичним iндексуванням i систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним iз ключових процесiв аналiтично-синтетичної переробки текстiв, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справдi ефективним тiльки в тому випадку, якщо виконуються такi п'ять вимог: - система має формувати реферат iз речень вхiдного тексту (можливо, з деякими скороченнями за рахунок порiвняно малоiнформативних сегментiв - цитат, вiдсилок i т.iн.), а не породжувати його на пiдставi смислового аналiзу текстiв. Iншими словами, система повинна повнiстю наслiдувати термiнологiю та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рiвень “розумiння” тексту, - системи квазiреферування; - реферати, що формуються системою, мають мiстити не тiльки “сигнальну” iнформацiю про документ, але й дозволяти прослiдкувати хiд думок автора, тобто система повинна породжувати саме реферати, а не анотацiї; - мiра скорочення тексту, яка називається звичайно коефiцiентом редукцiї i пiд якою розумiють вiдношення кiлькостi речень у вхiдному текстi до кiлькостi їх у рефератi, має бути достатньо високою (не менше 4-5); - швидкiсть автоматичного реферування повинна бути значно вищою за швидкiсть ручного; - система має легко переналагоджуватися на обробку текстiв рiзних мов. Розглянемо тепер принципи реалiзацiї розробленої пiд керiвництвом автора системи квазiреферування[Берзон,Блехман, Захаров, Певзнер, 1984]. На першому етапi реалiзацiї принцип дiї системи полягає у формуваннi квазiреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЕС ЕОМ включає головну програму й сiм процедур. Головна програма виконує такi функцiї: - читання тексту, що реферується; - розмiщення словникiв в оперативнiй пам'ятi; - аналiз тексту по реченнях: видiлення слiв, пошук в Ск i перевiрку збiгу лексичної одиницi, що аналiзується, з одним iз конекторiв; - у разi збiгу - звернення до процедур, обчислення значення логiчної функцiї по результатах роботи процедур, прийняття рiшення про iстинiсть конектора i визначення типу речення вiдповiдно до типу конектора; - прийняття рiшення про включення чи невключення речення до квазiреферату; - друк квазiреферату на принтерi. По мiрi роботи головної програми формується таблиця речень, що є основним результатом цiєї програми. Рядок таблицi вiдповiдає одному реченню. На час звернення до процедури всi рядки, котрi мають вiдношення до попереднiх за порядком слiдування реченням, цiлком заповненi. Рядок, котрий вiдноситься до речення, пiд час аналiзу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблицi має таку структуру: - номер речення; - кiлькiсть символiв у реченнi; - тип речення; - автосемантичне чи синсемантичне; - номер речення, з яким дане знаходиться в синтаксичному зв'язку; - номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналiзованого слова, початку таблицi речень, початку Ск, початку Св, а також до порядкових номерiв речення, аналiзованого слова в реченнi, першого символу слова вiдносно початку речення, до змiщення початку запису Ск, до значень параметрiв, зазначених в описах Ск. Як бачимо, програмне забезпечення системи не залежить вiд мови тексту, що обробляється. Для реферування текстiв на iншiй мовi достатньо органiзувати словник конекторiв i допомiжний словник на цiй мовi. Система реалiзована на мовi Асемблер пiд управлiнням ДОС i ОС ЕС ЕОМ. Документ надходить до системи у виглядi текстового файлу, в якому допускається видiлення за допомогою спецiальних службових символiв заголовкiв документiв i окремих його пiдроздiлiв, а також елементiв бiблiографiчного опису. Вся видiлена таким чином iнформацiя включається системою у квазiреферат. Результатом роботи системи є друкована копiя квазiреферату, сформованого з автосемантичних речень тексту з вказiвкою їх порядкових номерiв у вхiдному текстi. Якщо при цьому коефiцiент редукцiї вхiдного тексту виявляється менше 4, то у квазiреферат не вводяться iзольованi автосемантичнi речення [Берзон, 1972]: з послiдовностi автосемантичних речень у квазiреферат вводяться тiльки першi. Передбачений також режим, у якому до квазiреферату потрапляють не тiльки автосемантичнi речення, але й вказiвка на тип вилучених синсемантичних. Це дозволить у майбутньому органiзувати дiалог користувача з ЕОМ, запрошуючи у системи субтексти, котрi мають iнтерес для абонента (детальнiше див. [Берзон, Брайловский, 1979]).

3.7 Експерименти

На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: - металознавство - чотири тексти; - обчислювальна технiка - чотири тексти; - порошкова металургiя - два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У зв'язку з тим, що при реферуваннi аналiзуються тiльки формально вираженi зв'язки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, - 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї - 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були пред'явленi фахiвцю-металлургу; квазiреферати з обчислювальної технiки аналiзував автор. Всi квазiреферати одержали оцiнку “4” за 7-бальною шкалою: “Реферат у цiлому задовiльний, шуму мало, але втрати найбiльш важливої iнформацiї дещо бiльше припустимого рiвня”. Отже, квазiреферат, обсяг якого в чотири рази менший за обсяг вхiдного тексту, дає досить повне уявлення про тематику документу, мiстить мало другорядних вiдомостей (отже, може бути використаний також в АСНТI для автоматичного iндексування документу), проте в ньому вiдсутня частина iстотної iнформацiї. Можна припустити, що останнє частково викликане самим принципом квазiреферування, яке не враховує, зрозумiло, того факту, що важлива, з точки зору користувача, думка може бути висловлена в деяких реченнях, серед яких можуть опинитися синсемантичнi, якi вилучаються при квазiреферуваннi. Наведемо приклад квазiреферування роздiлу статтi N.Berhood, et al. The Yield and Flow Stress of Cu-1% Cd Alloy. - Acta Metallurgica, 1980, 28, p. 1141. Цифрами позначенi порядковi номери речень у вхiдних текстах.

On the Lower Bainite Transformation

00. Pickering [1] systematically studied the variation of the transition temperature between upper and lower bainite as function of carbon contenent in steels containing 0 plus boron, or 1,5 mc. 01. (L; развитие мысли) 02. (L; развитие мысли) 03. In order to explain the apparent initial rise in transition temperature with an ancrease in carbon content he proposed that it gets progressively difficult to remove carbon from supersaturated bainite ferrite as the alloy carbon content increases since the conceтеration gradients in austenite will become shallower. 04. (C; следствие) 05 (B; противопоставление) 06 (E; дополнение) 07. (E; дополнение) 08. (C; следствие) 09. (L; развитие мысли) 10. (E; дополнение) 11. (L; развитие мысли) 12. In fig 2, comparison of Pickering's data with the bainite start (bs) and marteniste start (ms) lines given by Steven and Haynes suggests that the transition temperature between upper and lower bainite or the lower bainite start temperature should also vary in a similar manner. 13. (J; подтверждение) 14. (J; подтверждение) 15. It is assumed that the lower bainite start temperature should also vary in a similar manner. 17. (J; подтверждение) 18. The following table list shows that the steels in which lower bainitic epsilon carbide has been positively identified invariably have a high carbon content. 19. (B; противопоставление) 20. (L; развитие мысли) 21. Bhadeshia [3] originally suggested that the lack of epsilon carbide in the 0,43 C alloy steel may be due to the presence of the substantial amount of manganese. 22. (B; противопоставление) 23. Kalish and Kohen [4] have shown that it is energetically favourable for carbon atoms to remain segregated at dislocation compared with their presence in the epsilon carbide lattice. 24. (C; следствие) 25. (L; развитие мысли) 26. Kalish and Kohen estimate that a dislocation density of 2110 CN will prevent epsilon carbide precipitation in steels of up to 5,28 wt% carbon.

На наступному етапi були проведенi пряма nf непряма перевiрки лiнгвiстичних гiпотез вiдповiдно до iдей, висловлених у Главi 1.

3.8 Пряма перевiрка гiпотез

Мною була сформулювана та пiддана прямiй перевiрцi гiпотеза про текстоутворюючий механiзм категорiї визначеностi в англiйському науковому текстi. Гiпотеза була сформулювана так: 1) Механiзм спiввiдношення граматично визначеного об'єкту з антецедентом, що виступає у виглядi “адреси” цього об'єкту в класi подiбних, лежить в основi маркованого денотативного зв'язку речень англiйського наукового тексту -А-зв'язку речень. 2) Залежно вiд характеру спiввiдношення об'єкту з його “адресою” в класi подiбних, розрiзняються такi рiзновиди А-зв'язку: - експлiцитний прямий повний; - експлiцитний прямий частковий; - експлiцитний непрямий повний; - експлiцитний непрямий частковий; - тезаурусний прямий повний; - тезаурусний прямий частковий; - тезаурусний непрямий повний; - тезаурусний непрямий частковий; - списковий прямий повний; - списковий непрямий повний; - списковий непрямий частковий; - iмплiцитний прямий; - iмплiцитний непрямий. 3) А-зв'язок речень бере участь у формуваннi синтаксичної мiжфразової структури наукового тексту. Докладний виклад даної гiпотези з прикладами А-зв'язку див. у [Блехман, 1985]. З точки зору комп'ютерної лiнгвiстики, ця гiпотеза може мати силу тiльки за умови експериментальної перевiрки її iстиностi. Для здiйснення такої перевiрки був розроблений аналог дослiджуваного об'єкту - гiпотетична модель А-зв'язку [Блехман, 1985], пiсля чого ця модель була представлена у виглядi алгоритму вияву А-зв'язкiв у англiйських наукових текстах. Алгоритм був орiєнтований на функцiювання в реальнiй iнформацiйнiй системi, яка здiйснює автоматичне квазiреферування англiйських текстiв. Як ми бачили вище, ця система володiє нульовим рiвнем “розумiння” тексту й використовує морфологiчний i гiперсинтаксичний засiб “розумiння”. Алгоритм базується на формальному апаратi опису експлiцитного та спискового А-зв'язкiв i не дозволяє виявляти в текстах тезаурусний та iмплiцитний А-зв'язок. Експеримент полягав у безпосередньому аналiзi правильних i помилкових рiшень алгоритму при реалiзацiї в системi квазiреферування та у виявi причин помилок. Iнженерна реалiзацiя моделi пiдтвердила такi положення сформульованої гiпотези: 1) Механiзм спiввiдношення граматично визначеного об'єкту з антецедентом, що виступає у виглядi “адреси” цього об'єкту в класi подiбних, лежить в основi маркованого денотативного зв'язку речень англiйського наукового тексту. Дане припущення пiдтверджується тим, що реальна iнформацiйна система, котра використовує аналог лiнгвiстичного об'єкту, що моделюється, з досить високою надiйнiстю виявляє в до-вiльно взятих наукових текстах об'єктивно iснуючi в них А-зв'язки речень, причому мiра надiйностi, очевидно, може бути пiдвищена при використаннi синтаксичного та семантич-ного засобiв “розумiння” тексту, що,однак, потребує окремої експериментальної перевiрки. 2) Залежно вiд характеру спiввiдношення об'єкту з його антецедентом - “адресою” в класi подiбних об'єктiв -розрiзняються зазначенi вище рiзновиди експлiцитного, тезаурусного та спискового А-зв'язку речень. Дане припущення частково пiдтверджується тим, що використаний формальний апарат, який задає умови iснування в текстi кожного з рiзно-видiв А-зв'язку, крiм iмплiцитного та тезаурусного, дозволяє комп'ютеру розпiзнавати цi рiзновиди в реальних текстах при їх квазiреферуваннi. При цьому iнженерному моделюванню тезаурусного та iмплiцитного А-зв'язкiв має передувати поглиблене теоретичне дослiдження їх механiзмiв. 3) А-зв'язок двох речень бере участь у формуваннi синтаксичної мiжфразової структури англiйського наукового тексту. Дане припущення пiдтверджується тим, що IС, котра здiйснює квазiреферування англiйських текстiв, виявляє в процесi розпiзнавання мiжфразової синтаксичної структури текстiв, що опрацьовуються, А-зв'язки, якi задовольняють визначенню синтаксичного мiжфразового (гiперсинтаксичного) зв'язку, а саме: - А-зв'язок базується на насиченнi синсемантичного речення, що мiстить граматично визначений об'єкт, реченням, що мiстить “адресу” цього об'єкту в класi подiбних; - А-зв'язком, що виявляється iнформацiйною системою, зв'язуються речення, котрi знаходяться в логiчно-смисловому мiжфразовому зв'язку того чи iншого типу.

3.9 Непряма перевiрка гiпотез

У попередньому роздiлi ми проiлюстрували принцип прямої перевiрки лiнгвiстичної гiпотези. Проте виявляється, що застосування цього засобу до деяких лiнгвiстичних об'єктiв є неефективним, не дозволяючи одержати надiйну оцiнку сформульованої гiпотези. Це має мiсце у тих випадках, коли моделюємий лiнгвiстичний об'єкт погано пiддається безпосередньому спостереженню. Важливо пiдкреслити, що неможливiсть прямого спостереження об'єкту, що моделюється, неминучо призводить до суб'єктивностi в описi цього об'єкту. Так, наприклад, вiдома гiпотеза про можливiсть подання значення слова у виглядi сукупностi “елементарних смислiв” потребує саме непрямої перевiрки, яка дозволила б об'єктивно оцiнити правильнiсть такого подання. Проiлюструємо тепер метод непрямої перевiрки на прикладi гiпотези про мiжфразову синтаксичну структуру англiйських текстiв iнформацiйних повiдомлень. Газетне iнформацiйне повiдомлення - це, як правило, текст довжиною вiд 3 до 20 речень, типовий для сучасної англiйської газети (пор. тексти повiдомлень VWD, гл.2). Гiпотеза про його гiперсинтаксичну структуру була сформулювана нами в такому виглядi: 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. 2) Елементами цiєї структури є: а) речення (нижчий рiвень); б) маркованi, тобто такi, що мають спецiальний вислiв у виглядi конекторiв, мiжфразовi одиницi, якi ми назвали поверхньо-синтаксичними мiжфразовими одиницями - ПМО. 3) До складу ПМО входять: одне автосемантичне, а також, можливо, декiлька синсемантичних речень. 4) Перше, автосемантичне, речення ПМО є “головним” для всiєї одиницi, тобто мiстить головну iнформацiю даної ПМО, являючись свого роду “анотацiєю” ПМО. 5) Перше речення в ланцюжку автосемантичних речень є головним, тобто несе те ж навантаження, що й перше речення ПМО. 6) Кiлькiсть головних речень тексту складає не бiльше 25% всiх речень цього тексту. 7) З головних речень може бути складений такий новий текст, що утворить гiперсинтаксичну структуру. Цю гiпотезу покладено в основу системи автоматичного квазiреферування текстiв англiйських iнформацiйних повiдомлень, побудовану на тих же принципах, що й описана вище система квазiреферування наукових статей. Систему було реалiзовано у виглядi пiдсистеми багатофункцiональної IС, розробленої в ЛГПI iм. А.I.Герцена пiд керiвництвом Л.Н.Беляєвої [Чижаковський, Беляєва, 1983]. Для перевiрки зазначеної гiпотези була побудована формальна модель мiжфразової структури тексту, що використовує апарат конекторiв i квазiконекторiв. На пiдставi даного апарату було розроблено подiбну описанiй вище систему квазiреферування, що витягає зi вхiдного тексту головне речення i формує квазiреферати двох типiв: зi вказiвкою смислових класiв вилучених речень - РР1; без вказiвки цих класiв - РР0. Речення вважається головним, якщо не мiстить конекторiв i квазiконекторiв i є першим у ПМО або в ланцюжку автосемантичних речень. Система використовує морфологiчний i гiперсинтаксичний засоби “розумiння” тексту. Перевiрка гiпотези здiйснювалася на масивi 17 довiльно вiдiбраних газетних повiдомлень. Були введенi такi якiснi характеристики квазiрефератiв: а) повнота передачi основного змiсту документу; б) точнiсть - вiдсутнiсть у квазiрефератi речень, надлишкових для передачi основного змiсту документу; в) зв'язнiсть (у звичайному розумiннi цього слова). Були також введенi такi кiлькiснi оцiнки кожної з перелiчених характеристик квазiрефератiв: 1 - дуже погано 2 - погано 3 - задовiльно 4 - добре 5 - вiдмiнно. Квазiреферати оцiнювалися автором цiєї книги, тобто людиною, яка знає англiйську мову, але не обiзнана зi змiстом тексту, що реферується. Оцiнки виставлялися виключно з точки зору майбутнього користувача системи, в припущеннi, що квазiреферат в iдеалi повинен мати статут самостiйного документу, тобто давати користувачевi чiтке уявлення про тему вхiдного документу, iнформувати про його основний змiст, але не мiстити при цьому надлишкової iнформацiї, вiдрiзняючись тим самим вiд повного документу. Документи, що опрацьовувалися, були подiленi нами на два класи: (а) якi пiддаються iнтелектуальному реферуванню i (б) якi не пiддаються iнтелектуальному реферуванню (наприклад, перелiки спортивних результатiв).

Обсяг одержаних квазiрефератiв - вiд 1 до 3 речень; у двох випадках обсяг склав 4 речення: це були документи, котрi не пiдлягають iнтелектуальному реферуванню. Отже, експеримент дозволив зробити такi висновки. По-перше, було встановлено, що сфоромульована гiпотеза не вiдноситься до невеликої частини текстiв iнформацiйних повiдомлень, якi не пiддаються iнтелектуальному реферуванню. По-друге, на матерiалi бiльшої частини текстiв були перевiренi всi 7 пунктiв гiпотези про гiперсинтаксичну структуру текстiв iнформацiйних повiдомлень. 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. Це припущення пiдтверджується тим, що система видiлила в текстах реально iснуючi в них мiжфразовi зв'язки, що задовольняють усiм умовам синтаксичного мiжфразового зв'язку; саме цi вiдносини об'єднують текст повiдомлення в єдине цiле. 2,3) Речення цiєї гiперсинтаксичної структури об'єднуються в ПМО. Це припущення пiдтверджується чергуванням у текстi повiдомлення автосемантичних i синсемантичних речень. 4,5) Припущення про те, що автосемантичнi речення є справдi головними, оцiнюється так. Той факт, що 12 з 14 квазiрефератiв (Табл. 4.1) мають вiдмiнну чи хорошу повноту, свiдчить про те, що в 85% текстiв речення, котрi ми назвали головними, справдi мiстять основну iнформацiю, закладену у вхiдних текстах. Крiм того, одержанi квазiреферати мiстять мало надлишкової iнформацiї, а її наявнiсть викликана в основному помилками, не пов'язаними з якiстю нашої моделi. Таким чином, включенi в квазiреферат речення мiстять, як правило, основну iнформацiю вхiдного тексту, тобто вiдповiдають визначенню головного речення. 6) Кiлькiсть головних речень, як правило, складає не бiльше 25% всiх речень цього тексту (див. Табл. 4.1): коефiцiент стиску менше 4 одержаний тiльки для дуже коротких текстiв. 7) Припущення про те, що з головних речень може бути складений новий текст, що має власну гiперсинтаксичну структуру, частково спростовується результатами експерименту: 5 квазiрефератiв з 14 (кожний третiй) одержали низьку оцiнку по параметру “зв'язнiсть”, тобто цi квазiреферати мають вигляд скорiше штучних об'єднань речень, якi вiдносяться до однiєї теми, нiж тексту. З iншого боку, основною причиною цього були зовнiшнi для нашої моделi чинники, тому треба вважати одержаний результат попереднiм i таким, що потребує додаткової перевiрки. На закiнчення визначимо, що реферування росiйських та українських текстiв є дещо складнiшим, головним чином, iз-за вiдсутностi в цих мовах такого важливого показника мiжфразового зв'язку, як визначений артикль, наприклад:

Si-1: В статье анализируются порошки на основе алюминия. Si: Порошки отличаются тем, что...

Для вияву мiжфразового зв'язку в подiбних випадках необхiдно розробити спецiальну процедуру пошуку антецедентiв слiв, не оформлених маркером визначеностi.

3.10 Перспективи

Як уже вiдзначалося, розробка систем зазначеного типу переслiдувала теоретичнi та практичнi цiлi. Досягненню перших будуть сприяти введення в систему великої кiлькостi текстiв i перевiрка гiпотез про розподiл по тексту iстотної iнформацiї та засобах вияву синтаксичних мiжфразових зв'язкiв. Крiм того, великий iнтерес представляє опрацювання типологiї науково-технiчних текстiв на основi аналiзу типiв формально вiдбитих синтаксичних мiжфразових зв'язкiв i їх насиченостi цими зв'язками. Дуже перспективною здається також побудова класифiкацiї поверхньо-синтаксичних мiжфразових одиниць у залежностi вiд їхньої структури. Щодо практичного напрямку, то другим етапом розвитку системи квазiреферування має бути алгоритмiзация встановлення дистантних мiжфразових зв'язкiв для конекторiв усiх класiв, що дозволить реалiзувати систему ешелонованого реферування, iдея якої була запропонована В.Ю. Берзоном [Берзон, Брайловский, 1979]. Наступним етапом пiдвищення розпiзнавальної спроможностi системи є формалiзацiя деяких iмплiцитних зв'язкiв шляхом вияву конекторiв, якi зазнали елипсису. У виглядi ще одного важливого завдання треба розглядати опрацювання програми-диспетчера, що буде визначати тип тексту, що реферується, i вибирати засiб реферування. Актуальнiсть даного завдання визначається тим, що iснують тексти з переважною бiльшiстю iмплiцитних мiжфразових зв'язкiв, якi не пiддаються реферуванню описаним методом. Такими, наприклад, є описи технологiчних процесiв i устаткування. Практичну цiннiсть для абонента системи представляє автоматичне аспектне реферування [Блюменау та iн., 1981; Полонская, 1989] таких текстiв. Не менш важливим завданням треба вважати використання даної системи в єдиному комплексi засобiв автоматичної обробки наукових текстiв: такий шлях представляється єдиним засобом здобутку високої економiчної ефективностi систем реферування будь-якого типу. Нарештi, пiдкреслимо актуальнiсть реалiзацiї методiв автоматичного реферування на персональних комп'ютерах.

Висновки

Отже, ми розглянули деякі теоретичні та прикладні аспекти комп'ютерної лінгвістики. Можливо, наш підхід дещо відрізняється від прийнятого, особливо, в американській практиці, коли комп'ютерна лінгвістика розглядається в основному як частина математичної лінгвістики в розумінні Н. Хомського, а монографiї, присвячені цій проблематиці, насичені структурними схемами речень і умовними символами.

Філософія, запропонована увазі читача даної книги, заснована на прагматичному, якщо завгодно - технологічному погляді на комп'ютерну лінгвістику. Будучи практиком, я намагаюсь будувати таку теорію, яка допомагала б мені та моїм колегам вирішувати конкретні завдання, що виникають при розробці інформаційних систем. Можливо, недоліком такого погляду на проблематику обробки текстів є деяке ігнорування математичного апарату та ідей формальних граматик. У той же час, одержані нами результати у вигляді функціонуючих інформаційних систем свідчать, очевидно, про те, що даний суто гуманітарний підхід має право на життя. Ще раз підкреслюю, що критерієм якості розроблених систем і систем, що створюються, для мене служить виключно погляд кінцевих користувачів, і саме він є стимулом до удосконалення наших продуктів.

Можливо, мої потенційні опоненти можуть закинути мені те, що я віддаю перевагу тривалому, емпiричному "вирощуванню" систем перед апріорною побудовою всеосяжної моделі лінгвістичного об'єкту. На це можна заперечити тільки одне: нам поки що невідомі комерційні, тобто такі, які мають реальну користь для людей, системи, побудовані інакше, ніж за принципом "вирощування".

Тут, мабуть, закономірним є питання: а чи є межа у того процесу, що називається "вирощуванням"? Чи не опиниться він нескінченним?

Гадаємо, самий дух щойно прочитаної вами книги свідчить про те, що цей процес, на щастя і на нещастя, нескінченний. На щастя - тому, що "вирощувати" інформаційну систему майже так же цікаво, як вирощувати дитину. На нещастя - тому, що дитину кінець кінцем можна виростити, і вона стає дорослою, тоді як комп'ютер завжди залишиться дитиною - якою б гарною чи поганою не була теорія "вирощування".Проте дитинство - це чудово!

Список використаної літератури

1. Библиография №2. Книжная палата: 2000 год. с.12-15.

2. Вісник книжкової палати №3 .-К.:1998 рік. с.25.

3. Вісник книжкової палати №10 .-К.:1998 рік. с.6.

4. Вісник книжкової палати №3 .-К.:1999 рік. с.15.

5. Сіркова Г.В. Основи інформаційно-аналітичних досліджень. Рівненський інститут слав'янознавства Київського слов'янського університету.-К.:1998 рік. с.24-28.

6. Жанры информационной литератури: Обзор. реферат.-Москва “Книга”.1983 год. с.203-210.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.