Система аналізу on-line контенту

Комплексна обробка просторово-розподілених ресурсів мережі Інтернет. Системи інформаційного моніторингу в мережі. Обґрунтування технологій, розробка системи інтеграції Інтернет-контенту для конкурентного середовища ринку праці. Оцінювання систем аналізу.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык украинский
Дата добавления 14.07.2013
Размер файла 763,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Зміст

Вступ

Розділ 1. On-line контент. Основні поняття та визначення

1.1 On-line контент. Основні визначення

1.2 Класифікація on-line контенту

1.3 Використання on-line контенту

Розділ 2. Аналіз on-line контенту

2.1 Концепції та методи аналізу

2.2 Архітектура систем аналізу

2.3 Технології аналізу

2.4 Оцінювання систем аналізу

Розділ 3. Опис програмного продукту «система аналізу on-line контенту»

3.1 Функціональні вимоги до програмного продукту

3.2 Нефункціональні вимоги до програмного продукту

3.3 Алгоритми аналізу

3.4 Інтерфейс програмного продукту

3.5 Тестування програмного продукту

3.6 Техніко-економічне обґрунтування

3.7 Охорона праці

3.7.1 Правові питання охорони праці

3.7.2 Організація і обладнання робочих місць користувачів ПК з точки зору охорони праці

3.7.3 Характеристика виробничого середовища і чинники, що діють на оператора в процесі його праці

3.7.4 Вимоги електричної та пожежної безпеки

Висновки

Список використаних джерел

Додаток

Вступ

Актуальність теми. У світі сучасного бізнесу будь-якому підприємству або підприємцю, який бажає досягти успіху, необхідно не тільки виробляти і просувати продукт, а й відстежувати поточні зміни в конкурентному середовищі, тобто збирати інформацію.

У сучасних умовах в бізнесі істотне значення набуває аналіз можливих ситуацій, визначення їх тенденцій, оцінка можливих ризиків при прийнятті рішень. Недостатньо володіти інформацією у вигляді маркетингових досліджень або бізнес-довідок про підприємства потенційних партнерів і конкурентів. Важливість вирішення цих завдань стала причиною виникнення інформаційного моніторингу -- інструменту інформаційно-аналітичної підтримки прийняття рішень.

Сучасний ринок -- це найвища ступінь ризику і жорстка конкуренція. Для того, щоб вижити і успішно функціонувати, потрібно оперативно реагувати на події і прораховувати свої дії на кілька кроків вперед, для чого потрібна інформація. Ефективним засобом отримання такої інформації є інформаційний моніторинг, який дозволяє вчасно отримувати потрібну інформацію, аналізувати її та приймати рішення.

У свою чергу для здійснення інформаційного моніторингу необхідною є система інформаційного моніторингу, яка використовує технології інтеграції Інтернет-контенту. Тож для вибору оптимальної системи необхідним є проведення комплексного аналізу усіх технологій інтеграції та обрання доцільнішої.

Об'єктом магістерської роботи є комплексна обробка просторово-розподілених ресурсів мережі Інтернет.

Предметом магістерської роботи є технології інтеграції Інтернет-контенту, як засобу інформаційного моніторингу.

Метою магістерської роботи є обґрунтування технологій та розробка системи інтеграції Інтернет-контенту для конкурентного середовища ринку праці.

Для досягнення поставленої мети мають бути вирішені такі задачі:

проаналізувати поняття інформаційного моніторингу на сьогоднішній день, сфери його використання та його завдання;

проаналізувати та порівняти системи інформаційного моніторингу в мережі Інтернет;

проаналізувати та порівняти технології інтеграції Інтернет-контенту;

сформулювати критерії оцінки систем інформаційного моніторингу;

спроектувати та розробити систему інформаційного моніторингу середовища ринку праці за обраною технологією.

Методами дослідження є порівняння (порівнюються різні підходи до вирішення проблеми), експеримент, аналіз та систематизація.

Наукова новизна та практичне значення одержаних результатів:

уточнено поняття «інформаційний моніторинг» у різних сферах його використання відповідно до виконуваних завдань діяльності;

конкретизовано критерії оцінки систем інформаційного моніторингу;

виконано порівняння та систематизовано технології інтеграції Інтернет-контенту;

узагальнено та класифіковано системи інформаційного моніторингу в мережі Інтернет;

проілюстровано роботу системи інтеграції Інтернет-контенту як вбудованого модуля до сайту.

Особистий внесок. Виконана робота є самостійним дослідженням відповідно до сформульованої мети, завдань і обраної методики науковго пошуку.

Автором самостійно дібрані приклади систем інформаційного моніторингу в мережі Інтернет, узагальнено дані щодо технологій інтеграції Інтернет-контенту та здійснено їх аналітичний огляд, виконано реалізацію і перевірено роботу системи інтеграції Інтернет-контенту у вигляді вбудованого модуля до сайту.

Апробація результатів роботи. Результати досліджень були представлені у рамках науково-практичної конференції «Дні науки КНУКіМ» у секції «Стратегія розвитку електронного культурно-освітнього і наукового простору в Україні» у доповіді «Методи аналізу on-line контенту» та на XVIII міжнародній науково-практичній конференції «Інформаційні технології в економіці, менеджменті та бізнесі. Проблеми науки, практики і освіти» у доповіді «Системи аналізу on-line-інформації».

Розділ 1. On-line контент. Основні поняття та визначення

1.1 On-line контент. Основні визначення

Контент (від англійського content -- вміст) -- це абсолютно будь-яке інформаційно значуще або змістовне наповнення інформаційного ресурсу або веб-сайту. Контентом називаються тексти, мультимедіа, графіка. Проте найчастіше контентом називають текстове наповнення веб-сайту. У HTML-документі під контентом розуміють частину службової інформації в однойменному полі. У цьому полі розміщують опис-резюме даного інтернет-ресурсу. Контент дуже важливий для пошукових машин.

В якості on-line контенту найчастіше можна зустріти:

текстові файли;

цифрові зображення;

звукові файли;

відео файли

Контент, також, це набір інформації, об'єкт системи електронної контент-комерції, який неподільний у часі, є основним чинником функціонування системи електронної контент-комерції та існує лише в електронному вигляді.

Ранжування -- визначення порядку відповідно до рангу, авторитету, респектабельності або релевантності, якщо мова йде про сайти. Ранжування -- це процес, результат якого користувач бачить, отримуючи відповідь пошукової системи на своє питання. Система отримує і обробляє запит, сортує все, що знаходить в своїй базі даних, тобто виробляє ранжування, і видає результат. Видача, як відомо, являє собою сторінку або декілька, де в певному порядку розташовані посилання, що відповідають на питання. Розташування всіх Web-сайтів у відповідний ланцюжок і є ранжування.

Аналіз контенту -- це якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і суворістю процедури та полягає у обробці тексту з подальшою інтерпретацією результатів. Предметом аналізу контенту можуть бути як проблеми соціальної дійсності, котрі висловлюються чи навпаки приховуються у документах, так і внутрішні закономірності самого об'єкта дослідження.

Може використовуватися як основний метод дослідження (наприклад, аналіз тексту при дослідженні політичної спрямованості газети), в поєднанні з іншими методами (наприклад, в дослідженні ефективності функціонування засобів масової інформації), допоміжний або контрольний (наприклад, при класифікації відповідей на відкриті запитання анкет).

Виділяють два основних типи аналізу контенту: кількісний і якісний. Якщо кількісний аналіз націлений на виявлення частоти окремих тем, слів або символів, що містяться у тексті, то якісний аналіз пов'язаний з фіксуванням нетривіальних висловлювань, мовних інтонацій з розумінням цінності змісту повідомлення.

Різновид контенту -- це інформаційний товар, інформаційний вміст web-сайта, Інтернет-видавництва, маркетингових досліджень, консалтингових послуг, який є об'єктом бізнес-процесів систем електронної контент-комерції [10].

Контент-моніторинг -- це змістовий аналіз інформаційних потоків з метою отримання необхідних якісних і кількісних зрізів, який, на відміну від контент-аналізу, здійснюється безперервно в часі.

1.2 Класифікація on-line контенту

Якість контенту і його актуальність є запорукою трафіку, тобто притоку відвідувачів на сайт. Велика кількість людей у ??світі відправляється за оригінальною і неупередженою інформацією на сайт BBC, де новини публікуються з перших рук. Інша частина користувачів можуть задовольнитися передруком і переказом новин -- існують такі новинні сайти, які просто передруковують готові статті.

Це важливий момент для поділу контента на унікальний або неунікальний. Унікальним контентом може називатися будь-який контент, який ще жодного разу не був опублікований в мережі. Неунікальний - це передрук, запозичення, що є порушенням авторських прав. Закон про інтелектуальну власність поширюється і в інтернеті. Неунікальний контент часто навіть не індексується пошуковими машинами.

Унікальний контент також повинен володіти цінністю, а не бути набором незрозумілих слів. Це важливо не тільки з точки зору відвідувачів сайту, але і з точки зору пошукових систем, які розрізняють унікальний контент і навіть виділяють спам. Якщо до створення унікального контенту застосувати основи пошукової оптимізації і використовувати семантичне ядро, то цінність його з точки зору пошукових систем підвищиться.

On-line контент можна розділити на статичний та динамічний. Статичною можна називати Web-сторінку, яка цілком зберігається на сервері і показується відвідувачеві у своєму незмінному вигляді (слід врахувати, що статична сторінка може містити деякі змінювані елементи, наприклад банери, проте вона все одно залишається статичної). Сайтів які складаються з статичних сторінок досить багато, з них, можна сказати, починався Інтернет. Динамічний -- такий, що регулярно поповнюється, змінюється або генерується перед видачею. Динамічною можна називати Web-сторінку, згенеровану сервером з декількох частин або отриману шляхом внесення або зміни даних в сторінку.

Виходячи зі способу отримання, контент також може бути:

авторським (розміщується на сайті його власниками);

користувальницьким (коментарі, фото, відео тощо, додаються на сайт його відвідувачами).

Залежно від змісту контенту щодо сайту, на якому він розміщений, розрізняють:

тематичний контент (наприклад, стаття про пошукової оптимізації на сторінці web-ресурса про просування сайтів);

нетематичні (наприклад, відео про способи заробітку на порталі, який присвячений автомобілям).

Крім іншого контент можна охарактеризувати як:

постійний;

поповнюваний (наприклад, контент блогів, новинних сайтів тощо).

За способами створення контент умовно можна розділити на три групи:

Схвалювані пошуковими системами. Тексти, графіка, відео та інше робляться самостійно власником ресурсу, купуються на біржах контенту або ж створюються за домовленістю фахівцями у відповідних галузях. Найтрудомісткіший метод.

Допустимі пошуковими системами. Власником сайту або найнятим спеціалістом змінюється вже існуючий сторонній контент до такої міри, щоб пошуковий робот визнав його унікальним, а первісний зміст залишився колишнім (наприклад синонімізація текстів, зміна зображень в графічних редакторах тощо). Метод не настільки трудомісткий і фінансововитратний, як попередній і ставлення відвідувачів до нього гірше.

Несхвалювані пошуковими системами -- копіпастинг (від англ. Copy і paste -- копіювати і вставляти) -- запозичення (плагіат) чужих текстів, зображень тощо. Найгірший варіант при просуванні сайту.

1.3 Використання on-line контенту

Контент має важливе значення для просування сайту і є одним з основоположних чинників, що впливають на позицію ресурсу в пошуковій видачі. Успішне просування сайту передбачає відповідність контенту певним вимогам:

Унікальність. Неунікальний контент перешкоджає просуванню, знижує авторитетність сайту, і досить часто взагалі не індексується пошуковими машинами.

Оптимізованість під пошукові запити (дана вимога стосується більшою мірою до текстового контенту). Виділені ключові фрази і слова в текстах дають можливість пошуковим роботам найбільш точно визначати тематику і спрямованість сторінок сайту, щоб згодом виводити їх як найбільш релевантні результати відповідних запитах користувачів.

Інформативність і актуальність. Якісні цікаві тексти, аудіо та відеоматеріали сприяють залученню цільової аудиторії і перетворенню її в постійну.

Легкість сприйняття. Окремі елементи контенту повинні бути логічно і зручно розташовані на інтернет-сторінці.

Трастовість (від англійського Trust -- довіряти). Одна з головних цілей використання контенту для просування полягає у формуванні у користувачів довіри безпосередньо до сайту через контент, що її викликає. Бажане враження на аудиторію повинне проводитися без жодного тиску і примусу, відкритої реклами: відвідувачам не варто що-небудь нав'язувати, досить просто направити їх інтерес у бік певних товарів (послуг, подій тощо залежно від спрямованості ресурсу).

Однією з головних особливостей нашого часу є постійне зростання темпів виробництва інформації. Крім збільшення обсягів інформації до маштабів, які унеможлюють її безпосередню обробку, виникла низка специфічних проблем, пов'язаних із швидким розвитком інформаційних технологій.

Саме інформація, яка вже сьогодні циркулює в мережі Інтернет, є тим невичерпним джерелом інформації та знань, що по своїй суті, за наявності потужних пошукових систем, є найпривабливішим з погляду пошуку інформації, знань. Необхідно також враховувати, що вже давно поетапно вирішується питання щодо приведення до електронного вигляду всього того досвіду, який накопичено людством за часи свого існування у документальному вигляді.

Зважаючи на це, вже нині виникає цікава ситуація -- з одного боку, є доволі потужний інформаційний масив (ресурси Інтернет) для прийняття рішень у різноманітних сферах життя держави, суспільства та окремої особи, а з іншого -- брак необхідної для прийняття рішень інформації саме через її динаміку, обсяги, джерел та неструктурованість [30].

Охоплення та узагальнення великих динамічних інформаційних потоків, які безперервно генеруються в засобах масової інформації, вимагає якісно нових підходів.

Саме тому останнім часом використовують системи, тісно пов'язані з аналізом контенту. Під аналізом контенту найчастіше розуміють змістовний аналіз інформаційних потоків з метою отримання необхідних якісних і кількісних зрізів, який ведеться постійно протягом не визначеного заздалегідь проміжку часу [20].

Розділ 2. Аналіз on-line контенту

2.1 Концепції та методи аналізу

Основи процедури контент-аналізу було позроблені Гарольдом Ласвеллом. На сучасному етапі існує багато думок щодо почерговості етапів аналізу контенту та ступеня їх важливості.

Виділяють такі стадії аналізу:

1. Підготовка програми аналізу документів (маються на увазі завдання, гіпотези, поняття, об'єкт аналізу і тощо);

На цьому етапі, як правило, формулюється так звана емпірична теорія дослідження. Тобто, в ході підготовки до проведення аналізу, систематизуються гіпотези, існуючі в контексті даної проблематики та відкидаються ті з них, які не піддаються верифікації на даних інформаційного масиву.

2. Відбір джерел аналізу.

Необхідно визначити коло джерел, які містять у собі матеріали по заданій темі. Далі важливо встановити додаткові умови відбору матеріалу: визначити тип джерела (телебачення, преса, рекламні матеріали, радіо та тощо) Потім потрібно визначити вид повідомлення (публіцистичні статті в електронному або в друкованому вигляді, інформаційні замітки, рекламні плакати) роль агента комунікації (відправник або одержувач повідомлення). Визначаються мінімальні та максимальні границі об'єму тексту, їх протяжності, частота, час, місце і засіб трансляції повідомлень цільовій аудиторії. Існують і інші критерії відбору повідомлень, їх кількість і вибір варіюється залежно від поставлених завдань дослідження. Можна виділити такі проміжні етапи:

2.1. Визначення кола і обсягу документів, що є носіями необхідної інформації (найменування, періодичність виходу, період, тиражі);

2.2. Побудова вибірки: які документи та за якими критеріями будуть аналізуватись;

2.3. Перевірка побудови вибіркової сукупності;

3. Визначення емпіричних моделей аналізу, проведення вибірки (тобто підбір комунікаційних органів, вибір матеріалів за ті чи інші періоди часу, визначення видів повідомлень, типу вибірки);

У разі обмеженої кількості матеріалу по заданій темі, вибіркова сукупність може бути еквівалентна генеральній. Класичне трактування методу аналізу контенту передбачає можливість скорочення вибіркової сукупності повідомлень при їх схожості й однорідності. Це допустимо, якщо обсяг генеральної сукупності дуже великий. Вибірка при дослідженні великих сукупностей даних випадкова. Безумовно, необхідно розрахувати її обсяг так, щоб вона залишалася репрезентативною, важливо визначити допустиму похибку вибірки. Варто додати, що часто обсяг вибіркової сукупності визначається дослідниками, виходячи з понять здорового глузду, доступності матеріалу, терміновості дослідження, а не розрахунком допустимої помилки вибірки та репрезантивності масиву джерел.

4. Розробка методики даного конкретного аналізу;

Можна виділити такі проміжні етапи:

4.1. Класифікація соціальних ситуацій відповідно досліджувальних проблем;

4.2. Визначення одиниць аналізу;

4.3. Перевірка надійності методики.

5. Пілотажне дослідження, перевірка надійності методики;

6. Збір первинної емпіричної інформації;

7. Кількісна обробка зібраних даних;

8. Інтерпретація здобутих результатів, висновки дослідження.

Вибір категорій аналізу

Категорія аналізу контенту -- це поняття, яке показує один з аспектів загального напрямку конкретного дослідження документів.

Вперше поняття «категорії аналізу» ввів М. Уіллі в 20-ті роки нашого століття. Під час проведення дослідження «Провінційна газета» він класифікував зміст за трьома критеріями:

1) тема чи сфера соціальної дійсності;

2) форма (новини, передова стаття та тощо),

3) суміш першого і другого (наприклад, політичні новини).

Ці поняття назвали категоріями. М. Уіллі обгрунтував критерії, за якими виділяються категорії. Треба, щоб їх можна було застосовувати до всіх газет загального порядку, щоб вони давали можливість порівняти різні газети в один час, одну газету у різні часи, різні газети у різні часи (тобто висувається вимога універсальної порівнянності) і щоб ті категорії були об'єктивними і точними, а елемент суб'єктивізму в них був зведений до мінімуму.[6]

У кожному дослідженні -- свої категорії. Адже вибір категорій цілком залежить від цілей дослідження. Категорії показують напрямок аналізу, те, на що дослідник звертає увагу. Від правильного підбору категорій багато в чому залежать загальні підсумки дослідження. Категоріальна мережа -- це своєрідна схема, за якою дослідник проводить свій аналіз.

На цьому етапі можна припуститися двох помилок. Якщо прийняти занадто вузькі категорії, то можна втратити частину змісту, яка в них не увійде. А якщо взяти дуже узагальнені категорії, то багато в чому втрачається оригінальність досліджуваних документів. Вибір категорій -- це суто якісний момент дослідження, на базі якого у подальшому застосовуються кількісні методи.

Вимоги до категорій

Успіх будь-якого контент-аналітичного дослідження багато в чому залежить саме від правильного обрання категорій аналізу. Це обумовлює великі вимоги, які ставляться до категорій.

Оскільки в процесі аналізу відбувається співвіднесення визначених елементів тексту саме з цими категоріями, то дуже важливо, щоб вони були такими:

чітко й однозначно сформульованими (у різних дослідників повинен бути щодо них високий рівень згоди);

вичерпними, тобто такими, які обхоплюють всі частини змісту документа, що визначені завданнями даного дослідження;

взаємовиключними, тобто одні й ті ж самі частини змісту документів не повинні відноситися до різних категорій.

категорії повинні бути об'єктивними, незалежними і надійними, щоб будь-який кодувальник, взявши на озброєння категорії дослідження, розумів їх недвозначно. У нього не повинно виникати питань про те до якої ж категорії віднести ту чи іншу одиницю змісту.

Категорії можуть підрозділятися на більш дрібні якісні одиниці -- підкатегорії. Так, наприклад, категорія «індивідуальні характеристики» може підрозділятися на такі підкатегорії, як зовнішні і внутрішні характеристики тощо.

Саме у такому випадку дослідження не залежатиме від суб'єктивних думок окремих людей, а праця кодувальника буде суто технічною. І, нарешті, категорії повинні бути доцільними, тобто відображати цілі дослідження і зміст об'єкту аналізу.

Виділення одиниць аналізу

Одиниці аналізу -- структурні одиниці, які репрезентовані щодо всього тексту і його окремих істотних частин.[7]

Підставою для виділення одиниць аналізу може слугувати:

цілі та завдання дослідження;

специфіка конкретного об'єкта аналізу, тобто документа.

Одиницями аналізу можуть бути:

Окремі слова, словосполучення, терміни. Наприклад, економічні поняття: ринок, зайнятість, приватизація, управління тощо; політичні: демократія, референдум, вибори, влада тощо;

Теми, повідомлення, висловлені у смислових образах, статтях, частинах тексту, які забезпечують повнішу характеристику змісту документа, ніж попередні одиниці аналізу. Так, теми, в яких розглядаються міжнародне становище України, перехід до ринкових відносин, боротьба зі злочинністю, спосіб життя та здоров'я нації тощо.

Прізвища історичних діячів, політиків, видатних учених і діячів мистецтва, представників різноманітних соціальних спільнот, що є певним узагальненим типом діяча, якому притаманні певні соціальні риси. Їх аналіз дає досліднику важливу інформацію про досліджувану історичну епоху, домінування конкретних політичних, соціально-економічних ідей, впливу певних діячів на формування громадської думки тощо. До цієї групи можна також віднести згадування організацій, закладів, інших соціальних інститутів.

Судження, закінчена думка, логічний ланцюг. Це найбільш складні одиниці аналізу, оскільки мають великий ступінь конструктивності. Їх структура є більш диференційованою, ніж в інших одиницях аналізу, і містить кілька елементів.

Складні види аналізу контенту звичайно оперують не однією, а кількома одиницями аналізу. Одиниці аналізу, які взято ізольовано, можуть бути неправильно витлумачені, тому вони розглядаються на основі більш широких лінгвістичних або змістовних структур, що вказують на характер розчленування тексту в межах якого ідентифікується присутність або відсутність одиниць аналізу - контекстуальних одиниць. Наприклад, для одиниці аналізу «слово» контекстуальна одиниця - «речення».[8]

Необхідно встановити одиницю підрахунку -- кількісну міру взаємозв'язку текстових і позатекстових явищ.

Кількісний та якісний аналіз контенту

Кількісний аналіз має обов'язково включати стандартизовані процедури підрахунку виділених категорій. Для формулювання висновків вирішальне значення мають кількісні величини, які характеризують ту чи іншу категорію. Наприклад, якщо дослідник прагне отримати уявлення про те наскільки значиме поняття «мирне врегулювання» для лідерів ворогуючих сторін і згоден з допущенням, що воно приблизно визначається частотою згадування цього поняття в офіційних промовах, то тоді, після відповідних арифметичних підрахунків, він отримає певні кількісні показники. Показники можуть відрізнятися або, навпаки, бути близькі за абсолютним значенням, яке буде враховуватися при інтерпретації результатів обробки. Завдання можна ускладнити поставивши в якості попередньої умови виділення всіх змістовних у смисловому відношенні одиниць відповідних текстів, а потім підрахувавши відносну значимість даного вираження в порівнянні з іншими. Примітно, що в обох випадках основна частина підрахунків може бути виконана із застосуванням простих комп'ютерних програм.

Якісний аналіз націлений на поглиблене змістовне вивчення текстового матеріалу, в тому числі з точки зору контексту, в якому представлені виділені категорії. Підсумки формулюються тут з урахуванням взаємозв'язків змістовних елементів і їх відносної значущості (рангом) у структурі тексту. Так, для того щоб порівняти ставлення різних політиків до проблеми мирного врегулювання, дослідник повинен прагнути не просто виділити відповідне поняття, а й визначити чи є його проблематика головною в системі декларованих позицій, варіанти її конотації, ступінь деталізації, емоційне забарвлення тощо. Залежно від завдань дослідження якісний аналіз може бути доповнений деякими елементами кількісного аналізу.

Типовий комплекс контент-моніторингу містить такі автоматизовані підсистеми (рис. 1) [39]:

збору і обробки інформації з мережі Інтернет;

забезпечення доступу до повнотекстових баз даних;

аналізу та узагальнення інформації.

Рис. 1. Основні технологічні процеси системи контент-моніторингу

У відповідності своєму основному призначенню, перша підсистема забезпечує:

збір та обробку інформації з різноманітних веб-ресурсів та її форматування;

виявлення ключових слів та понять;

автоматичну рубрикацію;

виявлення змістового дублювання документів;

вибіркове розповсюдження інформації.

Головна задача другої підсистеми -- формування баз даних та забезпечення доступу до неї користувачів, а саме:

формування оперативних та ретроспективних баз даних;

ротація баз даних;

персоналізація роботи користувачів, збереження їх персональних запитів та джерел, ведення статистики роботи;

забезпечення пошуку в базах даних;

генерація вихідних форм;

інформаційна взаємодія з базами даних інших підсистем.

Підсистема аналізу та узагальнення інформації забезпечує:

формування інформаційних портретів;

формування дайджестів;

виявлення тематичних сюжетів;

побудову таблиць взаємозв'язків понять;

розрахунок рейтингів понять.

2.2 Архітектура систем аналізу

Процес відбору необхідної інформації з загального інформаційного потоку вимагає великих затрат часу. Перед людством стала проблема створення інтелектуальних систем пошуку необхідної інформації. Розвиток методів запису і зберігання даних призвело до бурхливого зростання обсягів збираємої і аналізуємої інформації. Обсяги даних настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже в цих «сирих» даних укладені знання, які можуть бути використані при прийнятті рішень. Для того щоб провести автоматичний аналіз даних, використовується Data Mining.

Data Mining -- це технологія виявлення в «сирих» даних раніше невідомих нетривіальних практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності [29]. Data Mining є одним з кроків Knowledge Discovery in Databases.

Інформація, знайдена в процесі застосування методів Data Mining, повинна бути нетривіальною і раніше невідомою. Знання повинні описувати нові зв'язки між властивостями, передбачати значення одних ознак на основі інших і тощо. Знайдені знання повинні бути застосовні і на нових даних з деяким ступенем достовірності. Корисність полягає в тому, що ці знання можуть приносити певну вигоду при їх застосуванні. Знання повинні бути в зрозумілій для користувача не математика вигляді. Наприклад, найпростіше сприймаються людиною логічні конструкції «якщо... то...». Більше того, такі правила можуть бути використані в різних СУБД в якості SQL-запитів. У випадку, коли витягнуті знання непрозорі для користувача, повинні існувати методи постобробки, що дозволяють привести їх до інтерпретуємого виду.

Алгоритми, що використовуються в Data Mining, вимагають великої кількості обчислень. Раніше це було стримуючим фактором широкого практичного застосування Data Mining, проте сьогоднішнє зростання продуктивності сучасних процесорів зняло гостроту цієї проблеми. Тепер за прийнятний час можна провести якісний аналіз сотень тисяч і мільйонів записів.

Завдання, які вирішуються методами Data Mining:

Класифікація -- це віднесення об'єктів (спостережень, подій) до одного з наперед відомих класів.

Регресія, у тому числі завдання прогнозування. Встановлення залежності безперервних вихідних від вхідних змінних.

Кластеризація -- це угрупування об'єктів (спостережень, подій) на основі даних (властивостей), що описують суть цих об'єктів. Об'єкти усередині кластера повинні бути «схожими» один на одного і відрізнятися від об'єктів, що ввійшли в інші кластери. Чим більше схожі об'єкти усередині кластера і чим більше відмінностей між кластерами, тим точніше кластеризація.

Асоціація -- виявлення закономірностей між пов'язаними подіями. Прикладом такої закономірності служить правило, яке вказує, що з події X випливає подія Y. Такі правила називаються асоціативними.

Послідовні шаблони -- встановлення закономірностей між пов'язаними в часі подіями, тобто виявлення залежності, що якщо відбудеться подія X, то через заданий час відбудеться подія Y.

Аналіз відхилень -- виявлення найбільш нехарактерних шаблонів.

Проблеми бізнес аналізу формулюються по-іншому, але рішення більшості з них зводиться до тієї чи іншої задачі Data Mining або до їх комбінації. Наприклад, оцінка ризиків -- це вирішення завдання регресії або класифікації, сегментація ринку -- кластеризація, стимулювання попиту -- асоціативні правила. Фактично, завдання Data Mining є елементами, з яких можна зібрати рішення переважної більшості реальних бізнес завдань.

Для вирішення вищеописаних задач використовуються різні методи і алгоритми Data Mining. З огляду на те, що Data Mining розвивався і розвивається на стику таких дисциплін, як статистика, теорія інформації, машинне навчання, теорія баз даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів з цих дисциплін. Наприклад, процедура кластеризації k-means була просто запозичена з статистики. Велику популярність отримали такі методи Data Mining як нейронні мережі, дерева рішень, алгоритми кластеризації, в тому числі і масштабовані, алгоритми виявлення асоціативних зв'язків між подіями тощо [44].

Пошук в мережевому середовищі може стати більш ефективним за рахунок технологій глибинного аналізу текстів (Text Mining), знаходження в текстах аномалій і трендів. Розроблені на основі статистичного і лінгвістичного аналізу, а також методів штучного інтелекту, технології Text Mining призначені для проведення смислового аналізу. Завдання -- вибирати з текстів найбільш ключову і значущу інформацію для користувачів [35,50]. Важлива компонента технологій Text Mining пов'язана з витягом з тексту характерних елементів або ознак, які можуть використовуватися в якості ключових слів, метаданих, анотацій. Ще одне завдання Text Mining -- віднесення документів до деяких категорій із заданої схеми їх систематизації. Крім того, Text Mining -- це новий вид пошуку, який на відміну традиційних підходів не тільки знаходить списки документів, формально релевантні запитам, але і допомагає в розумінні змісту текстів. Таким чином, користувачеві не потрібно буде самому «просіювати» величезну кількість неструктурованої інформації. Text Mining -- це алгоритмічне виявлення раніше невідомих зв'язків у вже наявних даних. Застосовуючи Text Mining, користувачі можуть отримувати нову цінну інформацію -- знання.

Слід зауважити, що технології глибинного аналізу тексту історично передувала технологія видобутку даних (Data Mining), методологія та підходи якої широко використовуються і в методах Text Mining.

Сформувавшись в середині 90-х років ХХ століття як напрямок аналізу неструктурованих текстів, технології Text Mining відразу ж взяла на озброєння методи Data Mining, такі як класифікація або кластеризація. В Text Mining з'явилися і додаткові можливості, такі як автоматичне реферування текстів і виявлення феноменів -- понять і фактів. Можливості сучасних систем Text Mining можуть застосовуватися при управлінні знаннями для виявлення шаблонів в текстах, для автоматичного «проштовхування» або розподілу інформації з потрібних користувачам профілів, створення оглядів.

Одне з джерел концепції Text Mining -- контент-аналіз. Поняття контент-аналізу, коріння якого йдуть у психологію і соціологію, не має однозначного визначення:

Контент-аналіз -- це методика об'єктивно якісного та систематичного вивчення змісту засобів комунікації.

Контент-аналіз -- це систематична числова обробка, оцінка та інтерпретація форми та змісту інформаційного джерела.

Контент-аналіз -- це якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і строгістю процедури й полягає в квантифікованій обробці тексту з подальшою інтерпретацією результатів.

Контент-аналіз полягає в знаходженні в тексті певних змістовних понять (одиниць аналізу), виявленні частоти їх появи і співвідношення з вмістом всього документа.

Більшість з наведених визначень конструктивні, але через різні початкові посилання вони породжують різні, іноді суперечливі алгоритми.

Прийнято розділяти методології контент-аналізу на дві області: якісну і кількісну. Основа кількісного контент-аналізу -- частота появи в документах певних характеристик змісту (понять, феноменів). Якісний контент-аналіз грунтується на самому факті присутності або відсутності в тексті однієї або кількох характеристик змісту.

Відповідно до вже сформованої методології, до основних елементів Text Mining відносяться: класифікація, кластеризація, вилучення фактів, понять, реферування, відповідь на запити, тематичне індексування і пошук за ключовими словами.

При класифікації текстів використовуються статистичні кореляції для розміщення документів в певні категорії. Завдання класифікації -- це класична задача розпізнавання, де за деякою контрольною вибіркою система відносить новий об'єкт до тієї чи іншої категорії. Особливість класифікації в рамках концепції Text Mining полягає в тому, що кількість об'єктів і їх атрибутів може бути дуже великою, тому повинні бути передбачені механізми оптимізації цього процесу.

На відміну від класифікації, при кластеризації заздалегідь не фіксуються певні категорії. Результатом кластеризації є автоматичне групування інформації, в результаті якої створюються класифікаційні схеми, що забезпечують ефективне охоплення великих обсягів даних. Кластеризація в Text Mining розглядається як процес виділення компактних підгруп об'єктів з близькими властивостями. При кластеризації система повинна самостійно знайти ознаки і розділити об'єкти по групах. Кластеризація, як правило, передує класифікації, оскільки дозволяє визначати групи об'єктів.

Text Mining передбачає також побудову семантичних мереж, аналіз зв'язків, які визначаються появою дескрипторів (наприклад, ключових слів) в текстах.

Крім того, існує ще кілька завдань технології Text Mining, наприклад, прогнозування, яке полягає в тому, щоб передбачити за значеннями одних ознак тексту значення інших. Ще одне завдання -- знаходження винятків, тобто пошук документів, які своїми характеристиками виділяються із загальної маси [33]. Для цього спочатку з'ясовуються середні параметри документів, а потім досліджуються ті документи, параметри яких найбільш сильно відрізняються від середніх значень. Зазвичай пошук винятків найчастіше проводиться після класифікації або кластеризації для того щоб з'ясувати, наскільки останні були точні.

Окремо від завдання кластеризації стоїть завдання пошуку пов'язаних ознак (ключових слів, понять) окремих документів. Від прогнозу ця задача відрізняється тим, що заздалегідь невідомо, за якими саме ознаками реалізується взаємозв'язок -- мета саме в тому і полягає, щоб знайти зв'язки ознак. Це завдання схоже з кластеризацією, але не по безлічі документів, а по безлічі ознак.

Витяг понять з тексту є технологією, що забезпечує отримання інформації в структурованому вигляді. В якості структур можуть запитуватися як відносно прості поняття (ключові слова, персони, організації, географічні назви), так і більш складні, наприклад, ім'я персони, її посада в конкретній організації і т.п.

Дана технологія включає три основні методи:

Entity Extraction -- вилучення слів або словосполучень, важливих для опису змісту тексту. Це можуть бути списки термінів предметної області, персон, організацій, географічних назв, та ін;

Feature Association Extraction -- простежування зв'язків між витягнутими поняттями;

Event and Fact Extraction -- витяг сутностей, розпізнавання фактів і подій.

Технологія витягу понять заснована на застосуванні спеціальних семантико-лінгвістичних методів, які дають можливість отримувати прийнятну точність і повноту.

Слід зазначити, що підходи до вилучення різних типів понять із текстів істотно відрізняються як по контексту їх подання, так і за структурними ознаками. Так, для виявлення приналежності документа до тематичної рубрики можуть використовуватися спеціальним чином складені запити на інформаційно-пошукових мовах, що включають логічні і контекстні оператори, дужки і т.д. Виявлення географічних назв передбачає використання таблиць, в яких крім шаблонів написання цих назв використовуються коди та назви країн, регіонів і окремих населених пунктів.

Виявлені поняття можуть служити основою для побудови багатопрофільних інформаційних портретів або інтерактивних ситуаційних карт (мереж, вузлами якої є поняття, а ребрами -- інформаційні зв'язки між ними), що відповідають запитам користувачів. Безпосередньо за даними, представленими на ситуаційній карті, що відбиває найбільш актуальні поняття (терміни, тематичні рубрики, географічні назви, прізвища персон, назви компаній) можливе виявлення взаємозв'язків, тобто самі ситуаційні карти можуть служити вихідними даними для побудови мереж взаємозв'язків понять.

Оскільки веб-джерела, як правило, не є текстовими даними, то і підходи до процесу отримання даних відрізняються в цьому випадку. У першу чергу необхідно пам'ятати, що інформація в інтернеті зберігається у вигляді спеціальної мови розмітки HTML, веб-сторінки можуть мати додаткову метаінформацію, а також інформацію про структуру (семантику) документа, кожен веб-документ знаходиться всередині деякого домену і до нього можуть застосовуватися правила пошукової оптимізації. Тож для цього використовується технологія Web Mining, яка з'явилася не так давно.

Web Mining -- застосування методів і алгоритмів Data Mining для виявлення і пошуку залежностей і знань у мережі Інтернет [27].

Всі сайти мережі Інтернет зберігаються на веб-серверах. Щоб отримати сторінку сайту, браузер посилає запити на веб-сервер. У відповідь на них повертаються файли, необхідні для формування інтернет-сторінки у вікні браузера.

Завантаживши сторінку, користувач переглядає наявну на ній інформацію. Після чого він може перейти на іншу відповідно до структури сайту, зв'язку в якій встановлюються за допомогою гіперпосилань. Для зручності навігації сторінки можуть бути об'єднані в категорії, а вони в свою чергу в розділи.

Всередині категорій між сторінками може бути різноманітна структура (ієрархічна, послідовна, мережна). На більшості сайтів передбачений швидкий перехід з будь-якої сторінки на головну. Залежно від обраної структури користувач переміщується з однієї сторінки на іншу. На рис. 2 зображено фрагмент структури сайту, де сторінки пронумеровані згідно з порядком їх перегляду.

Рис. 2. Шлях користувача на сайті

Можна помітити, що між п'ятою та шостою сторінками прямого посилання немає, але виходячи зі структури абсолютно очевидно, що після п'ятої сторінки користувач повернувся до першої.

Виходячи з перерахованих особливостей розміщення інформації в мережі Інтернет виникають різні складнощі аналізу веб-даних.

Всесвітня мережа зараз містить величезну кількість інформації, знань. Користувачі на різних умовах можуть переглядати різноманітні документи, аудіо-і відеофайли. Однак це різноманіття даних приховує в собі проблеми, які можуть виникнути не тільки при аналізі, але і при пошуку необхідної інформації в Інтернет.

Проблема пошуку потрібної інформації пов'язана з тим, що користувач не завжди відразу може знайти необхідні йому електронні ресурси. Лише невеликий відсоток посилань серед запропонованих пошуковими системами приводить до необхідних документів. Також важко шукати неіндексовану інформацію такими засобами.

Проблема виявлення нових знань. Навіть якщо знайдено безліч інформації, для користувача витяг корисних знань є досить трудомістким і непростим завданням. Сюди ж можна і віднести складності, пов'язані з осмисленням відомостей, поняттям тих ідей, які були вкладені авторами.

Проблема вивчення споживачів пов'язана з наданням користувачеві інформації, яка була б йому цікава. Це особливо актуально для електронних торговельних порталів, які могли би «підказувати» користувачеві при виборі товару.

У Web Mining можна виділити наступні етапи:

вхідний етап -- одержання «сирих» даних із джерел (логи серверів, тексти електронних документів);

етап перед обробки -- дані представляються у формі, необхідної для успішної побудови тієї чи іншої моделі;

етап моделювання;

етап аналізу моделі -- інтерпретація отриманих результатів.

Це загальні кроки, які необхідно пройти для аналізу даних мережі Інтернет. Конкретні процедури кожного етапу залежать від поставленого завдання. У зв'язку з цим виділяють різні категорії Web Mining, до яких Web Mining належать: аналіз використання веб-ресурсів, витяг веб-структур та витяг веб-контенту [1].

Аналіз використання веб-ресурсів грунтується на витягу даних з логів веб-серверів. Метою аналізу є виявлення переваг відвідувачів при використанні тих чи інших ресурсів мережі Інтернет.

Тут вкрай важливо здійснити ретельне передопрацювання даних: видалити зайві записи лога, які не цікаві для аналізу.

Витяг веб-структур розглядає взаємозв'язок між веб-сторінками, грунтуючись на зв'язках між ними. Побудовані моделі можуть бути використані для категоризації веб-ресурсів, пошуку схожих і розпізнавання авторських сайтів.

В залежності від поставленої задачі структура сайту моделюється з певним рівнем деталізації. У найростішому випадку гіперпосилання представляють у вигляді спрямованого графа:

G = (D, L),

де D -- це набір сторінок, вузлів або документів; L -- набір посилань.

Витяг веб-структур може бути використано як підготовчий етап для вилучення веб-контенту.

Витяг веб-контенту вирішує непросте і трудомістке завдання пошуку знань в мережі Інтернет. Воно засноване на поєднанні можливостей інформаційного пошуку, машинного навчання і Data Mining.

Аналізується зміст документів: перебувають схожі за змістом слова та їх кількість. Потім вирішується завдання кластеризації або класифікації. Так документи групуються за смисловою близькістю.

Цей напрямок може бути використано для оптимізації пошуку індексованих документів [4].

Загальний взаємозв'язок між категоріями Web Mining і завданнями Data Mining зображена на рис. 3.

Рис. 3. Категорії Web Mining і завдання Data Mining

У бізнес-аналітиці Web Mining вирішує наступні завдання:

опис відвідувачів сайту (кластеризація, класифікація);

опис відвідувачів, які здійснюють покупки в інтернет-магазині (кластеризація, класифікація);

визначення типових сесій і навігаційних шляхів користувачів сайту (пошук популярних наборів, асоціативних правил);

визначення груп або сегментів відвідувачів (кластеризація);

знаходження залежностей при користуванні послугами сайту (пошук асоціативних правил).

Усі описані вище технології ґрунтуються на первинній технології Data Mining. Вони можуть реалізуватися із застосуванням самонавчаючихся систем, до складу яких входять нейронні мережі, дерева рішень, словники, алгоритми кластеризації, семантичні мережі зв'язків між словами та словосполученнями і по суті базуються на одних і тих самих алгоритмах і принципах. Вони направлені в основному на величезні обсяги різнорідної інформації, яку необхідно класифікувати, побудувати зв'язки та зробити певні висновки (наприклад, прогнозування).

2.3 Технології аналізу

У системах інформаційного моніторингу більш вузько направленого характеру можуть використовуватися більш спрощені способи інтеграції контенту. Для того, щоб виділити в усьому об'ємі інформації потрібні дані використовується синтаксичний аналіз або його ще називають парсингом.

Синтаксичний аналіз -- це процес зіставлення лінійної послідовності лексем (слів, токенів) мови з її формальною граматикою. Результатом зазвичай є дерево розбору (синтаксичне дерево). Звичайно застосовується спільно з лексичним аналізом. Синтаксичний аналізатор або парсер -- це програма або частина програми, що виконує синтаксичний аналіз [7].

При парсингу вихідний текст перетворюється в структуру даних, зазвичай -- в дерево, яке відображає синтаксичну структуру вхідної послідовності і добре підходить для подальшої обробки.

Як правило, результатом синтаксичного аналізу є синтаксична структура пропозиції, представлена ??або у вигляді дерева залежностей, або у вигляді дерева складових, або у вигляді деякої комбінації першого і другого способів подання.

Все, що має «синтаксис», піддається автоматичному аналізу:

мови програмування -- розбір вихідного коду мов програмування, в процесі трансляції (компіляції або інтерпретації);

структуровані дані -- дані, мови їх опису, оформлення тощо. Наприклад, XML, HTML, CSS, ini-файли, спеціалізовані конфігураційні файли тощо;

SQL-запити (DSL-мова);

математичні вирази;

регулярні вирази (які, в свою чергу, можуть використовуватися для автоматизації лексичного аналізу);

формальні граматики;

лінгвістика -- людські мови. Наприклад, машинний переклад та інші генератори текстів.

Існує дві основні стратегії синтаксичного аналізу:

низхідна (top-down parsing), коли для даної пропозиції, виходячи з початкового символу граматики, будують висновок;

висхідна (bottom-up parsing), коли даної пропозиції, виходячи з символів самої пропозиції (терміналів), будують розбір.

Таким чином, розрізняють спадні і висхідні аналізатори.

Для того, щоб уявити, як це працює технічно, у якості прикладу можна розглянути як працює спадний аналіз. Для цього граматику необхідно замінити скороченою еквівалентною граматикою.

Розпізнавання сентенціальний форми в нашій мові можна виконати алгоритмом, який реалізується кінцевим автоматом, а розпізнавач для нашої мови з кінцевим числом станів можна представити у вигляді таблиці з двома входами, яка представляє собою специфічний запис набору породжуючих правил, причому число рядків станів таблиці дорівнює числу нетермінальних символів, а число стовпців -- числу термінальних символів граматики. Початковий стан -- початковий символ граматики. У клітинах таблиці записані наступні стани для даної пари входів, порожні клітини -- помилки [47].

Відмітна риса низхідного аналізу -- це цілеспрямованість. На кожному кроці аналізу спадні розпізнавачі формують мету -- знайти висновок, що починається з деякого нетермінального символу і породжує частину вхідного рядка. Розпізнавач намагається досягти цієї мети шляхом спрямованого перебору різних можливостей. Основна ідея спадного аналізу в наступному: починаючи процес аналізу вхідного рядка S1, S2..., Sn, розпізнавач виходить з припущення, що цей рядок є реченням вхідної мови. Звідси випливає головна мета аналізу -- знайти висновок (побудувати дерево).

Якщо існує такий висновок, то існують і проміжні породжуючі правила, але для кожного нетермінального символу в граматиці може бути кілька правил з різними правими частинами і яке саме правило слід застосувати, заздалегідь не відомо. При невдалому виборі правила, допоміжна мета може виявитися недосяжною, тоді потрібно спробувати застосувати інше правило. Можливі випадки, коли для будь-якої допоміжної мети всі правила призводять до невдачі. Опис процесу завершується, коли знайдений кінцевий висновок (ланцюжок) або коли встановлено, що цього висновку не існує, тобто вхідний рядок не є реченням цієї мови. Зазвичай спадний розпізнавач переглядає символи, що входять у рядки і символи в правій частині застосовуючи правило «зліва -- направо». Такі розпізнавачі називають лівобічними [8].

В пам'яті машини правила формальної граматики можуть зберігатися у вигляді синтаксичних таблиць.

Перекладачі широко застосовують комбінацію низхідних і висхідних методів синтаксичного аналізу. Наприклад, низхідний аналіз виділяє відносно великі синтаксичні конструкції (різні описи, оператори), кожен з яких потім аналізується детальніше методами висхідного аналізу.

Загальна ідея висхідного аналізу полягає в наступному: вхідний текст розглядається як рядок символів, розпізнавач описує частину рядка, яку можна звести до нетермінального символу, таку частину рядка називають фразою. Фразу, що прямо приводиться до нетермінального символу, називають такою, безпосередньо приводимою. У більшості висхідних розпізнавачів відшукується найлівіша безпосередньо приводима фраза, яка називається основою. Основа замінюється нетермінальним символом, у знову отриманому рядку знову відшукується основа, яка також замінюється нетермінальним символом і так далі. процес триває або до отримання початкового символу, або до встановлення неможливості приведення рядка до початкового символу. Послідовність проміжних рядків, яка закінчується початковим символом утворює розбір. Якщо рядок не приводиться до початкового символу, то вхідна програма синтаксично некоректна, тобто не є формою цієї мови [9].

Другою складовою методів опрацювання текстової інформації є лексичний аналіз, основною задачею якого є розбиття вхідного тексту, що складається з послідовності одиночних символів, на послідовність слів, або лексем, тобто виділити ці слова з безперервної послідовності символів. Усі символи вхідної послідовності з цієї точки зору поділяються на символи, що належать будь-яким лексемам, і символи, що розділяють лексеми (роздільники). У деяких випадках між лексемами може і не бути роздільників. З іншого боку, в деяких мовах лексеми можуть містити незначні символи [46].

Зазвичай всі лексеми поділяються на класи. Прикладами таких класів є числа (цілі, вісімкові, шістнадцяткові, дійсні і т.д.), ідентифікатори, рядки. Окремо виділяються ключові слова і символи пунктуації (іноді їх називають символи-обмежувачі). Як правило, ключові слова -- це деяка кінцева підмножина ідентифікаторів. У деяких мовах сенс лексеми може залежати від її контексту і неможливо провести лексичний аналіз у відриві від синтаксичного.

З точки зору подальших фаз аналізу лексичний аналізатор видає інформацію двох сортів: для синтаксичного аналізатора, що працює слідом за лексичним, істотна інформація про послідовність класів лексем, обмежувачів і ключових слів, а для контекстного аналізу, що працює слідом за синтаксичним, важлива інформація про конкретні значеннях окремих лексем (ідентифікаторів, чисел і т.д.).

Таким чином, загальна схема роботи лексичного аналізатора така. Спочатку виділяється окрема лексема (можливо, використовуючи символи-роздільники). Ключові слова розпізнаються або явним виділенням безпосередньо з тексту, або спочатку виділяється ідентифікатор, а потім робиться перевірка на приналежність його безлічі ключових слів [57].

Якщо виділена лексема є обмежувачем, то він (точніше, певна його ознака) видається як результат лексичного аналізу. Якщо виділена лексема є ключовим словом, то видається ознака відповідного ключового слова. Якщо виділена лексема є ідентифікатором -- видається ознака ідентифікатора, а сам ідентифікатор зберігається окремо. Нарешті, якщо виділена лексема належить якомусь з інших класів лексем (наприклад, лексема представляє собою число, рядок і т.д.), то видається ознака відповідного класу, а значення лексеми зберігається окремо.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.