Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних навчальних закладів

Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.

Рубрика Программирование, компьютеры и кибернетика
Вид магистерская работа
Язык украинский
Дата добавления 14.06.2013
Размер файла 1,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

контент-аналіз рекомендується при обробці великих корпусів текстів;

даний метод має високу швидкість обробки текстових даних;

метод контент-аналізу дозволяє використовувати строгий математичний апарат;

контент-аналіз дозволяє використовувати високий ступінь автоматизації. У цілому, як наголошується в джерелі, контент-аналіз - є одним з найбільш потужних засобів позалінгвістичного аналізу текстової інформації.

2.2 Методи захисту від копіювання текстової інформації в Інтернеті

Використання JavaScript для відключення можливості копіювання текстового матеріалу:

Відключення контекстного меню, що викликається натисканням правої кнопки миші;

Очищення кожні кілька секунд буфера обміну;

Висновок всього текстового матеріалу на html сторінку через JavaScript, що можна зашифрувати за допомогою JSCoder. Варіант обходу: Відключення JavaScript.

Використання Flash-технології; Варіант обходу: Декомпіляція Flash-файлів (FlashSaver).

Використання спеціальних комплексних систем захисту контенту (HTML Guardian, StarForce); Варіант обходу: Використання браузера відмінного від Internet Explorer,

Переклад текстового матеріалу в графічний; Варіант обходу: Отримання зображень, що містять текстовий матеріал, з кешу браузера з подальшим розпізнаванням,

Одним з поширених в даний час в мережі Інтернет способів труднощі копіювання текстової інформації є заміна літер з одного алфавіту, на однаково виглядають літери з іншого алфавіту. Таким чином, після копіювання, плагіатору належить вручну замінювати літери.

Варіант обходу: Використання відповідних скриптів, що дозволяють в автоматичному (автоматизованому) режимі робити зворотну заміну букв.

Варіанти обходу методів захисту:

роздрукувати html сторінку і розпізнати;

передрукувати текстовий матеріал з екрану комп'ютера;

зробити екранну копію (Screenshot) й розпізнати;

зробити знімок на цифрову камеру і розпізнати;

завантажити сайт (сторінку) цілком з сервера.

2.3 Алгоритми пошуку точного збігу

При вирішенні завдання порівняння текстової інформації та обчислення коефіцієнта схожості, заснованого на кількісної характеристиці, пов'язаної з однаковими фрагментами текстів, доцільно звернутися до класу алгоритмів пошуку текстової інформації [1]. Позначимо рядок, в якій буде проводитися пошук у, а довжину рядка рівній n. Шуканий рядок позначимо як х, а довжину шуканого рядка рівній т.

До класу алгоритмів точного пошуку підрядка в рядку відносяться: Алгоритм Боуер-Мура (Воуег-Мооге): Даний алгоритм має відносно низьку швидкість пошуку при обробці рядків з алфавітом, що містить невелику кількість символів. Тобто, час роботи алгоритму збільшується при находженні великої кількості збігів символів. При цьому кількість операцій пропорційно n-m. Збільшення розміру алфавіту і х призводить до збільшення швидкості роботи алгоритму. Найменшу можливу кількість операцій порівняння при пошуку слова в ЕВ тексті для алгоритму Боуер-Мура становить С * n / m, де С приблизно дорівнює 0,2 для алфавітів природної мови. А середня кількість операцій порівняння необхідне для виконання пошуку цього алгоритму наближене до С (n + m) Розглянутий алгоритм складається з двох частин:

1. попередня обробка шуканої рядки і побудова таблиць;

2. безпосередньо пошук, з використанням отриманих на першому етапі таблиць.

Одна з головних ідей даного алгоритму полягає в тому, що пошук в тексті робиться в зворотному напрямку. Тобто пошук слова проводиться справа наліво в початковому тексті.

Розглянута нижче ситуація проілюстрована на малюнку 2.4.1 Якщо при порівнянні символи вихідного тексту не співпали з символами шуканого слова: але при цьому в i-ій позиції слова зустрічається шуканий символ: у к + m = xi, і виконується умова того, що далі (лівіше) у шуканому слові знайдений символ більше не зустрічається: у до + m = Xj; 1 <j <i. Тоді мінімальний зсув шуканого слова вправо для поєднання символу х. з шуканого слова з символом з вихідного тексту у к + m становить mi.

Рис. 2.1 Розбіжність правої частині шуканого слова за алгоритмом Боуер-Мура.

Однак якщо при перших декількох порівняннях символи в тексті в потрібному слові збігалися, а в i-ій позиції слова виявлена розбіжність, то згідно з алгоритмом визначається величина, на яку слово не має сенс зрушувати. Описана ситуація представлена на малюнку 2.2 Розробники алгоритму виходили з міркувань, що якщо символ у слові та тексті збіглися, то марно зміщувати слово на відстань до відрізняються від них символів, так як все одно буде виявлено незбіг.

Рис. 2.2 Збіг правій частині шуканого слова за алгоритмом Боуер-Мура.

Одним з основних недоліків розглянутого алгоритму є необхідність обов'язкового знання всього алфавіту аналізованих рядків.

Алгоритм Кнута-Морріса-Пратта (Knuth-Morrls-Pratt): Даний алгоритм, також як і алгоритм Боуер-Мура, заснований на попередньому аналізі шуканої рядка. Кількість порівнянь в алгоритмі пропорційно сумі довжин шуканої рядка і тексту, тобто С (n + m). При ЦЬОМУ трудомісткість попередньої обробки безпосередньо залежить від довжини шуканої рядка X і вимагає С m операцій порівняння. У даному алгоритмі використовується метод порівняння зліва направо. При цьому зміщення шуканого слова щодо тексту відбувається вправо за умови, що виявлена ??розбіжність порівнюваних символів, або знайдено повний збіг (входження) шуканого слова. На відміну від найпростішого методу порівняння зрушення шуканого слова може здійснюватися відразу на кілька позицій. При цьому мінімальна величина зсуву дорівнює одиниці, а максимальна - дорівнює довжині шуканого слова. Після зміщення слова щодо тексту порівняння відбувається починаючи з позиції покажчика (номер символу тексту підлягає порівнянні). Слід зауважити, що покажчик не завжди посилається на перший символ у слові. Інформація про те, на який символ буде посилатися покажчик після зсуву, а так само про те, на скільки треба здійснювати цей зсув зберігається в спеціальній таблиці, яка формується на першому етапі роботи алгоритму. У середньому, трудомісткість попередньої обробки відбувається на першому етапі роботи алгоритму Кнута-Морріса-Пратта становить С n операцій порівняння.

Слід зазначити, що описані два алгоритми є базовими для більшості алгоритмів швидкого пошуку. Так, наприклад, алгоритм Боуер-Мура ліг в основу наступних алгоритмів:

алгоритм Хорспула;

алгоритм Турбо-БМ;

алгоритм "максимального зсуву" і

алгоритм "оптимального неспівпадання".

На основі алгоритму Кнута-Морріса-Пратта був розроблений алгоритм Colussi. Існують також більш специфічні алгоритми точного пошуку: алгоритм Турбо-звернення сегмента, Здвиг-АБО, алгоритм Карпа-Рабіна та інші.

2.4 Алгоритми пошуку спільних підпослідовностей

Підпослідовність можна отримати з деякою кінцевої по-послідовності, якщо видалити з неї деякий безліч її елементів.

При цьому кількість видаляються елементів може дорівнювати нулю. Також слід зазначити, що видаляються елементи можуть розташовуватися не підряд.

Послідовність Z є спільною підпослідовність послідовностей X і Y, якщо Z є підпослідовності як для X, так і для Y. Таким чином, загальною підпослідовність двох рядків є рядок-підпослідовність для кожної з двох рядків. Найдовша з таких рядків-підпослідовностей є найдовшою загальної підпослідовність. Слід зазначити, що деякі з перерахованих нижче алгоритмів безпосередньо використовують обчислення відстані редагування і рас-стояння Левенштейна.

В даний час найбільшого поширення набули наступні алгоритми [2]:

алгоритм Вагнера і Фішера;

алгоритм Мазек і Патерсона;

алгоритм Укконен;

алгоритм Хіршбергом;

алгоритм Ханта-Шиманського.

Алгоритм, запропонований Вагнером (Wagner) u Фішером (Fisher), спиратися на метод динамічного програмування. Основною ідеєю алгоритму є обчислення відстаней між все більш довгими префіксами порівнюваних рядків. Тобто, обчислюється відстань редагування між префіксами слів на основі значення відстаней редагування для більш коротких префіксів. Для виконання порівняння двох рядків необхідно виконати С (n + т) операцій порівняння. А розмірність таблиці, в якій зберігаються відстані редагування, становить (m + l) - (n + l). Мазек (Masek) і Патерсон (Paterson) в 1980 році запропонували алгоритм, складність якого становить порядку . Слід зауважити, що Майєрс (Myers) вважав, що це єдиний алгоритм здатний менш ніж за С (n + т) в гіршому випадку обробити рядка.

Даний метод вимагає субквадратічне часу для порівняння двох рядків. Так, наприклад, за умови рівності довжин порівнюваних рядків часу в гіршому випадку буде потрібно . Описуваний алгоритм використовує метод "чотирьох росіян" (Арлазаров, Дініц, Кронрод і Фараджев), запропонований в 1970 році. Основна ідея алгоритму полягає в розбитті матриці відстаней на сукупність підматриць. Їх нижні і праві краї можна потім вирахувати по аналогічних краях підматриць, що примикають до поточної подматріца зверху і зліва, і відповідним підстроками за допомогою попередньо обчисленої таблиці. Головними обмеженнями описаного алгоритму є необхідність кінцевого алфавіту, а також, щоб цінові ваги були цілими множниками фіксованого дійсного числа. Але, як справедливо відзначається в роботі, витрати запропонованого алгоритму досить великі. Отже, отримати виграш за часом порівняння можна тільки на довгих рядках. І автори аналізованого алгоритму в 1983 самі вказали на те, що запропонований алгоритм слід використовувати тільки для дуже довгих рядків. Так при обчисленні відстані редагування між двома бінарними рядками він починає перевершувати за швидкістю обробки інші алгоритми, тільки коли довжини рядків перевершують 262418. Алгоріпт Уккопепа (Ukkonen), опублікований в 1985 році стосовно аналізованої дисертаційній роботі не може бути застосований.

Відмітною особливість даного алгоритму є необхідність малого відстані між порівнюваними рядками. Тільки при виконанні описаного умови алгоритм Укконен є більш ефективним. Розглянутий алгоритм спрямований на обчислення відстані між двома рядками і заснований на методі динамічного програмування. При цьому витрати часу і пам'яті складають С (n + m), де d - це відстань між порівнюваними рядками х і у. У якості т приймається найменша з порівнюваних рядків довжина. Таким чином, час роботи алгоритму прямо пропорційно відстані між порівнюваними рядками. Основною ідеєю алгоритму вважається усічення зайвих обчислень при пошуку самого "дешевого" шляху в направленому графі в матриці. Алгоріпш Хіршбергом (Hirschberg), запропонований в 1975 році є модернізованим алгоритмом Вагнера (Wagner) і Фішера (Fisher), який був запропонований ними за рік до цього. При детальному розгляді алгоритму Вагнера і Фішера стає зрозуміло, що вимоги до пам'яті у цього алгоритму становлять близько С (n + m). Хіршберг удосконалив алгоритм для більш ефективної роботи з довгими рядками.

Йому вдалося домогтися лінійної залежності використовуваної пам'яті С (n + m). Основна ідея алгоритму полягає в тому, що аналізується НЕ відстань між двома рядками х до у, а. між найдовшими загальними підпослідовність - Longest Сопшюп Subsequence (Ics). Таким чином, в алгоритмі Хіршбергом замість відстаней між рядками обчислюються довжини найдовших спільних підпослідовностей у все більш і більш довгих префіксів. Незважаючи на те, що даний алгоритм дозволяє знизити витрати пам'яті до С * (n + m), тимчасові витрати і раніше становлять С * (n * m). Алгоритм XanmaiHimt) і Шімапского (Szymanski), запропонований в 1977 році, також є алгоритмом, заснованим на пошуку Ics. Даний алгоритм заснований на ідеї пошуку максимального монотонно зростаючого шляху на графі. Час витрачений на порівняння 2-х рядків однакової довжини становить . Слід зазначити, що на основі їх алгоритму пізніше були запропоновані удосконалення. Так, наприклад, в 1987 році з'явився алгоритм апостолики (Apostolico) і Гуерра (Guerra), в основі якого лежав ал-горітм Ханта-Шиманського.

2.6 Алгоритми обчислення відстані між рядками

При порівнянні двох текстів іноді доцільно використовувати деякий чисельний коефіцієнт, який характеризує схожість / відмінність цих текстів. При цьому текстовий фрагмент може бути представлений у вигляді однієї довгої рядки, або під рядком може розумітися одну пропозицію з тексту, або окреме слово. Для визначення відстані між рядками (метрики) можна скористатися алгоритмами 2-х класів:

порівняння рядків однакової довжини;

порівняння рядків різної довжини.

Яскравим представником класу алгоритмів визначення відстані між рядками однакової довжини, є алгоритм обчислення відстані Хеммінга (Hamming). Відстань між двома рядками однакової довжини дорівнює числу розрізняються символів, розташованих у рядках в однакових позиціях, що рівнозначно мінімальній ціні перетворення одного рядка в іншу у разі, коли можлива виключно операція заміни з одиничним вагою. При цьому алгоритми першого класу, в загальному випадку, практично незастосовні для поставленої задачі з огляду на те, що ми не можемо гарантувати однакову довжину порівнюваних рядків (текстів, пропозицій, слів).

До другого класу належить відстань Лееетшпейна (Levensteui). У цьому випадку стає можливим порівняння рядків різної довжини, завдяки тому, що доступними є операції: заміна, видалення, вставка.

При цьому кожна з перерахованих операцій має одиничний вагу.

Відстань редагування також відноситься до другого класу алгоритмів і навіть багато в чому схоже з відстанню Левенштейна. Однак, до доступним операціями з одиничним вагою відносяться тільки додавання і видалення, а операція заміни має вагу - два. Це пов'язано з тим, що операція заміни може бути представлена у вигляді комбінації двох одиничних операцій (додавання нового символу + видалення старого символу). При тестуванні трьох найбільш поширених програмних реалізацій обчислення відстані Левенштейна були наступні результати: при порівнянні двох схожих сторінок тексту, кожна з яких містила приблизно 2400 символів, швидкість обчислення відстані Левенштейна склала від АЛЕ до 390 мс. залежно від конкретної реалізації. При порівнянні таких же обсягів текстової інформації, але абсолютно однакового тексту, час обчислення коливалося від 140 до 530 мс. Однак коли аналізу піддалися два абсолютно різних тексту, то час знаходження відстані зросла до 220-740 мс.

Також було отримано співвідношення, що показує, що при збільшенні обсягу аналізованого тексту в 15 разів час обчислення відстані Левенштейна зростає в кращому випадку в 520 разів! Отже, порівняння текстової інформації шляхом обчислення відстані Левенштейна не може бути оптимальним за умови, що порівнювані тексти з великою ймовірністю значно відрізняються один від одного, а також при порівнянні текстового матеріалу за обсягом перевищує кілька сторінок. До обмежень застосовності методів обчислення відстані редагування і відстані Левенштейна можна віднести те, що дані методи не дозволяють отримати повну інформацію про те, в якому місці оброблюваних рядків відбулося повне збіг.

Таким чином, відсутня можливість видати користувачеві системи детальну інформацію про фрагменти повного збігу, що говорить про часткову невідповідність поставленого завдання. Незважаючи на той факт, що обчислення відстані Левенштейна для всього тексту не є ефективним для визначення запозичень, варто відзначити доцільність застосування алгоритмів обчислення відстані між рядками для окремих елементів порівнюваних тестів.

Проте, ідея обчислення відстані редагування і відстані Левенштейна лежить в основі багатьох відомих алгоритмів. До їх числа відносяться описані в розділі "Алгоритми пошуку спільних підпослідовностей" алгоритми Вагнера і Фішера, Мазек і Патерсона, Укконен, Хіршбергом, Ханта-Шиманського.

2.7 Алгоритми нечіткого пошуку

Технології нечіткого пошуку дозволяють позбутися від необхідності дотримання повної тотожності між порівнюваними об'єктами. Алгоритми нечіткого пошуку дозволяють знайти всі лексикографічно близькі слова, що відрізняються замінами, пропусками і вставками символів.

В даний час широке застосування знайшли як класичні алгоритми, засновані на обчисленні відстані між рядками (к-незбігів і до-відмінностей Лапдау-штата (Landaii-Vishkin)), так і алгоритми асоціативного пошуку

схожих слів, засновані на аналізі ланцюжків символів слова. Загальні витрати часу для алгоритму к-незбігів Ландау-Вішкіна, що включають попередню обробку шаблону і аналіз тексту, дорівнюють . У той час як для алгоритму до відмінностей Ландау-Вішкіна загальний час становить С * (к * n) для алфавітів фіксованого розміру і для необмежених алфавітів.

Як зазначено в роботі технології нечіткого пошуку найбільш ефективні і доцільні в застосуванні при пошуку друкарських помилок в словах, а також у випадках, коли правильність написання викликає сумніви. Можна зробити припущення, що людина, незаконно використовує фрагмент чужого твору, навряд чи буде вносити орфографічні помилки, щоб зробити менш помітним плагіат. Порушник скоріше стане змінювати структуру пропозиції, замінювати часто використовувані слова на синоніми, міняти пропозиції та абзаци місцями. А при всіх описаних змінах методи нечіткого пошуку не можуть бути ефективним інструментом для виявлення плагіату.

Розділ 3. Вибір методу пошуку текстових документів з запозиченнями

Якщо говорити про методи виявлення нечітких дублікатів, то всі їх можна розділити на два великі класи. Алгоритми, які використовують певні знання всієї розглянутої колекції документів, ми будемо називати глобальними, в іншому випадку - локальними.

Під "колекцією документів" ми будемо мати на увазі набір текстів файлів. Для того, щоб оцінювати ефективність методів, введемо два параметри точність і повнота.

Точність - здатність системи видавати в списку результатів тільки документи, дійсно є дублікатами. Обчислюється за формулою:

precision = a / a + b (3.1)

де a - кількість знайдених пар дублікатів, співпадаючих с релевантними парами; b - кількість знайдених пар дублікатів, не збігаються з релевантними парами.

Повнота - здатність системи знаходити дублікати, але не враховувати кількість помилково певних недублікатов.

recall = a / a + c (3.2)

де a - кількість знайдених пар дублікатів, співпадаючих з релевантними парами; c - кількість не віднайдений пар дублікатів, співпадаючих з релевантними парами.

3.1 Локальні методи

Розглянемо, для початку, локальні алгоритми. Основна ідея таких методів зводиться до синтаксичному аналізу документа. На основі цього аналізу документу ставиться у відповідність певна кількість сигнатур.

3.1.1 LongSent

Найпростішим прикладом може служити алгоритм, який обчислює хеш-функцію (MD5, SHA-2, CRC32) від конкантенації двох найдовших пропозицій в документі. Це і буде є його сигнатурою. Точність такого алгоритму досить велика, але він володіє істотною вадою в безпеці. Такий алгоритм легко обдурити. Досить відкоригувати всього лише два найдовших пропозиції.

3.1.2 Методи на основі заходи TF

Більш ефективним способом знаходження нечітких дублікатів може стати метод, заснований на поняття TF (term frequency - частота слова).

TF - відношення числа входження деякого слова до загального кількістю слів документа.

Таким чином оцінюється важливість слова в межах окремого

документа. Для кожного слова в документі обчислюється його вага, равний відношенню числа входження цього слова до загальної кількості слів документа.

Далі зчіплюються n упорядкованих слів з найбільшим значенням ваги і обчислюється хеш-функція. Такий підхід дозволяє поліпшити ситуацію, але для вирішення реальних завдань цей спосіб не підходить.

3.1.3 Методи, які використовують поняття шинглів

Один з перших методів, який був застосований на практиці (компанією AltaVista), грунтувався на поняття шинглів. Даний підхід був запропонований A. Broder.

Документ представлявся у вигляді послідовності перекриваються подстрок певної довжини. Візуально це зображено на Рис.3.1:

Рис. 3.1 Розбиття на шингли

Такі підрядки були названі шинглами. В якості запобіжного ідентичності двох документів використовувався той факт, що схожі документи мають істотну кількість однакових шинглів.

Щоб досягти більш ефективних показників, при порівнянні таких множин для кожного шингли обчислювалася хеш-функція. Оскільки число шинглів в документі приблизно дорівнює довжині самого документа, автором було запропоновано кілька модифікацій алгоритмів, що дозволяють зменшити обчислювальну трудомісткість завдання.

Спочатку був використаний метод, що вибирає тільки ті шингли, чиї хеш-значення ділилися без залишку на деяке число m. У свою чергу, для документів малої довжини такий підхід не годився, оскільки вибірка могла виявитися дуже маленькою або взагалі порожній.

Другий спосіб визначав обмежене число шинглів s з найменшими значеннями хеш-функцій або залишав всі, якщо їх кількість не перевищувала s. Деякий час по тому ідею цього методу стали розвивати D. Fetterly і основоположник A. Broder, яким вдалося значно модифіковані та вдосконалити її. У своїх працях вони запропонували за допомогою взаємно-однозначних і незалежних функцій (min-wise independent) обчислювати 84 хеш-значення для кожного шингли. У підсумку, документ був представлений у вигляді 84 шинглів, які мали мінімальне хеш-значення з обчислених 84 min-wiseindependent функцій. Всі 84 шингли ділилися на 6 груп, кожна з якої складалася з 14 незалежних шинглів. Ці групи згодом отримали назву супершінглів.

На практиці даний метод продемонстрував, що для визначення нечітких дублікатів вистачало збігів мінімум двох супершінглів.

Це означало, що для найкращого пошуку збігів як мінімум двох супершінглів документ був представлений різними попарними сполуками з 6 супершінглів. Такі групи стали називатися "мегашінглів".

Загальна кількість мегашінглів становить 15. Відповідно до даного методу виявлення майже дублікатів документи є між собою ідентичними, якщо у них збігається мінімум один мегашінглів.

3.1.4 MinHash метод

MinHash є різновидом Locality-sensitive hashing (LSH) алгоритму. Його основна ідея полягає у визначенні сімейства хеш-функцій (3.3).

Сімейство таких хеш-функцій утворює систему LSH для функції близькості sim (x, y), якщо:

(3.3)

Під "функцією близькості" тут розуміємо якусь функцію, ставлячи щую у відповідність двом об'єктам число від 0 до 1, де 0 означає, що об'єкти абсолютно не схожі, а 1 - вони повністю збігаються.

Не всі функції близькості відповідають вищенаведеним властивості.

Однак частина вельми корисних і застосовних на практиці це виконують. Однією з такої функцій (3.4) є коефіцієнт Жаккарда:

(3.4)

В якості множин A і B можуть служити ті ж шингли або який-небудь інший заздалегідь визначений терм (нормалізоване слово).

З LSH і сімейством хеш-функцій тісно пов'язане таке поняття, як min-wiseindependent permutations. Нехай є деяка безліч простих чисел від 1 до N

E = (1. N)

Будемо розглядати перестановки Р: E > E. Підмножина K таких перестановок називатимемо min-wise independent permutations, якщо виконується умова (3.5):

(3.5)

Очевидно, що всілякі перестановки Р задають min-wise independent permutations, але нас вони не цікавлять, бо їх кількість занадто велике - для цього нам потрібні додаткові обчислення. Тому ми будемо розглядати саме невелику підмножину K таких перестановок, що задовольняють умові. Такі min-wise independent permutations функції задають функцію близькості для системи LSH (3.6). Наступні математичні викладки доводять це:

(3.6)

Ідея алгоритму MinHash полягає у виборі мінімального значення, обчисленого для кожного елемента множини значення всіх min-wise independent permutations функцій. Для визначення, того чи є один документ дублікатом або нечітким дублікатом іншого документа, буде потрібно обмежене число операцій порівняння незалежно від розмірів самих документів.

3.1.5 Методи, які використовують семантичні мережі

Також цікавим підходом є використання семантичної мережі. Завдання визначення факту запозичення зводиться до порівняння моделей, що відображають смислове навантаження текстів. Аналіз ведеться з використанням алгоритмів на графах, модифікованих і оптимізованих для застосування в рамках даного завдання.

Використання схем аналізу даних в цьому методі може дозволити виявляти факт запозичення, навіть якщо оригінал був певним чином модифікований (виконаний переклад, слова були замінені на синоніми, текст був викладений з використанням іншої лексики і т.д.).

3.2 Глобальні методи

3.2.1 Методи на основі з TF-IDF

Подальший розвиток методу, що використовує міру TF, став алгоритм, який аналізує документи всієї колекції. У ньому використовуються міра TF-IDF. IDF (inverse document frequency - зворотна частота документа) інверсія частоти, з якою деяке слово зустрічається в документах колекції (3.7)

(3.7)

де | D | - кількість документів в колекції; | di ti | - кількість документів, в яких зустрічається терм ti.

Вага широко уживаних слів можна скоротити при обліку IDF, тобто міра TF-IDF складається з добутку TF і IDF. У міру TF-IDF більшу вагу буде у тих слів, які часто використовувалися в одному документі і рідше - в іншому.

Відповідно, при обчисленні ваги для кожного терма, алгоритм використовує формулу TF * IDF.

Після цього в рядок в алфавітному порядку упорядковано 6 слів, які мають найбільше значення ваги. Контрольна сума CRC32 отриманого рядка обчислюється в якості сигнатури документа.

Існують різні модифікації формули обчислення ваги слова. У пошукових системах широко відомо сімейство функцій BM25. одна з поширених форм цієї функції (3.8) наведена нижче

(3.8)

де f (qi, D) - це частота слова qi в документі D, | D | - це довжина документа (кількість слів у ньому), а avgdl - середня довжина документа в колекції. k1 і b - вільні коефіцієнти, зазвичай їх вибирають як k1 = 2.0 і b = 0.75. IDF (qi) - зворотна документна частота слова qi.

3.2.2 I-Match метод

Ще один сигнатурний метод в 2002 році запропонував A. Chowdhury. Ідея підходу теж полягала на знанні всієї колекції документів. Запропоновану методику автор удосконалив в 2004 році. Ключова ідея даного методу грунтувалася на обчисленні дактілограмми I-Match для демонстрації змісту документів.

Спочатку для вихідної колекції документів будувався словник L, який включає слова з середніми значеннями IDF. Саме вони дозволяли домогтися найбільш точних показників при виявленні нечітких дублікатів.

Відкидалися при цьому ті слова, які мали великі і маленькі значення IDF. Після цього для кожного документа створювалося безліч U різних слів, що складаються в ньому, і вираховувати перетин U і словника

L. Експериментальним методом обчислювався мінімальний поріг і якщо розмір перетину перевищував його, то список входять до перетин слів впорядковувати. Далі потрібно порахувати I-Match сигнатуру (хеш-функція SHA1). Отже, тут ми бачимо наступну ситуацію: два документи будуть вважатися однаковими, якщо у них співпадуть I-Match сигнатури. На відміну від алгоритму, запропонованого A. Broder., Даний метод має більший потенціал.

Він демонструє значно поліпшену обчислювальну здатність. Знову ж, якщо порівнювати з алгоритмом A. Broder, ще однією перевагою на користь цього алгоритму стає те, що він значно ефективніше проявляє себе при порівнянні невеликих за обсягом документів.

На жаль, у даного алгоритму є і свій недолік - при невеликій зміні змісту він показує свою нестійкість. Щоб виключити даний недолік, автори вирішили піддати алгоритм зміни та вдосконалити його. Була запропонована нова техніка багаторазового випадкового перемішування основного словника.

Суть модифікацій полягає в наступному: до основного словника L створюються K різних словників L1-LK, які утворюються шляхом випадкового видалення з початкового словника певної закріпленої частини p слів. Ця невелика група p слів становить приблизно 30% - 35% від початкового об'єму L. Для кожного документа замість однієї, обчислюється (K +1) I-Match сигнатур за алгоритмом, який описаний вище. Виходить, що документ демонструється як вектор розмірності (K +1). У такому випадку два документа між собою будуть вважатися однаковими, якщо одна з координат у них збігається. На практиці, в якості самих оптимальних значень параметрів добре зарекомендували себе такі показники: p = 0.33 і K = 10. Даний алгоритм продемонстрував ефективну здатність фільтрації спаму при використанні в додатках веб-пошуку.

3.2.3 Метод опорних слів

Існує ще один спосіб виявлення майже дублікатів, заснований-ний на сигнатурному підході.

Даний метод теж полягає у використанні лексичних принципів, тобто на основі словника. Метод був запропонований С. Ільїнським та ін. і отримав назву - метод "опорних" слів. Розглянемо більш детально принцип даного алгоритму. Спочатку з індексу за правилом, описаному нижче, ми вибираємо безліч з N слів, званих "опорними". У даному випадку, N визначається експериментально. Надалі, кожен документ виглядає N-мірним двійковим вектором, в якому i-а координата дорівнює 1, якщо i-ті"Опорне" слово має в документі відносну частоту вище певного порогу (що встановлюється окремо для кожного "опорного" слова) і дорівнює 0 у противному випадку. Цей двійковий вектор і є сигнатурою документа.

Відповідно, два документи вважаються ідентичними при співпадінні сигнатур.

При побудові безлічі "опорних" слів використовуються наступні міркування:

1. Безліч слів повинно охоплювати максимально можливе число документів. 2. Кількість слів у наборі має бути мінімальним. 3. При цьому "якість" слова має бути максимально високим.

Розглянемо принцип побудови безлічі алгоритму і вибір порогових частинок. Припустимо "частота" - це нормована всередині документної частота слова в документі TF, яка знаходиться в діапазоні 0.1, одиниця в даному випадку буде відповідати найбільш частого слову в документі TF.

Розподіл документів по даній внутрідокументної "частоті" будується для кожного слова одноразово.

Розглянемо кілька етапів, кожен з яких складається з двох фаз. У першій фазі збільшується покриття документів в індексі при фіксованій (обмеженої знизу) точності. У другій фазі вже збільшується точність при фіксованому покритті. У даному випадку точність буде максимально високою, якщо повторення слова в дельта-окрузі значення відносної частоти мінімально.

Частота, яка має найбільшу точність, отримала назву порогової. Поетапно упорядковано самі невідповідні слова, а коли настає остання стадія, то залишаються тільки групи слів, яких достатньо для забезпечення якісного покриття. Виходить, що завдяки цьому алгоритму, можна відфільтрувати кілька тисяч слів і залишити тільки 3-5 тисяч.

3.3 Порівняння методів знаходження нечітких дублікатів

За основу оцінки ефективності розглянутих алгоритмів візьмемо результат експерименту, проведений в статті [2]. У ній в якості досліджуваної колекції документів була взята база веб-сайтів Роміна обсягом близько 500 000 документів. Перед прогоном колекції через кожен алгоритм, всі документи піддавалися препроцессінгу - очищення від html тегів, видаленню стоп-слів, знаків пунктуації та іншої інформації, що не несла інформаційний характер.

У таблиці 3.1 наведені результати експерименту з роботи:

Таблиця 3.1. Результати експерименту

У роботі, що використовує семантичну мережу для виявлення дублікатів, на жаль, не наводиться чисельних результатів, але вдається зрозуміти, що швидкість роботи залишає бажати кращого. Це пов'язано з застосованим там алгоритму знаходження ізоморфності графів, який є NP-повною завданням. Єдиний з розглянутих алгоритмів, який здатний показати які саме частини контенту документа були запозичені і звідки, є перший алгоритм на основі простих шинглів.

Виходячи з поставлених критеріїв і наведених результатів експерименту, нами було вибрано алгоритм на основі шинглів. На основі цих алгоритмів планується розробити систему, яка здатна задовольнити вимогам поставленого завдання.

Розділ 4. Розробка програмного забезпечення

4.1 Етап роботи алгоритму шинглів для веб-документів

Етапи через які проходить текст, що піддався порівнянні:

канонізація тексту;

розбиття на шингли;

обчислення хешей шинглів за допомогою 84х статичних функцій;

випадкова вибірка 84 значень контрольних сум;

порівняння, визначення результату.

1. канонізація тексту.

Канонізація тексту призводить оригінальний текст до єдиної нормаль-ної формі. Текст очищається від прийменників, спілок, розділових знаків, HTML тегів, і іншого не потрібного "сміття", який не повинен брати участь в порівнянні (Рис. 4.1.). У більшості випадків так само пропонується видаляти з тексту прикметники, так як вони не несуть смислового навантаження.

З канонізацію тексту можна експериментувати і експериментувати, простір для дій тут широкий. На виході маємо текст, очищений від "сміття", і готовий для порівняння.

Рис. 4.1 Канонізація тексту

2. Розбиття на шингли

Шингли (англ) - лусочки, виділені зі статті послідовності слів.

Необхідно з порівнюваних текстів виділити підпослідовності слів, що йдуть один за одним по 10 штук (довжина шингли). Вибірка відбувається внахлест, а не встик. Таким чином, розбиваючи текст на підпослідовності, ми отримаємо набір шинглів в кількості рівній кількості слів мінус довжина шингли плюс один.

Дії по кожному з пунктів виконуються для кожного з порівнюваних текстів (Рис.4.2)

Рис. 4.2. Розбиття на шингли

3. Обчислення хешей шинглів за допомогою 84х статичних функцій.

Принцип алгоритму шинглів полягає в порівнянні випадкової вибірки контрольних сум шинглів (підпослідовностей) двох текстів між собою.

Проблема алгоритму полягає в кількості порівнянь, адже це безпосередньо позначається на продуктивності. Збільшення кількості шинглів для порівняння характеризується ростом операцій, хто критично відіб'ється на продуктивності. Пропонується представити текст у вигляді набору контрольних сум, розрахованих через 84х унікальні між собою статичні хеш функції. Для кожного шингли розраховується 84 значення контрольної суми через різні функції (наприклад SHA1, MD5, CRC32 і т.д., всього 84 функції).

Тому кожен із текстів буде представлений, можна сказати, у вигляді двовимірного масиву з 84х рядків, де кожен рядок характеризує відповідну з 84х функцій контрольних сум (Рис.4.3).

З отриманих наборів будуть випадковим чином відібрані 84 значення для кожного з текстів і порівняні між собою відповідно функції контрольної суми, через яку кожен з них був розрахований.

Таким чином, для порівняння буде необхідно виконати всього 84 операції.

Рис. 4.3 Обчислення контрольних сум шинглів

4. Випадкова вибірка 84 значень контрольних сум

Як я описувалося вище, порівнювати елементи кожного з 84х масивів між собою - ресурсомісткість. Для збільшення продуктивності виконаємо випадкову вибірку контрольних сум для кожної з 84х рядків двовимірного масиву, для обох текстів (Рис.4.4).

Отже, на виході маємо набір з мінімальних значень контрольних сум шинглів для кожної з хеш функцій.

Рис. 4.4 Випадкова вибірка шинглів для порівняння

5. Порівняння, визначення результату

І останній етап - порівняння. Порівнюємо між собою 84 елемента першого масиву з відповідними 84ю елементами другого масиву, вважаємо ставлення однакових значень, з цього отримуємо результат (Рис.4.5).

Рис.4.5 Отримання результату

4.1 Обгрунтування вибору засобів розробки

При розробці програмного забезпечення використовувався Denwer третьої версії.

Денвер (джентльменський набір Web-розробника) - набір дистрибутивів і програмна оболонка, призначені для створення та налагодження сайтів (веб-додатків, іншого динамічного вмісту інтернет-сторінок) на локальному ПК (без необхідності підключення до мережі Інтернет) під управлінням ОС Windows.

У базовий пакет Денвера входить:

Веб-сервер Apache з підтримкою SSI, SSL, mod_rewrite, mod_php.

Інтерпретатор PHP з підтримкою GD, MySQL, SQLite.

СУБД MySQL з підтримкою транзакцій (mysqld-max).

Система управління віртуальними хостами, заснована на шаблонах.

Система управління запуском і завершенням.

Панель phpMyAdmin для адміністрування СУБД.

Ядро інтерпретатора Perl без стандартних бібліотек (поставляються окремо).

Емулятор sendmail і сервера SMTP з підтримкою роботи спільно з PHP, Perl, arser та ін.

Установник.

Відразу після установки доступний повністю працюючий веб-сервер Apache, що працює на локальному комп'ютері, на якому може працювати необмежена кількість сайтів, що дуже ефективно для розробки та налагодження сценаріїв PHP без завантаження його файлів на віддалений сервер. Для запуску практично всіх утиліт "Денвера" використовується додаток Run в підкаталозі / denwer (або / etc) кореневого каталога установки "Денвера". При запуску створюється віртуальний диск (за замовчуванням Z:), де зберігаються всі файли проектів.

У нього входять:

PHP (англ. PHP: Hypertext Preprocessor - "PHP: препроцесор гіпертексту", "Інструменти для створення персональних веб-сторінок") - скриптова

мова програмування загального призначення, інтенсивно застосовується для розробки веб-додатків. В даний час підтримується переважною більшістю хостинг-провайдерів і є одним з лідерів серед мов програмування, що застосовуються для створення динамічних веб-сайтів.

Популярність в області побудови веб-сайтів визначається наявністю великого набору вбудованих засобів для розробки веб-додатків.

Основні з них:

Автоматичне витяг POST і GET-параметрів, а також змінних оточення веб-сервера в зумовлені масиви;

Взаємодія з великою кількістю різних систем управління базами даних (MySQL, MySQLi, SQLite, PostgreSQL, Oracle (OCI8), Oracle, Microsoft SQL Server, Sybase, ODBC, mSQL, IBM DB2, Cloudscape і Apache Derby, Informix, Ovrimos SQL, Lotus Notes, DB + +, DBM, dBase, DBX, FrontBase, FilePro, Ingres II, SESAM, Firebird / InterBase, Paradox File Access, MaxDB, Інтерфейс

PDO);

Автоматизована відправка HTTP-заголовків;

Робота з HTTP-авторизацією;

Робота з cookies і сесіями;

Робота з локальними і віддаленими файлами, сокетами.

Обробка файлів, що завантажуються на сервер;

Робота з XForms;

В даний час PHP використовується сотнями тисяч розробників. Згідно з рейтингом корпорації TIOBE, що базується на даних пошукових систем, в квітні 2011 року PHP знаходився на 5 місці серед мов програмування. До найбільших сайтів, які використовують PHP, відносяться Facebook, Вконтакте, Wikipedia та ін

Входить в LAMP - поширений набір програмного забезпечення для створення веб-сайтів (Linux, Apache, MySQL, PHP).

4.3 Реалізація алгоритму шинглів

В алгоритмі шинглів реалізовано порівняння контрольних сум текстів. У своїй реалізації я використовую CRC32, але застосовні й інші, наприклад SHA1 або MD5 і т.д. Як відомо, контрольні суми статичних функцій дуже чутливі до змін. Наприклад, контрольні суми двох наступних текстів будуть докорінно відрізнятися:

Текст: "My war is over." Контрольна сума: 1759088479

Текст: "My war is over!" Контрольна сума: - 127 495 474

Відмінність другої фрази від першої полягає всього лише в знак оклику в кінці фрази, але як бачимо, контрольні суми абсолютно різні. При пошуку запозичення нас не цікавлять всякі там знаки оклику, крапки, коми і т.д. Нас цікавлять тільки слова (не союз, прийменники і т.д., а саме слова). Отже, ставиться завдання: очистити текст від непотрібних нам знаків і слів, які не несуть сенсу при порівнянні, це і називається "привести текст до канонічної формі". Необхідно створити набір символів, які потрібно виключити з обох текстів, тобто приведення його до форми, придатної для нашого порівняння.

Для цього необхідно визначити набори стоп-слів і стоп-символів.

var $stopSymbols = array (". ",",","!","?",": ","; ","-","n","r"," (",")");

У стоп-символи ми включили розділові знаки, знаки переносу рядка і табуляції. У стоп-слова ми включили спілки, прийменники та інші слова, які при порівнянні не повинні впливати на результат.

var $stopWords = array ('это', 'как', 'так', 'и', 'в', 'над', 'к', 'до', 'не', 'на', 'но', 'за', 'то', 'с', 'ли', 'а', 'во', 'от', 'со', 'для', 'о', 'же', 'ну', 'вы', 'бы', 'что', 'кто', 'он', 'она');

Створимо функцію, яка буде виробляти канонізацію тексту:

function canonize ($text)

{

$text = str_replace ($this->stopSymbols, null, $text);

$text = strtolower (eregi_replace (" +", "", $text));

$words = explode ("", $text);

foreach ($words as $i => $word)

{

if (in_array (strtolower ($word), $this->stopWords))

$words = array_remove ($word, $words);

}

return implode ("", $words);

}

Функція canonize очищає текст від стоп-символів і стоп-слів, призводить всі символи рядка до нижнього регістру і повертає список, що залишилися після чищення слів. Приведення тексту до єдиної канонічної формі не обмежена діями, описш вище. Можна, наприклад, кожне з іменників приводити до єдиного числа, називному відмінку і т.д., для цього потрібно підключати морфологічні аналізатори російської мови (або інших мов, де необхідні ці дії). Отже, тексти у нас очищені від усього зайвого. Тепер необхідно розбити кожен з них на підпослідовності - шингли. На практиці я застосовую підпослідовності довжиною в 10 слів. З виділених нами шинглів далі будуть перебувати контрольні суми.

Розбиття на шингли відбуватиметься внахлест через одне слово, а не встик, тобто, маємо текст: "Розум дано людині для того, щоб він розумно жив, а не для того тільки, щоб він розумів, що він нерозумно живе." © В.Г. Бєлінський. Після обробки нашої функцією текст прийме наступний вигляд: розум даний людині того щоб розумно жив того тільки щоб розумів нерозумно живе.

Це і є канонічна форма. Тепер потрібно розбити її на шингли довжиною в 10 слів. Так як шингли складаються внахлест, то всього шинглів len (source) - (shingleLen-1), тобто кількість слів у тексті мінус довжина шинглів плюс 1.

Шингли будуть виглядати наступним чином:

Sh1 = розум даний людині того щоб розумно жив того тільки щоб

Sh2 = дано людині того щоб розумно жив того тільки щоб розумів

Sh3 = людині того щоб розумно жив того тільки щоб розумів нерозумно

Sh4 = того щоб розумно жив того тільки щоб розумів нерозумно живе

Так як нас цікавить саме контрольні суми шинглів, то пишемо функцію. Ми будемо використовувати алгоритм хешування CRC32.

function shingle ($text)

{

$result = array ();

$words = explode ("", $text);

for ($i = 0; $i <= count ($words) - $this->length; $i++)

{

$currentShingle = array ();

for ($j = 0; $j < $this->length; $j++)

{

array_push ($currentShingle, $words [$i + $j]);

}

$shingledText = implode ("", $currentShingle);

array_push ($result, crc32 ($shingledText));

}

return $result;

}

}

Таким чином, через нашу функцію потрібно прогнати 2 порівнюваних тексту і ми отримаємо 2 безлічі контрольних сум шинглів, тепер необхідно знайти їх перетину (Рис.4.3.5).

function compare ($textA, $textB)

{

$shinglesA = $this->shingle ($this->canonize ($textA));

$shinglesB = $this->shingle ($this->canonize ($textB));

$matches = 0;

foreach ($shinglesA as $shingle)

{

if (in_array ($shingle, $shinglesB))

$matches++;

}

return 2 * 100 * $matches / (count ($shinglesA) + count ($shinglesB));

}

4.4 Інтерфейс взаємодії з користувачем

Для зручної перевірки документів на наявність запозичень був розроблено зручний веб-інтерфейс, який був впроваджений в електронну бібліотеку навчальних закладів. Доступ до нього користувач отримує тільки адміністратор бібліотеки. У системі існує два типи ролей: адміністратор і гість. Адміні

стратору належать права на перегляд, створення, редагування та видалення для всіх об'єктів у реалізованої системі, а також сама перевірка документа. Роль гостя - перегляд пошук і перегляд документів. Користувач, що пройшов аутентифікацію, потрапляє на головну сторінку веб-сайту На ній надається основна можливість реалізованої системи - перевірка документа на запозичення.

Користувачеві пропонується вибрати текстові документи для перевірки на запозичення. Після чого програма автоматично обробляє і порівнює текст. В результаті відповідь виходить у вигляді процентного співвідношення схожості документів

Розділ 5. Охорона праці та безпека в надзвичайних ситуаціях

Дослідження умов зорової роботи оператора ПЕОМ

Аналіз стану питання. З колосальним розвитком інформаційних ресурсів в останні роки стає абсолютно очевидним прямя шкода, яку завдають здоров'ю людини екранами телевізорів, моніторами комп'ютерів та інших пристроїв для роботи і читання. І найбільш вразливим у цьому випадку є зір, проблеми якого виникають прямо пропорційно часу, проведеному у дисплея.

Тривалий зоровий контакт з монітором, нехай навіть самого останнього покоління, має ряд згубних побічних явищ для здоров'я, пов'язаних з неминучим миготінням дисплея, як правило, не сприйманим візуально, але чітко вловлює оком. І часті головні болі, підвищена стомлюваність, дратівливість цілком можуть бути наслідком використання екранів самих різних моделей і типів [3].

Але найбільш тривожною стає ця ситуація з урахуванням того, що заходи безпеки при роботі з моніторами широко відомі. Часто ми зустрічаємо застереження від можливих проблем, наукові винаходи професійних офтальмологів, спеціальну літературу та інші джерела, підносить інформацію самим детальним і популярним чином. І, разом з тим, ми стаємо свідками поширення очних захворювань, що носять масовий характер. У чому ж причина подібного легковажного ставлення, відповісти складно, але від цього небезпека, на жаль, не знижується.

В процесі роботи операторові персонального комп'ютера доводиться мати справу із зображеннями на екрані монітора [4]. Читання тексту, таблиць, графіків з екрана відрізняється від читання тієї ж інформації з аркуша паперу з кількох причин:

по-перше, при роботі з дисплеєм користувач цілком залежить від положення дисплея, тоді як при читанні друкарської продукції можна легко знайти положення аркуша для найбільш комфортного сприйняття інформації;

по-друге, екран, будучи джерелом світла, вважається приладом активного контрасту, тоді як при читанні з аркуша паперу ми маємо справу з відображеним текстом, тобто з пасивним контрастом, який меншою мірою залежить від інтенсивності освітлення і кута падіння світлового потоку на папір;

по-третє, текст на папері є незмінним, а текст на екрані періодично оновлюється в процесі сканування електронного променя по поверхні екрана. Достатньо низька частота оновлення викликає мерехтіння зображення (даний аспект розглядатиметься далі);

по-четверте, монітор надовго приковує до себе увагу оператора, що є причиною тривалої нерухомості очних і внутрішньоочних м'язів, в той час як вони потребують динамічного режиму роботи. Це призводить до їх ослаблення;

по-п'яте, тривала робота з персональним комп'ютером вимагає підвищеної зосередженості, що призводить до великих навантажень на зорову систему користувача. Розвивається зорове стомлення (зорова астенопія), яка сприяє виникненню короткозорості, головного болю, дратівливості, нервової напруги і стресу.

Наведені вище особливості зображень на екрані дисплея, а також характер роботи оператора значною мірою впливають на ступінь стомлюваності зорового апарату.

Саме тому незайвим було б знову і знову попередити про можливі проблеми настільки дорого подарунка самої природи - зору, а також необхідні заходи щодо його захисту, серед яких можна назвати регулярне відвідування окуліста, грамотну та детальну діагностику, дотримання часових рамок і дальності розташування біля екранів, застосування оздоровчої гімнастики для очей, періодичну зміну діяльності протягом дня, прогулянки на свіжому повітрі, збалансоване харчування і, що найбільш важливо, відповідальне усвідомлення свого завдання зберегти ясність і чіткість зору на довгі-довгі роки.

Постановка задачі дослідження. Сучасне застосування ПК на робочих місцях різного призначення привернуло увагу до цілого ряду фактів негативного впливу на здоров'я, які пов'язані або вважаються пов'язаними саме з роботою на комп'ютері. Основне навантаження при цьому припадає на зір, оскільки при роботі з монітором очі втомлюються значно швидше, ніж при будь-яких інших видах роботи. Тому має сенс докладніше зупинитися на медичних аспектах впливу роботи за комп'ютером на зір оператора, а також на вимогах до моніторів і характеристиках зображення на екрані. Дана тема є актуальною, так як у даний час на підприємствах часто не дотримуються необхідних заходів для усунення небезпечних і шкідливих виробничих факторів при роботі з ПК, що знижує якість роботи персоналу і гальмує розвиток охорони праці на підприємстві в цілому.

Тому на основі проведеного аналізу в магістерській роботі необхідно виконати аналіз умов зорової роботи оператора ПЕОМ та визначити аспекти впливу роботи за комп'ютером на зір оператора, а також вимоги до моніторів і характеристик зображення на екрані.

Матеріали і результати дослідження. Дослідження, проведені в Україні і за кордоном в останні 40-50 років, свідчать про те, що здоров'я людей, що працюють з комп'ютером, піддається ризику з-за наявності небезпечних факторів [5].

Навантаження на органи зору у людини [6], робота якого пов'язана з комп'ютерами, виникає за рахунок роботи з монітором, на якому відображається дрібний текст програм, документів, а також за рахунок мерехтіння монітора.

Щоб зменшити навантаження на органи зору з боку монітора, необхідно застосовувати дисплеї з досить великим розміром екрана і частотою горизонтальної розгортки понад 70 Гц. Всі монітори повинні мати гігієнічний сертифікат, що включає, в тому числі оцінку візуальних параметрів. Конструкція дисплея, його дизайн і сукупність ергономічних параметрів повинні забезпечувати надійне та комфортне зчитування що відображається. Конструкція дисплея повинна забезпечувати можливість фронтального спостереження екрана шляхом повороту корпуса в горизонтальній площині навколо вертикальної осі в межах плюс-мінус 30 градусів і у вертикальній площині навколо горизонтальної осі в межах плюс-мінус 30 градусів з фіксацією в заданому положенні.

Основне навантаження на органи зору виникає від мерехтіння освітлення і від його нерівномірності. Мерехтіння освітлення виникає у люмінесцентних лампах при їх несправної роботі. Рівномірність освітлення залежить від правильності розташування світильників і від положення робочого місця оператора.

Приміщення з ПЕОМ повинні мати природне та штучне освітлення.


Подобные документы

  • Принципи побудови захисту електронних банківських документів. Забезпечення автентифікації адресата та відправника міжбанківських електронних розрахункових документів і службових повідомлень. Апаратно-програмні засоби криптографічного захисту інформації.

    контрольная работа [54,9 K], добавлен 26.07.2009

  • Вивчення існуючих систем по виявленню плагіату. Алгоритм створення системи для виявлення плагіату, в базі якої будуть зберігатися всі лабораторні роботи студентів. Проектування програми: побудова uml-діаграм, видалення коментарів в коді, опис архітектури.

    дипломная работа [4,1 M], добавлен 09.06.2012

  • Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.

    реферат [33,5 K], добавлен 23.04.2010

  • Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.

    дипломная работа [4,9 M], добавлен 22.07.2015

  • Опис та порівняння онлайнових електронних перекладних словників ABBYY Lingvo та MultiLex, зручність інтерфейсу, кількість додаткових функцій та сервісів. Головні можливості та порівняння глибини тлумачення електронних онлайнових тлумачних словників.

    курсовая работа [38,5 K], добавлен 22.11.2010

  • Принципові рішення, що покладені в основу концепції створення єдиних реєстрів. Критерії для відбору стратегії пошуку правової інформації в Інтернеті. Модель ділового процесу, її використання у Workflow-системах. Організаційне забезпечення ІС ОВС України.

    контрольная работа [23,3 K], добавлен 20.07.2011

  • Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.

    реферат [38,8 K], добавлен 20.05.2011

  • Поняття сайту як системи електронних документів (файлів даних, коду) приватної особи або організації в комп'ютерній мережі. Визначення засобів для створення сторінки в Інтернеті, вимоги до зовнішнього вигляду та функцій. Особливості розробки макету сайту.

    курсовая работа [2,1 M], добавлен 17.12.2015

  • Загальні відомості про текстовий процесор, інтерфейс програми та інсталяція, елементи керування і налаштування панелі швидкого доступу. Робота з документами, введення тексту та відкриття файлів, створення документів, захист і збереження текстових файлів.

    дипломная работа [11,6 M], добавлен 26.05.2012

  • Захист електронних платежів у мережі Іntегnеt. Побудова захисту електронних банківських документів. Криптографічний захист інформації. Захист інформації та вирішення питань безпеки у СЕП. Роботи програмно-технічних комплексів в інформаційній мережі.

    контрольная работа [293,9 K], добавлен 26.07.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.