Система оптичного розпізнавання образів

Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык украинский
Дата добавления 07.05.2012
Размер файла 182,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Міністерство освіти України

Кіровоградський державний технічний університет

Система оптичного розпізнавання образів

Побудова математичної моделі оптичного розпізнавання та створення системного інтерфейсу зв'язку сканер-комп'ютер

Носій: друкований лістинг програми

м. Кіровоград, 1999 р.

ЗМІСТ

  • Вступ
  • 1. Призначення та область використання
  • 2. Перегляд аналогічних існуючих OCR-систем
    • 2.1 Еволюція аналогів
    • 2.2 Система розпізнавання
      • 2.2.1 Сканування
      • 2.2.2 Розпізнавання
      • 2.2.3 Редагування
    • 2.3 Алгоритми
    • 2.4 Техніка розпізнавання образів
      • 2.4.1 Просте порівняння
      • 2.4.2 Урахування ознак
      • 2.4.3 Синтаксичний контроль
      • 2.4.4 Експерти більш високого рівня
      • 2.4.5 Навчання
    • 2.5 Тестування роботи аналогів
      • 2.5.1 Умови тестування
      • 2.5.2 Результати тестування
      • Висновок
    • 2.6 Постановка задачі
  • 3. Опис і обгрунтування проектних рішень по проектуванню системи
  • 4. Реалізація проекту. Розрахунки і експерементальні дані, що підтверджують правильність проектних рішень
    • 4.1 Основні задачі
    • 4.2 Сегментація
    • 4.3 Функції обробки графічних зображень
    • 4.4 Розпізнавання
    • 4.5 Тестування роботи системи
  • 5. Методика впровадження системи в експлуатацію
  • 6. Заходи по охороні праці та техніці безпеки
    • 6.1 Особливості роботи на ЕОМ
    • 6.2 Вплив електромагнітного поля на організм користувача
    • 6.3 Електромагнітні випромінювання та їх вплив на організм людини
    • 6.4 Заходи, необхідні для нормальних умов праці при роботі за дисплеєм
    • 6.5 Організація робочого місця користувачів ПЕОМ
    • 6.6 Режим роботи та відпочинку користувачів ЕОМ
    • 6.7 Застосування захисних екранів
    • 6.8 Пожежна безпека
    • 6.9 Обчислення показника дискомфорту для лабораторії
  • 7. Безпека життєдіяльності та цивільна оборона
    • 7.1 Про необхідність ЦО та БЖД
    • 7.2 Оцінка стійкості роботи стенду управління до впливу дії електромагнітного імпульсу
  • 8. Підрахунок економічної ефективності розробленої системи
    • 8.1 Визначення трудомісткості та чисельності виконавців при розробці ПЗ
    • 8.2 Обґрунтування капітальних вкладень
    • 8.3 Визначення експлуатаційних витрат
    • 8.4 Визначення економічної ефективності
    • Висновки
  • Основні висновки
  • Перелік скорочень, символів та спеціальних термінів
  • Джерела інформації
    • ЛІТЕРАТУРА
  • Додатки
    • Додаток 1 -- Текст програми
    • Додаток 2 -- Технічне завдання
    • Додаток 3 -- Результати тесту системи
    • Додаток 4 -- Графічні матеріали
  • ВСТУП
  • Одним із способів підвищення ефективності документообігу є використання системи безклавіатурного введення. Задача такої системи - зробити автоматичне введення документів у комп'ютер без стомливого і непродуктивного «перебивання». Для організації процесу розпізнавання символів застосовуються самі різні принципи, у тому числі й інтелектуальні.

Від покоління до покоління програми розпізнавання збільшують швидкість читання текстів і стають необхідним інструментом у повсякденній роботі. Припустимо, що рукопис, із яким необхідно працювати, передано по факсу, а нам необхідно його електронна версія. Що ж робити, наново набирати сторінки з текстом?

Невдалий жарт! Це має стільки ж змісту, скільки ловля сонячних зайчиків у будинку без вікон, оскільки, власне кажучи, документи вже майже лежать практично перед нами. Щоб вийти із ситуації, що створилася, із честю, вкладемо сторінки в сканер, і одержуємо текст на екрані. Правда з копією в масштабі 1:1, отриманою із сканера, не можна почати роботу ні над текстом, ні з умістом таблиць. Для цього спочатку потрібно запустити програму розпізнавання текстів (так названу OCR-програму).

В даний час розпізнавання тексту можна здійснити за допомогою різноманітних програмно-технічних засобів, що використовуються або одночасно, або послідовно один за одним.

Для введення текстів звичайно використовується сканер або факс-модем. Сканер і факс-модем одержують графічний образ документа (набір чорних і білих точок, точніше кажучи, фотографію). Задача системи розпізнавання - відновити по графічному зображенню окремі рядки, слова, символи і кожен символ зіставити з потрібною буквою алфавіту.

Системи безклавіатурного введення називають також системами оптичного розпізнавання символів (Optical Character Recognition - OCR). За допомогою такої системи і сканера введення сторінки тексту займає приблизно 1-2 хвилини. Сучасні системи працюють у 5-10 разів швидше професіональних друкарок і допускають менше помилок.

Одна з важливих особливостей систем введення полягає в тому, що кращі з них дозволяють не просто одержати текстовий образ документа, але і зберегти інформацію про абзаци, шрифти та ілюстрації документа.

Використання існуючих OCR-програм значно спрощує процес введення текстових даних у комп'ютер, тим самим звільняючи значний час. Це особливо актуально, наприклад, при переведенні великих потоків архівних документів в електронний вигляд для їхнього компактного збереження на сучасних носіях. Наступним етапом розвитку програм цього класу буде розробка й удосконалювання алгоритмів розпізнавання рукописного тексту, що особливо актуально для безклавіатурного введення в комп'ютер інформації з заповнених митних декларацій, квитанцій, бланків і інших звітних документів, що заповнюються нами в повсякденному житті.

У будь-якому випадку, потреба в розпізнаванні текстів і електронному збереженні документів існує практично в кожному офісі, тому настільки актуальна дана тема.

1. ПРИЗНАЧЕННЯ ТА ОБЛАСТЬ ВИКОРИСТАННЯ

З кожним днем ми усе частіше чуємо фрази «електронний документообіг», «безпапірні технології». І дійсно, комп'ютеризований підхід до ведення документообігу на підприємствах стає усе популярнішим.

Електронний документообіг вирішує наступні задачі:

- введення в комп'ютер графічної інформації (рисунки, фотографії, копії документів) для їхнього збереження у вигляді електронного архіву або бібліотеки;

- введення в комп'ютер текстової інформації з паперових носіїв із метою подальшого опрацювання (редагування, переклад на іншу мову і т. п.);

- обробка інформації, що знаходиться в комп'ютері (статистика, редагування, пересилка документів по ЛОМ для їхнього узгодження, відправка електронної пошти і факсів і т.п.).

Якщо донедавна OCR-програми були орієнтовані на введення окремих документів у комп'ютер, то зараз з'явилися перші професійні версії, що можна використовувати для введення маси однорідних документів. Ці програми дозволяють вводити однотипні форми й анкети в мережному режимі зі зберіганням результатів у базах даних.

Набір однотипних документів називається пакетом. Процес роботи з пакетом складається з кількох етапів. Спочатку описується форма документа. При цьому виділяються окремі поля форми і визначаються опорні (реперні) фрагменти зображення. Реперні позначки - це статичні фрагменти зображення. По ним програма зіставляє черговий документ із маскою; у такий спосіб усуваються зсуви і перекоси, що виникають при скануванні.

Далі можна розпізнавати окремі документи пакета. Введені документи пакета можуть бути розпізнані в довільному порядку. Коли всі сторінки документа розпізнані, результат можна зберігати в базі даних DBF або в текстовому файлі.

Аналогічно відбувається введення багатосторінкових таблиць (прайс-листів, котувань і т.д.).

У найближчих версіях програми з'явиться можливість розпізнавати анкети і форми у вигляді рукописного тексту (друковані літери, написані від руки) на стандартних бланках. Таким чином, множина банківських і податкових документів буде прийматися автоматично.

Другий ймовірний напрямок - розробка систем для введення так називаних плаваючих форм. “Плаваючі” форми характеризуються фіксованою кількістю полів, що розміщаються “приблизно” на своїх місцях (характерним прикладом такого документа являється платіжне доручення). Такий напрямок розвитку програм розширить застосування системи в банківській діяльності.

Дану систему можна буде використовувати в усіх галузях народного господарства, економіки, бізнесу де виконується велика робота по оформленні та контролю документів.

Використання системи у архівах, бібліотеках дозволить дуже швидко перевести рідкісні документи та книги у електронний вигляд.

Отже, використання даної системи являється виправданим при документообороті в будь-яких організаціях, установах, закладах.

2. ПЕРЕГЛЯД АНАЛОГІЧНИХ ІСНУЮЧИХ OCR-СИСТЕМ

2.1 Еволюція аналогів

Еволюція OCR-програм уражає. Сьогодні це одна з найбільших галузей ринку, що швидко розвиваються, програмних продуктів. Перші шрифтонезалежні системи (1994 р. для російської мови) дозволяли якісно читати тільки одномовний текст і зберігати результат розпізнавання в TXT-файлі. У системах випуску 1995 р. документ зберігається вже у форматі RTF, у вигляді, схожому на оригінал (зберігання інформації про шрифти, абзаци, ілюстрації). Програми цього року дозволяли сполучити в інформації англійську і російську мови. Системи 1996 р. розпізнають таблиці, бланки, анкети, можуть працювати в мережному режимі і допускають довільну комбінацію базових мов в одному тексті (FineReader 3.0).

Але головною причиною такого сканерного буму стала гучна конкуренція двох систем оптичного розпізнавання символів - однієї, за назвою CuneiForm, виробництва компанії Cognitive Technologies, і іншої - FineReader від Bit Software.

Історія самого масового попиту на системи OCR у Росії почалася з «протиборства» систем CuneiForm і FineReader однакових версій 1.3. На думку багатьох незалежних спеціалістів, CuneiForm по сумі показників був тоді сильніше. Кістяк колективу розроблювачів цієї програми базувався в США. Але, на жаль, ще до виходу версії CuneiForm 2.0 ця команда практично перестала існувати. А BIT свій колектив програмістів зберегла. Можливо, саме цей факт послужив головною причиною того, що результати тестування незалежними російськими виданнями наступних версій цих програм були однозначні: FineReader 2.0 істотно випереджав CuneiForm 2.0.

Після версій 2.0 Cognitive Technologies випустила версії CuneiForm 2.95 (під Windows 95) і 2.96, у якій був перероблений алгоритм розпізнавання. BIT Software пізніше представила версію FineReader 3.0.

Основні можливості FineReader 3.0:

Розпізнавання текстів на російській, українській (при використанні модуля Ukraine Add-On), англійській, німецькій, французькій мовах, а також змішаних текстів, у яких допускається довільне сполучення цих мов;

Наявність умонтованої програми перевірки орфографії Lingvo Corrector, що можна підключити до Microsoft Word for Windows 95;

Збереження структури документа у форматі RTF;

Розпізнавання таблиць (можна завантажити готову таблицю в Microsoft Word або Exсel);

Розпізнавання складних форм із збереженням у форматі бази даних (тільки у версії Fine Reader 3.0 Professional);

Можливість навчання новим мовам (тільки у версії FineReader 3.0 Professional).

Сьогодні OCR-системи дозволяють уводити друкарські тексти різної якості - надруковані на лазерному, струменевому або матричному принтерах, книги, листівки, газети, факс.

Навчати шрифтам систему немає необхідності, тому що усі популярні системи розпізнавання являються шрифтонезалежними (омнішрифтовими). Більш того, у результуючому документі будуть відбитий тип шрифту (із засічками, типу Times; типу Halvetica; моноширинний, типу Courier), а також висота і стиль написання символів (жирні, похилі, підкреслені).OCR-програма, звісно ж, не зуміє розпізнати документ, що складно прочитати, але більшість документів, що нормально читаються людиною, можна ввести автоматично.

2.2 Система розпізнавання

Процес розпізнавання складається з трьох основних етапів: сканування, розпізнавання, редагування. Вони можуть виконуватися системою без утручання користувача в автоматичному режимі. Користувач натискає кнопку Scan&Read (Сканувати і розпізнати), усе інше система зробить сама. Проте, зупинимося на окремих етапах розпізнавання, щоб зрозуміти, як працює OCR - програма і як домогтися максимальних результатів.

2.2.1 Сканування

Для розпізнавання використовується самий простий режим сканування - чорно-білий (Line-art). При скануванні дуже важливо правильно встановити яскравість (Brightness), тому що цей параметр істотно впливає на якість розпізнавання. Правило установки яскравості просте: як поява «сміття» (зайвих точок, не властивих документові), так і сильне освітлення оригіналу (зникнення важливих точок оригіналу) призводять до втрати якості розпізнавання.

Для добору яскравості можна скористатися системами автопідбору яскравості: апаратної (AccuPage) або програмної (у системі FineReader - FinePage). FinePage дозволяє виконати так називаний локальний автопідбір, тобто яскравість встановлюється автоматично для окремих фрагментів зображення. Проте досвідчений користувач легко визначає потрібну яскравість «на око», тим більше, що для документів одного виду яскравість та сама.

2.2.2 Розпізнавання

Отримавши графічний образ документа, можна приступати до розпізнавання. По-перше, система зробить сегментацію сторінки, тобто розбивку документа на однорідні блоки.

Система FineReader, наприклад, виділяє блоки типу Текст, Рисунок, Таблиця, Не розпізнаваний. З цих блоків і складається результуючий документ. У більшості випадків програми самостійно розбивають документ на блоки, хоча залишається можливість «нарізати» блоки вручну - наприклад, якщо потрібно розпізнати окремі фрагменти документа. Коли документ розділений на фрагменти, починається власне розпізнавання. По закінченні роботи ми бачимо текст у вікні редактора.

2.2.3 Редагування

Редактори, умонтовані в системи розпізнавання, звісно ж, не можуть конкурувати з Microsoft Word або Lotus Word Pro. Редактори OCR - програм розроблені таким чином, щоб максимально спростити процес усунення помилок розпізнавання і помилок: система дозволяє в процесі редагування спостерігати « вихідний» графічний образ документа.

Практично усі програми для розпізнавання мають умонтовану систему перевірки орфографії, що працює ще на етапі розпізнавання. У редакторі виділяються особливим кольором «сумнівні» символи і слова, котрих немає в словнику.

Коли документ відредагований, його можна зберегти у вигляді файла (TXT, RTF). Формат RTF (Rich Text Format) зрозумілий більшості текстових процесорів (Microsoft Word, Lotus Word Pro, Word Perfect, Лексикон) і дозволяє задавати інформацію про оформлення (шрифти, абзаци, ілюстрації, колонки, урізання, таблиці і т.д.). Готовий документ можна просто передати в редактор за допомогою механізму Drag&Drop або через Буфер обміну. Якщо документ містить таблиці, вони можуть бути записані як таблиці Word або прямо передані в електронні таблиці Exel.

2.3 Алгоритми

Робота систем OCR складається з двох основних етапів - аналізу графічного зображення, переданого сканером (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів), а потім, власне, розпізнавання кожного символу.

При розпізнаванні символів FineReader використовує так називані структурно-п'ятнисті еталони. Дана технологія, що одержала назву фонтанного перетворення (від слова Font, а не фонтан, як може показатися), була запропонована в 1992 р. студентами МФТІ Давидом Яном, Костем Онисимовичем і Павлом Сенаторовим. Вона вперше дозволила досягти безпрецедентно високої якості розпізнавання при малій чутливості до дефектів друку.

Олександр Шаміс і група вчених Науково-дослідного центру електронної й обчислювальної техніки (НДЦЕОТ), що займалися розпізнаванням рукопечатних написів (рукописний текст друкованими літера) на кресленнях, із 1977 по 1986 р., сформулювали найважливіші підходи до рішення подібних задач. Три принципи - цілісність, цілеспрямування й адаптивність -- використовуються сьогодні в багатьох продуктах ABBYY:

цілісність. Об'єкт описується як ціле за допомогою значимих елементів і відношень між ними. Признається об'єктом даного класу тільки при наявності всіх елементів опису і потрібних відношень між ними;

цілеспрямування. Розпізнавання будується, як процес висування і цілеспрямованої перевірки гіпотез. Традиційний підхід, що складається в інтепретації того, що спостерігається на зображенні, заміняється підходом, що складається в цілеспрямованому пошуку того, що очікується на зображенні;

адаптивність -- це спроможність системи до самонавчання.

Наслідуючи вищевикладеним принципам, FineReader висуває гіпотезу про об'єкт розпізнавання (символу, частини символу або декількох склеєних символах), а потім цілеспрямовано підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи в потрібних відношеннях на об'єкті.

Відповідно до принципу адаптивності, програма «настроюється» на новий шрифт, використовуючи позитивний досвід, отриманий на перших упевнено розпізнаних символах. У якості структурних елементів для опису букви застосовуються елементи, значимі, із погляду людини, для її сприйняття.

Цілеспрямований пошук дозволяє розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів листа і нестандартних засобів відображення символів. Оскільки в алгоритм закладене самонавчання, він легко адаптується на різні шрифти. При цьому зберігається надзвичайно висока вірогідність розпізнавання - більш 99,7% !

У Cognitive трохи інший, більш класичний, підхід до розпізнавання. У версії CuneiForm 96 були вперше застосовані алгоритми адаптивного розпізнавання, що самонавчаються. Реалізація сучасної технології дозволила значно збільшити точність розпізнавання низкоякісних текстів у порівнянні з попередньою версією, створеної на базі омніфонтиної технології. Суть даної технології полягає в так називаному двохступінчатому розпізнаванні. CuneiForm здатний дорозпізнавати погано надруковані символи за допомогою шрифту, автоматично створеного на основі символів, що надруковані достатньо добре.

2.4 Техніка розпізнавання образів

Для розпізнавання тексту використовуються в цілому 5 основних засобів. Найбільше простий і «древній» засіб перевірки - це розпізнавання образів.

Також може використовуватися аналіз ознак і перевірка синтаксису. У більш складних випадках замість суворого виконання правил використовується гнучка нечітка логіка. Додаткові модулі дають можливість користувачу навчитися роботі з програмою.

Розпізнавання образів: Якщо програма знаходить в еталонному шрифті схожий символ, то буква ідентифікована - їй привласнене відповідне ASCII-значення.

Аналіз ознак: Символи, що потрібно ідентифікувати, вимірюються і порівнюються з геометричними параметрами. Незалежно від типу шрифту для кожної букви завжди існують цілком певні параметри.

Синтаксичний контроль: Перевіряє послідовність букв, чи дійсно вона дозволена і характерна для даної мови.

Нечітка логіка: Процес прийняття рішення, при якому умови і правила не повинні виконуватися на усі 100%. При ідентифікації враховується навіть нечітка виразність ознак. За допомогою цього засобу розпізнавання образів можна комбінувати різноманітні результати декількох засобів контролю. Це підвищує можливість розпізнавання в критичних випадках.

Навчання: Якщо користувач виправить неправильно розпізнані букви і запише ці виправлення у вигляді «навчених» даних, то програма зможе використовувати ці дані в майбутніх процесах розпізнавання.

2.4.1 Просте порівняння

Основні засоби розпізнавання друкарського тексту (OCR - optical character recognition - оптичне розпізнавання символів) існують уже більш чверті сторіччя. Спочатку вони застосовувалися у виді заснованого на апаратних засобах щодо простого порівняння букви і її еквівалента з еталонного шрифту.

У середині 60-х років для цих цілей були створені два стандартизованих шрифти OCR-A і OCR-B. Навіть і зараз ці типи шрифтів використовуються в кодових рядках банківських чеків. Ці шрифти зберігаються в зчитуючому пристрої у вигляді комбінації елементів растрового зображення. Якщо зображення шрифту й еталонний об'єкт відповідають друг другу, то у відповідність зображенню приводиться ASCII-значення і, таким чином, буква ідентифікується. Правда, це означає наступне: якщо кожна A або B аналогічна іншій A або B із високим ступенем відповідності, тільки в цьому випадку відбувається ідентифікація.

2.4.2 Урахування ознак

У 1975 р. розпізнавання образів було доповнено можливістю аналізу ознак (feature recognition). Аналіз типографських деталей кожної букви обходиться без порівняння з записаним зображенням шрифту: у зображенні букв ведеться пошук лише певних форм округлостей, кутових і лінійних співвідношень, окружності, пропорцій між подовжніми і лініями, а також пробілів.

Оскільки ці геометричні особливості букв повинні приблизно зберігатися у всіх типах шрифтів, крім, наприклад, арабської, китайської або кирилічної системи написання, то засіб придатний для ідентифікації усіх типів шрифтів, а не тільки деяких. Тому цей засіб названий засобом Omnifont («всешрифтовым», по-латині omni - все).

Першим зчитуючим пристроєм, що використовує новий засіб розпізнавання символів, був пристрій KRM (Kurzweil reading machine), поданий в 1975 р. і названий ім'ям його створювача Раймонда Курцвайля (Raymond Kurzweil).

Першим приватним клієнтом став Стів Уандер (Stevie Wonder), сліпий співак і музикант, що зміг за допомогою KRM перевести тексти на шрифт Брайля. На початку 80-х років Р. Курцвайль разом із фірмою Xerox створив OCR-програму, що використовувала і розпізнавання образів і аналіз ознак.

2.4.3 Синтаксичний контроль

В даний час методи розпізнавання образів і аналізу ознак підтримуються експертами по лінгвістиці. Синтаксичний аналіз, називаний також language analysis, установлює чи може розшифрована послідовність букв зустрітись в даній конкретній мові.

Наприклад, жодне російське слово, за винятком, можливо, абревіатур не починається на подвійну букву Е. Це ж правило справедливо і для багатьох інших букв алфавіту. Правда, у більшості OCR-програм при перевірці синтаксису розглядаються тільки послідовності з трьох знаків, що не були однозначно визначені іншими експертами.

2.4.4 Експерти більш високого рівня

Незважаючи на можливості навчання і «omni-шрифтовість», OCR-програми справляються не з усіма типографськими особливостями.

Тому, починаючи із середини 80-х років, розробники стали експериментувати з такими засобами розпізнавання, що були розроблені на основі аналогії з людським мозком. У природних і штучних нейронних мережах обробка інформації відбувається відповідно до законів так називаної нечіткої, або fuzzi-логіки.

Алгоритмічні засоби розв'язання проблеми, такі як розпізнавання образів, працюють по раз і назавжди встановленим чітким правилам; у системах, що навчаються, створюються додаткові тимчасові правила, що, проте, також формулюються цілком однозначно.

Нечітка логіка враховує той факт, що мозок може прийти до прийнятного рішення проблеми навіть без однозначних параметрів. При цьому, природно, у міркуваннях використовуються такі вербальні поняття, як «досить», «майже», або «значно».

Fuzzi-логічні експерти в OCR-програмах «думають» аналогічно людині: їхній принцип роботи аналоговий, а не цифровий, тобто вони знають не тільки «так» і «ні», але також і «багато» і «мало». Проте, щоб поняття «мало», «більше» і «багато» можна було використовувати, вони повинні бути, принаймні, чітко розмежовані між собою.

Для цього результати дослідження експертів нижчого рівня, таких як аналіз ознак, спочатку перетворяться в нечіткі, поступово змінні параметри, так називані лінгвістичні (вербальні) перемінні. У системах із нечіткою логікою ці перемінні об'єднують кілька точних аналізованих параметрів. Такий комплекс параметрів називається також нечіткою множиною. Кожній такій множині присвоюється власне ім'я перемінної. Звичайно для цього використовують наступні скорочення, що прийшли з англійської мови:

NB (negative big) - для великих відхилень,

NM (negative medium) - для середніх відхилень,

NS (negative small) - для малих відхилень,

ZE (zero) - при відсутності відхилень.

У системах із нечіткою логікою іншого типу для позначення додаткових відхилень від ідеального значення можна використовувати й інші перемінні, такі як PS (positive small), PM (positive medium) і PB (positive big).

Наскільки точно математико-геометричний розмір символу, знайдений по способу аналізу ознак, указує, наприклад, на букву А, можна представити у вигляді функції приналежності до множини усіх можливих символів А виражається числом від 0 до 1.

2.4.5 Навчання

Крім того, програму можна навчити спроможностям розпізнавання, тому що вона оснащена штучним інтелектом: неправильно визначені букви виправляються користувачем і автоматично заносяться в умонтований словник програми, що враховує набуті знання в майбутніх процесах розпізнавання.

Природно, що без додаткового навчання не можна обійтися, особливо при розпізнаванні рукописного тексту, оскільки програму варто заздалегідь навчити індивідуальному почеркові кожної людини.

2.5 Тестування роботи аналогів

Дані про тестування та його результати взяті з періодичного видання, яке висвітлює інформаційні технології, проводить тестування апаратних та програмних засобів, проводить аналіз використання програмних засобів від різних виробників ПЗ. [5]

2.5.1 Умови тестування

Тестування здійснювалося на комп'ютері HP Vectra VE - Pentium 166 MMX c 32MB SDRAM, операційна система Windows95 OSR2, сканер HP ScanJet 4c. Використовувалася підтримка сканера, умонтована в OCR, і підтримка ACCuPage 2.0, режим TWAIN - взаємодії підключався тільки в FineReader 4.0. Тестові документи сканували з "разрешением" 300 dpi, установленим по умовчанню (крім тестів на мінімальний розмір символів і тексту на фоні при "разрешением" 600 dpi), при необхідності здійснювалася ручна корекція яскравості зображення.

Перший тест - на мінімальний розмір символу, здійснювався за допомогою трьох документів, що містять текст із різноманітним кеглем шрифту - 12,10,8,6 і 4 пункту, надрукованих на лазерному (HP LaserJet 5L, "разрешением" 600 dpi), струйному (Epson Stylus Color Pro, 720 dpi) і матричному (Epson FX-1170, 120 (144 dpi) принтерах. Другий тест - на текст низької якості, містив у собі також три документи - занадто світлий факс у поганій якості (Текст перекошений, деякі символи не надруковані), газетна стаття (текст,що складається з багатьох колонок, папір і набір низької якості) і дрібний текст складної структури на гербовому папері (складний багатобарвний фон). Третій тест полягає в правильному розпізнаванні складної таблиці, створеної в Word 97 за допомогою інструменту ручного малювання таблиць.

В усіх текстах підраховувалася кількість помилок на тисячу символів. Тести проводилися три рази, з отриманих результатів обчислили середнє значення. У випадку з таблицею проводилася якісна оцінка результату.

2.5.2 Результати тестування

В таблицях "результати розпізнавання" указано кількість помилок на 1000 символів. В першій таблиці результати розпізнавання газети,факсу, тексту на фоні. В іншій - тексту надрукованого на принтерах HP Laser Jet 5L, Epson Stylus Color Pro, Epson FX-1170.

Таблиця 1.2.5-1

Результати розпізнавання тексту низької якості

Вид документу

FineReader 4.0

FineReader 3.0b

CuneiForm 98

FAX

14

19

1000

Газета

19

37

103

Текст на фоні

49

287

1000

Таблиця 1.2.5-2

Результати розпізнавання документів, надрукованих на принтерах (кількість помилок на 1000 знаків)

Принтер

Розмір шрифту

FineReader 3.0b

FineReader 4.0

CuneiForm 98

HP Laser Jet 5L

12pt

0

0

4

10pt

0

0

6

8pt

0

0

10

6pt

1

0

10

4pt

2

0

36

Epson Stylus Color Pro

12pt

0

0

16

10pt

0

1

16

8pt

0

2

35

6pt

1

7

102

4pt

115

13

343

Epson FX-1170

12pt

3

2

48

10pt

3

2

276

8pt

9

4

491

6pt

17

13

1000

4pt

1000

1000

1000

У першому тесті, результати якого показані в таблиці 1.2.5-2, виявилася явна перевага продуктів ABBYY. Текст лазерного принтера взагалі не викликав ніяких проблем у FineReader обох версій, у той час як CuneiForm допустив більше 36 помилок на 1000 символів при розпізнаванні шрифту в 4 пункта. Відмінно розпізнав текст, надрукований на струйному принтері, FineReader 4.0, допустивши мінімальну кількість помилок лише на шрифті в 4 пункта, у версії 3.0b останній шрифт викликав деякі утруднення (10% помилок). За результатами CuneiForm, явно просліджується геометрична прогресія в погіршенні якості розпізнавання при зменшенні шрифту - на тексті розміром 4 пункта він допустив біля 35% помилок. Найбільше показовим, певне, являється останній документ цього тесту, отриманий за допомогою матричного принтера.

З текстом у 4 пункта тут не справилась жодна OCR (у всіх більше 50% помилок). CuneiForm прийнятно розпізнав лише текст із максимальним розміром символів, а обидва продукти ABBYY практично не помилялися на шрифтах у діапазоні 6 - 12 пунктів.

При опрацюванні факсу в поганій якості CuneiForm показав дуже обтяжуючий результат. У той час як FineReader допустив 14 - 19 помилок на 1000 символів, продукт Cognitive не справився з даним завданням (більше 50% помилок). Ледве краще справи виглядають при роботі з газетною статтею, але і тут CuneiForm зробив більше 100 помилок на 1000 символів.

Варто відзначити, що по швидкості розпізнавання перше місце впевнено тримає FineReader 3.0b, слідом, із незначним відставанням, йде четверта версія, CuneiForm - знову в хвості, причому різниця досить відчутна. Регулярно скаржився на недостачу оперативної пам'яті для завершення операції продукт Cognitive Technology, що при розмірі вільного місця на системному диску в 150 МВ здавалося досить дивним. Подібна помилка виникала в Windows 3.х при недостачі системних ресурсів, проте прикладна програма - то - 32-розрядна, так що причина її виникнення залишилася неясною.

При опрацюванні тестової таблиці відмінні результати показала лише остання версія FineReader - таблиця зберегла свій зовнішній вигляд у повному обсязі, проте вона виявилася конвертованою у формат Word 7.0, тобто комірки неправильної форми були приведені до стандартних за рахунок невидимих меж. FineReader 3.0b також розпізнав таблицю, але її форма була приведена до стандартної прямокутної. CuneiForm 98 узагалі не справився з даним текстом, незважаючи на встановлену опцію "таблиця" і наступне ручне виділення блоків.

Текст на фоні узагалі виявився міцним горішком для FineReader 3.0b і вже тим більше - для CuneiForm, що фактично провалив черговий тест.Четверта версія FineReader справилася з цим етапом досить успішно, у першу чергу, завдяки удосконаленій опції по очищенні зображення від сміття, що третій версії допомогла слабко. Правда, відзначу, що разом із сміттям були "вичищені" усі розділові знаки, проте це вже дрібниці.

Висновок

Проведене тестування продемонструвало, що використання CuneiForm 98 виправдано лише при розпізнаванні тексту гарної якості. При однаковій з FineReader вартості це навряд чи робить вибір OCR від Cognitive виправданим. Строго говорячи, CuneiForm можна вважати конкурентом FineReader тільки у світлі його безкоштовного поширення разом із сканерами.

У відношенні продукту ABBYY також усе цілком очевидно. Вибір для користувачів у даному випадку однозначне -FineReader 4.0. Використання версій цього пакета - Professional, Рукопис і Банк - з урахуванням їхньої високої ціни виправдано лише при розв'язанні спеціалізованих завдань розпізнавання рукопечатного шрифту і стандартних банківських форм або при використанні інших функцій, не реалізованих у стандартній версії.

2.6 Постановка задачі

Розробити математичну модель для розпізнавання символів, отриманих в процесі сканування документів, розробити системний інтерфейс зв'язку "сканер - комп'ютер" та написати програму, що реалізує вище перераховані задачі використовуючи методи оптимізації розрахунків.

Програмне забезпечення повинне бути гнучким до нових форм документів, які необхідно обробити.

Системний інтерфейс зв'язку повинен взяти на себе всю складність налагодження параметрів сканування та обміну даними. Програма має бути оснащена дружнім інтелектуальним інтерфейсом користувача.

Одна з головних задач, яку треба вирішити, -- це задача розпізнавання стандартних форм документів, пристосованість програми до невисокоякісних документів, та можливості самонавчання, так як від цього залежить якість розпізнавання тексту.

Одним з головних показників швидкості розпізнавання є середній час затримки при скануванні документу, а також середній час розпізнавання самого тексту.

Розглянемо методи розпізнавання символів. Вирізнимо дві задачі в процесі проектування системи: аналізу і розпізнавання. Задача аналізу формується таким чином. Відсканований документ розбивається на блоки однотипних даних (текст, таблиця, малюнки, поля даних). Задача розпізнавання формулюється наступним чином. Після розбиття документу починається розпізнавання по блокам. Блок розбивається на рядки, рядок на слова, а слово на символи. Потім кожен символ порівнюється із еталонним шрифтом. Якщо він ідентифікується, то в масив передається ASCII код цього символу. Якщо даний символ не ідентифікується, то іде розпізнавання за методом урахування ознак. Якщо і останній метод не може ідентифікувати символ, то програма надає це користувачу. Після того, як користувач внесе символ, програма заносить до своєї бази даних ці дані і при наступних процесах розпізнавання буде їх використовувати (система самонавчання). Після розпізнавання масив з текстом передається до процедури збереження даних у файлі формату RTF.

Якщо у документі знаходилися графіки, малюнки, схеми, то дані зберігаються у файлі формату BMP.

3. ОПИС І ОБГРУНТУВАННЯ ПРОЕКТНИХ РІШЕНЬ ПО ПРОЕКТУВАННЮ СИСТЕМИ

У нинішній час при проектуванні різного роду систем, які обробляють великі об'єми текстової інформації, значне розповсюдження на ПЕОМ отримали OCR -системи.

Від простоти роботи системи розпізнавання образів залежить популярність використання даної системи. Якість розпізнавання впливає на вибір Вашої системи, як засобу для переводу документів в електронний вид. Простота інтерфейсу зв'язку полегшує роботу з сканером (вибір параметрів сканування тексту різної якості). В порівнянні з FineReader 4.0, який не зберігає параметри сканування, наша система по умовчанню зберігає параметри попереднього процесу сканування. Можливість корегування вхідних форм документів значно розширює область використання даної системи. Також існує можливість збереження відсканованих даних в форматі графічного файлу (BMP), а потім в будь-який час розпізнати текст з цього файлу. Ця можливість передбачена для тих випадків, коли час доступу до сканера обмежено. Користувач зберігає документи в графічному вигляді, а потім розпізнає всі документи на будь-якій машині, що має дану систему.

Для реалізації системи розпізнавання тексту використовувалась мова програмування Delphi версії 3.0 стандарт, фірми Borland. Ця мова дозволяє швидко і якісно реалізувати розроблені алгоритми системи. Розроблені стандартні компоненти в Delphi дозволяють швидко писати програми використовуючи стандартні функції відкриття, збереження файлів, вибору шрифтів, меню та підменю, рядка підказок.

Цей засіб відповідає всім поставленим вимогам даного типу задач і тому був вибраний для реалізації данного проекту.

4. РЕАЛІЗАЦІЯ ПРОЕКТУ. РОЗРАХУНКИ І ЕКСПЕРИМЕНТАЛЬНІ ДАНІ, ЩО ПІДТВЕРДЖУЮТЬ ПРАВИЛЬНІСТЬ ПРОЕКТНИХ РІШЕНЬ

Модернізація засобів обчислювальної техніки, постійна тенденція до підвіщення швидкодії і об'ємів пам'яті ЕОМ потребує переходу до безпосередньо оптичного вводу в ЕОМ графічної та символьної (включаючи друковані та рукописні тексти) інформації.

В теоретичному плані розпізнавання цифр, букв та інших символів являється важливим прикладним напрямом систем розпізнавання образів. [8]

Система розпізнавання -- це складна динамічна система, яка складається з сукупності технічних засобів отримання й обробки інформації і призначена для рішення на основі спеціальних алгоритмів задач розпізнавання відповідних об'єктів (образів).

4.1 Основні задачі

Розглянемо основні задачі, які виникають в процесі проектування та побудови систем розпізнавання.

Задача 1. Задача полягає в глибокому та ретельному вивченні об'єктів, для розпізнавання яких передбачена дана система. Її ціль -- вияснити особливості об'єктів, що вивчаються, і визначити, що спільного та відмінного між ними.

Задача 2. Ця задача заключається в проведенні класифікації об'єктів, що розпізнаються. Основне в даній задачі -- вибір потрібного принципу класифікації. Останній визначається вимогами, що пред'являються системі розпізнавання, які, в свою чергу, залежать від того, які рішення можуть прийматися по результатам розпізнавання системою невідомих образів.

Задача 3. Полягає в складанні словника ознак, які використовуються як для апріорного опису класів, так і для апостереотипного опису кожного невідомого образу, що поступає на вхід системи і підлягає розпізнаванню.

Ознаки об'єктів можуть бути поділені на логічні (детерміновані) та ймовірні (стохастичні).

Логічні ознаки об'єктів, що розпізнаються, можна розглядати як елементарні вирази, які можуть приймати два значення дійсності виду ("ТАК", "НІ" або "ДІЙСНО", "БРЕХНЯ") з повною визначеністю. До логічних ознак відносяться перш всього ознаки, що не мають кількісного вираження. Ці ознаки представляють собою судження якісного характеру типу належності або відсутності деяких елементів у об'єктів, що розпізнаються.(В нашому випадку - перевірка належності шрифту до певного класу шрифтів).

Ймовірні ознаки -- ознаки, випадкові значення яких розподіленні по всім класам об'єктів, при цьому рішення про належність об'єкту, що розпізнається до того чи іншого класу може прийматися тільки на основі конкретних значень ознак даного об'єкту, визначених в результаті проведення відповідних досліджень.

Ознаки об'єктів, що розпізнаються, необхідно розглядати як ймовірні і у випадку, якщо вимір їх числових значень проводиться з повною визначенністю, яке чисельне значення прийняла дана величина.

При розробці словника ознак зтикаються з рядом обмежень:

Обмеження 1 полягає в тому, що в словник можуть бути включені тільки ознаки, відносно яких може бути отримана апріорна інформація, достатня для опису класів на мові цих ознак. Складений із цих ознак словник будемо називати апріорним.

Обмеження 2 пов'язане з недоцільністю включення в словник усіх ознак, на які не розповсюджується перше обмеження. Ці ознаки малоінформативні, не володіють достатніми розподільними властивостями і іх якість незадовільна.

Обмеження 3 пов'язане з наявністю або можливістю створення технічних засобів спостереження, забезпечуючих на основі проведення експерементів визначення попередньо відібраних ознак. Ефективність практично будь-яких систем розпізнавання в значній мірі визначається об'ємом і якістю вимірюваної інформації про об'єкти, що розпізнаються.

Задача 4. Полягає в описанні класів об'єктів на мові ознак. Вона не має однозначного рішення і в залежності від об'єму початкової апріорної інформації для її вирішення можуть бути використані методи безпосередньої обробки початкових даних, навчання та самонавчання.

Суть задачі опису класів: нехай в словнику знаходиться впорядкований вибір параметрів об'єктів - ознаки х1,…, хN. Величини х1,…, хN можна розглядати як складові вектора х = { х1,…, хN }, що характеризує простір ознак системи розпізнавання.

Множина впорядкованих чисел виду х1,…, хN утворює простір ознакрозмірністю N, а конкретні точки цього простору представляють собою об'єкти, що розпізнаються.

Нехай проведено розбиття об'єктів на класи А1,…,Аm.Необхідно виділити в просторі ознак області Di, і = 1, …, m; еквівалентні класи, тобто характерні наступною необхідною залежністю: якщо об'єкт, що має ознаки х01,…, х0N, відносяться до класу А і, то представляюча його в просторі ознак точка належить області Di.

Окрім геометричного існує і алгебраїчне трактування задачі, яке полягає в наступному. Необхідно побудувати розділяючі функції Fi1,…, хN), і = 1,…, m, наділені наступними якостями: якщо об'єкт, що має ознаки х01,…, х0N, відносяться до класу Аі, то величина Fi 01,…, х0N) повинна бути найбільшою. Вона повинна бути найбільшою і для всіх інших значень об'єктів, що відносяться до класу Аі. Якщо через xq позначити вектор ознак об'єкту, що відноситься до Аq -ГО класу, то для всіх значень вектора xq

Fq (xq) > Fg (xg), q, g = 1,…, m, q g (4.1)

Таким чином, в просторі ознак системи розпізнавання границя розбиття, часто називана "вирішальною" границею між областями Di, які відповідають класам Ai, виражається рівнянням

Fq (x) - Fg (x) = 0 (4.2)

На малюнку 4.1 показано розбиття двомірного простору ознак на області D1 та D2, що відповідають класам A1 і A2 (L - "вирішальна" границя).

Х1 F2 (x1,x2)> F1 (x1,x2)

D1 L (F1 (x1,x2) - F2 (x1,x2) = 0)

D2

F1 (x1,x2)> F2 (x1,x2)

Х2

Мал. 4.1 Двомірний простір ознак

Задача 5. Полягає в розробці алгоритмів розпізнавання, що забезпечують віднесення об'єкту, що розпізнається, до того чи іншого класу або їх деякої сукупності.

Алгоритми розпізнавання основуються на порівнянні тієї чи іншої міри близькості або міри схожості об'єкту, що розпізнається, з кожним класом. При цьому якщо вибрана міра близькості L даного об'єкту з будь-яким класом Ag, g = 1,…,m, перевищує міру близькості з іншими класами, то приймається рішення про належність цього об'єкту до класу Ag, тобто Ag, якщо

L (, Ag) = extr L (, Ai), i =1,…,m (4.3)

i

В алгоритмах розпізнавання найбільш поширені наступні міри близькості:

Середньоквадратична відстань між даним об'єктом та сукупністю об'єктів { g1,…, g Kg }, які представляють собою g-й клас Ag:

(4.4)

причому метод вимірювання відстані між об'єктами d(,g s) вільний для вибору.

У випадку, якщо необхідно враховувати вагомість ознак Wj ознак xj, j= 1,…,N, об'єкту та ознак xg s j об'єктів g s класу Ag, то може бути застосована метрика наступного вигляду:

(4.5)

Ризик, пов'язаний з рішенням про належність об'єкту, що розпізнається, до класу Ai, і = 1,…,m. Нехай задані описи класів

{fi (x),P(Ai)}, x = {x1,…, xN}(4.6)

і ризики правильних та помилкових рішень, що представляють собою елементи платіжної матриці виду

(4.7)

По головній діагоналі матриці розміщені втрати при правильних рішеннях, а по обох сторонах від неї -- втрати при помилкових рішеннях. Якщо Сіі< 0, і = 1,…, m, то такі від'ємні втрати можна розглядати як виграш при правильних рішеннях.

Нехай в результаті експериментів встановлено, що значення ознак у об'єкту складає x1 = x01, x2 = x02, …, xN = x0N.

Позначимо цю подію через aN. Тоді величина умовного ризику, пов'язана з рішенням виду Ag при умові, що має місце подія aN, буде

(4.8)

де умовна апостеріорна ймовірність того, що Aі, у відповідності з теоремою гіпотез або формулою Байеса

(4.9)

Розв'язок виду Ag приймаються у випадку, якщо

(4.10)

Задача 6. Задача заключається в розробці спеціальних алгоритмів управління роботи системи. Їх призначення в тому, щоб процес функціонування системи розпізнавання був в певному змісті оптимальним і вибраний критерій якості цього процесу досягав екстремального значення. В якості подібного критерію може використовуватись, наприклад, ймовірність правильного рішення задачі розпізнавання, середній час її рішення, затрати пов'язані з реалізацією процесу розпізнавання, і т. д. Досягнення екстремальної величини названих критеріїв повинно при цьому супроводжуватись дотриманням деяких обмежуючих умов. Так, раціонально вимагати, щоб досягнення максимальної ймовірності правильного рішення задачі розпізнавання здійснювалось в умовах обмежень або на час рішення задачі, або на затрати, пов'язані з проведенням експериментальних робіт. Мінімізація середнього часу розв'язку задачі або затрат на реалізацію процедури розпізнавання повинна здійснюватись в умовах досягання заданої ймовірності правильного рішення задачі і т. д..

Задача 7. Задача полягає у виборі показників ефективності системи розпізнавання і оцінці їх значення. В якості показників ефективності системи можуть розглядатись ймовірність правильних рішень, середній час рішення задач розпізнавання, величини затрат, пов'язаних з отриманням апостеріорної інформації і т. д..Оцінка значень вибраної сукупності показників ефективності, як правило, проводиться на основі екстремальних досліджень або реальної системи розпізнавання, або за допомогою її математичної моделі.

Розглянемо типи систем розпізнавання, які використані в даному проекті:

системи самонавчання. В цих системах початкової апріорної інформації достатньо лише для визначення словника ознак х1,…, хN, але не достатньо для проведення класифікації об'єктів. На стадії формування ситеми їй пред'являють початкову сукупність об'єктів 1,…,l, заданих значеннями своїх ознак

1-(х11,…, х1N); …; l-(хl1,…, хlN)

Проте через обмеженість об'єму початкової інформації система при цьому не отримує вказівок про те, до якого класу належать об'єкти початкової сукупності. Ці вказівки замінюються набором правил, у відповідності з якими на стадії самонавчання система розпізнавання напрацьовує класифікацію, яка може відрізнятися від природної і на далі її притримується. На мал. 4.2 наведена структурна схема системи самонавчання (де

ОС - об'єкти для самонавчання;

ТЗ - технічні засоби (сканер);

БАР - блок алгоритмів розпізнавання;

АІ - апріорна інформація;

режим самонавчання;

розпізнавання невідомих об'єктів)

Размещено на http://www.allbest.ru/

Мал.4.2 Структурна схема системи самонавчання

Рішення

Aі

Термін "повна початкова апріорна інформація" характеризує не абсолютну, а відносну кількість необхідної інформації. Він вказує на те, що у системах без навчання при інших рівних умовах кількість початкової інформації більша, ніж в системах розпізнавання інших названих класів. В той же час для систем розпізнавання однакових класів абсолютна кількість початкової інформації може бути різною при необхідності розпізнавати об'єкти різного походження.

Не слід вважати, що системи з навчанням або самонавчання обходиться без недостатньої апріорної інформації. Вони її отримують в процесі навчання або самонавчання. Більш того, ціль навчання або самонавчання -- напрацювати таку кількість інформації, яка необхідна для функціонування системи розпізнавання.

ймовірні системи. В даних системах для побудови алгоритмів розпізнавання використовуються ймовірні методи розпізнавання, основані на теорії статичних рішень. В загальному випадку використання ймовірних методів розпізнавання передбачає наявність ймовірних залежностей між ознаками об'єктів, що розпізнається, і класами, до яких ці об'єкти відносяться.[6]

4.2 Сегментація

В останні роки в обробці зображень широке розповсюдження отримала сегментація -- операція розбиття початкового зображення на області, кожна з яких має певні властивості.

При зчитувані багаторядкового тексту найбільш тяжким є сегментація рядку на окремі символи, або сегментація тексту на окремі блоки. При зчитуванні документів проводиться сегментація сторінки тексту на окремі рядки, а рядок на окремі символи. Ця операція здійснює істотній вплив на процес розпізнавання символів в цілому, так як помилки сегментації дуже важко виправляти в наступних етапах розпізнавання. Через це надійність сегментації повинна бути високою.

Для сегментування документу використовувався метод нарощення областей, який оснований на послідовній попарній перевірці сусідніх точок зображення на відповідність заданому критерію однорідності. Алгоритми, що реалізують даний метод -- це алгоритми центроїдного зв'язування, в яких відбувається порядкове сканування усіх точок зображення, а в критерії однорідності використовується адаптивний поріг -- "центроїда", який формується усередненням функції яскравості по деякій області, що зміщується в процесі сканування.[8].

В найпростішому випадку сегментація сторінки на окремі рядки виконується наступними способами:

сумування значень яскравості або чорноти елементів зображення сторінки вздовж рядків;

виявлення верхнього або нижнього краю рядка;

знаходження спеціальних міток, що проставляються на полях проти рядків.

Тому операція сегментації сторінки достатньо проста. Однак при її реалізації виникають труднощі, якщо інтервал між рядками і число символів у рядку малі, рядки перекошені, зображення сильно зашумлене.

Розглянемо один з алгоритмів сегментації сторінки машинописного тексту на рядки, який враховує вище перераховані фактори. В його основу покладено побудову базової лінії, яка проходить по основі більшості символів у рядку. Складніше сегментація зображення рядку на окремі символи, що при незадовільній якості друку документа зумовлено розривами ліній символів і відсутності чітких пробілів між ними. В результаті цього два символи можуть утворювати конфігурацію, подібну деякому третьому, один символ може породжувати декілька інших і т. д.. якщо символи в рядку мають стандартну ширину і відділені один від одного однаковими проміжками, як це має місце в машинописному тексті, то задача сегментації рядку стає простішою.


Подобные документы

  • Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.

    курсовая работа [4,5 M], добавлен 29.09.2010

  • Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

    дипломная работа [291,0 K], добавлен 14.10.2010

  • Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.

    реферат [24,5 K], добавлен 19.11.2008

  • Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.

    реферат [61,7 K], добавлен 23.12.2013

  • Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.

    курсовая работа [1,7 M], добавлен 19.05.2014

  • Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.

    дипломная работа [1,6 M], добавлен 02.07.2014

  • Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.

    статья [525,8 K], добавлен 19.09.2017

  • Опис мови програмування PHP. Стратегія Open Source. Мова розмітки гіпертекстових документів HTML. Бази даних MySQL. Обґрунтування потреби віддаленого доступу до БД. Веб-сервер Apache. Реалізація системи. Інструкція користувача і введення в експлуатацію.

    курсовая работа [42,9 K], добавлен 21.12.2012

  • Проблеми друкування шрифтом, який не підтримує програма друку. Створення програми завантаження свого шрифту у принтер. Опис та обґрунтування проектних рішень по проектуванню пристрою системи. Розрахунки та експериментальні матеріали, реалізація проекту.

    курсовая работа [17,6 K], добавлен 08.08.2009

  • Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.

    дипломная работа [3,4 M], добавлен 15.03.2022

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.