Моделі мовленнєвих сигналів

Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык украинский
Дата добавления 25.07.2022
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Зміст

Перелік умовних позначень, символів, скорочень і термінів

Вступ

1. Історія та класифікація систем. Порівняльний аналіз існуючих методів розпізнавання людини по голосу

1.1 Історія виникнення та розвитку систем розпізнавання мови

1.2 Загальна структура системи автоматичного розпізнавання мовлення

1.2.1 Типи систем розпізнавання мови за послідовністю слів

1.2.2 Типи систем розпізнавання мови по залежності від диктора

1.2.3 Порівняння існуючих систем

1.2.4 Синтезатори мовлення

1.2.5 Моделі синтезу мови

1.2.6 Порівняльний аналіз синтезаторів мовлення

Висновки до розділу

2. Структура мовлення та архітектура розпізнавання, загальні поняття про нейронну мережу

2.1 Структура мовлення

2.2 Архітектура систем розпізнавання

2.3 Методи та алгоритми розпізнавання мови

2.3.1 Динамічне програмування

2.3.2 Прихована марківська модель

2.3.3 Нейронні мережі

Висновки до розділу

3. Системи і перетворення сигналів

3.1 Загальні відомості про системи

3.2 Лінійні системи

3.3 Лінійні дискретні системи

3.4 Дискретна згортка

3.5 Система з кінцевою імпульсною характеристикою

3.6 Система з нескінченною імпульсною характеристикою

3.7 Спектральний опис лінійних систем з одним входом та виходом

3.8 Оцінка параметрів лінійних систем

Висновки до розділу

4. Автоматичне розпізнавання мовлення та розуміння природної мови

4.1 Основні положення

4.2 Система ASR (система автоматичного розпізнавання мовлення)

4.3 Базовий склад ASR

4.4 Загальний процесс розпізнання мовлення

4.4.1 Побудова системи розпізнавання мовлення

4.4.2 Завдання розпізнавання

4.4.3 Набір функцій розпізнавання

4.4.4 Навчання розпізнавання

4.4.5 Тестування та оцінка продуктивності

4.5 Процеси прийняття рішень в ASR

4.5.1 Прихована модель Маркова

4.6 Проблема пошуку

4.7 Проста система ASR: розпізнавання ізольованих цифр

4.8 Оцінювання роботи розпізначів мовлення

Висновки до розділу

Висновки

Перелік джерел посилань

Додаток

Перелік умовних позначень, символів, скорочень і термінів

API - Application Programming Interface;

MFCC - Mel-frequency;

DCT - Discrete Cosine Transform;

DTW - Dynamic Time Wrapping;

NN - Neural Networks;

IDE - Integrated Development Environment;

CDDL - Common Development and Distribution License Computing;

САР - система автоматичного регулювання;

D - звукова розбірливість;

S - складова розбірливість;

W - словна розбірливість;

I - фразова розбірливість;

А - формантна розбірливість;

Р(Е) - залежність коефіцієнтів сприйняття формант від відносного рівня інтенсивності формант (від ефективного рівня відчуття фомант);

S(А) - залежність складової розбірливості від формантної;

W(S) - залежність словної розбірливості від складової;

k(f) - ваговий коефіцієнт, що характеризує ймовірність наявності формант промови в смузі частот;

cepstrum coefficients LPC - Linear Preedictive Coding;

АЧХ - амплитудно-частотна характеристика;

СПММ - система прихованої марківської моделі;

DSP - цифрова обробка сигналів;

САРМ - система автоматичного розпізнавання мови.

Вступ

Ще до революційного винаходу Олександра Грема Белла інженери та вчені вивчали феномен мовленнєвої комунікації з ціллю створення ефективніших та ефективних систем спілкування між людьми. Починаючи з 1960-х років, цифрова обробка сигналів (DSP) відігравала центральну роль у вивченні мовлення, і сьогодні DSP є можпивістю реалізації плодів знань, отриманих протягом десятиліть досліджень. Одночасні досягнення в технології інтегральних схем і комп'ютерної архітектури створили технологічне середовище з практично безмежними можливостями для інновацій у додатках мовної комунікації. У цьому тексті висвітлюється центральна роль методів DSP у сучасних дослідженнях та застосуванні мовленнєвої комунікації. Представляється вичерпний огляд цифрової обробки мовлення, який варіюється від основної природи мовного сигналу, через різноманітні методи представлення мовлення в цифровій формі, до застосувань у голосовому спілкуванні та автоматичному синтезі та розпізнаванні мовлення. Широта цієї тематики не дозволяє обговорювати будь-який аспект обробки мовлення на велику глибину; отже, наша мета -- надати корисне введення в широкий спектр важливих понять, які охоплюють область цифрової обробки мовлення. У зв'язку з цим, обробка мовних сигналів у сфері розвитку штучного інтелекту є одним із найважливіших завдань. Однак, перш ніж система повинна зрозуміти сенс висловлювання, їй необхідно визначити, якою мовою воно було вимовлено. Визначення розмовної мови у наші дні залишається актуальним завданням, оскільки досі немає методів, дозволяють однозначно вирішити це завдання. Основна складність її вирішення пов'язана, перш за все, з частотно-часовою варіативністю мовного сигналу (зміною його протяжності та частотних характеристик базових мовних одиниць - фонем), яка, як правило, обумовлена індивідуальними особливостями диктора, довкіллям, емоційним забарвленням, акцентом і т.д. Для компенсації тимчасових змін давно розроблено та успішно застосовується система прихованих марківських моделей (СПММ). У той час, як обробка частотних параметрів сигналу менш однозначна, є безліч варіантів вирішення задачі, як на етапі обчислення параметричного вектора, так і на етапі класифікації. Процес частотно-часової обробки мовного сигналу отримав загальноприйняту назву - акустичне моделювання.

Поряд з цим, зараз, машинне навчання є областю наукових досліджень, що активно розвивається. Це як з можливістю швидше, простіше і дешевше обробляти дані, і з розвитком методів виявлення цих даних законів, якими протікають фізичні, біологічні, економічні та інші процеси. У деяких завданнях, коли такий закон визначити досить складно, використовують глибинне навчання (deep learning). Глибинне навчання розглядає методи моделювання високорівневих абстракцій даних за допомогою безлічі послідовних нелінійних трансформацій, які, як правило, представляються у вигляді штучних нейронних мереж. Головними недоліками традиційних методів визначення мови мовного сигналу є вимога точної розмітки навчальних даних та розробка мовних моделей, що є дуже трудомістким та дорогим процесом, а значить навчальна вибірка автоматично скорочується у розмірі. Застосування методів глибинного навчання дозволяє позбутися цих проблем. Щоб застосувати техніку цифрової обробки сигналів до завдань обробки мовлення, важливо розуміти основи процесу відтворення мови, і навіть цифрової обробки сигналів. У цьому розділі представлений огляд акустичної теорії відтворення мови і показано, як ця теорія призводить до безлічі способів уявлення мовного сигналу. Мовні сигнали складаються із послідовності звуків. Ці звуки і переходи між ними є символічним уявленням інформації. Розташування цих звуків регулюється правилами мови. Вивчення цих правил та їх значення у людському спілкуванні є областю лінгвістики. Вивчення та класифікація звуків мови називається фонетикою. Голосовий шлях починається біля отвору між голосовими зв'язками або голосовою щілиною і закінчується біля губ, що складається з горлянки. Довжина голосу чоловіка = 17 см. Площа поперечного перерізу коливається від 0 до 20 см2. Носовий хід починається біля піднебіння а і закінчується у ніздрі. Підгортання система служить джерелом енергії для мови. Мова: хвиля, що випромінюється системою, коли повітря збуджене звуженням десь у голосовій доріжці. Звуки мови можна розділити на 3 різних класи в залежності від способу їхнього збудження. 1. Дзвінкий звук: створюється шляхом нагнітання повітря через голосову щілину з натягом голосових зв'язок, відрегульованим таким чином, щоб вони вібрували в коливаннях релаксації, тим самим виробляючи квазіперіодичні імпульси повітря, які збуджують голосовий слід. Приклад: у, д, ш, і, е. Фрикативні або глухі звуки: Утворюються шляхом утворення звуження в якійсь точці вокальної доріжки та нагнітання повітря через звуження із досить високою швидкістю, щоб викликати турбулентність. Це створює джерело шуму широкого спектра для збудження вокальної доріжки. Вибухові звуки: виникають у результаті повного закриття, наростання тиску за закриттям та його різкого відпускання. Питання людино-машинної взаємодії є одними з найважливіших під час створення нових комп'ютерів. Найбільш ефективними засобами взаємодії людини з машиною були б ті, що є природними для нього: через візуальні образи та мовлення. Створення мовних інтерфейсів могло б знайти застосування в системах різного призначення: голосове управління для людей з обмеженими можливостями, надійне управління бойовими машинами, що «розуміють» лише голос командира, автовідповідачі, що обробляють в автоматичному режимі сотні тисяч дзвінків на добу (наприклад, у системі продажу авіаквитків) тощо. При цьому, мовний інтерфейс повинен включати два компоненти: систему автоматичного розпізнавання мови для прийому мовного сигналу і перетворення його в текст або команду, і систему синтезу мови, що виконує протилежну функцію - конвертацію повідомлення від машини в мову. Проте, незважаючи на стрімко зростаючі обчислювальні потужності, створення систем розпізнавання мови залишається надзвичайно складною проблемою. Це обумовлюється як її міждисциплінарним характером (необхідно мати знання у філології, лінгвістиці, цифровій обробці сигналів, акустиці, статистиці, розпізнаванні образів тощо), так і високою обчислювальною складністю розроблених алгоритмів. Останнє накладає суттєві обмеження на системи автоматичного розпізнавання мови - на обсяг словника, що обробляється, швидкість отримання відповіді та її точність. Не можна також не згадати про те, що можливості подальшого збільшення швидкодії ЕОМ за рахунок удосконалення інтегральної технології рано чи пізно будуть вичерпані, а зростаюча різниця між швидкодіями пам'яті та процесора лише посилює проблему. Існують області застосування систем автоматичного розпізнавання мови, де описані проблеми виявляються особливо гостро через жорстко обмежені обчислювальні ресурси, наприклад, на мобільних пристроях. Виробники мобільних телефонів і планшетів знайшли вихід у перенесенні ресурсомістких обчислень з пристроїв користувачів на сервери в хмарі, де, фактично, і розпізнавання. Додаток користувача тільки відправляє туди мовні запити і приймає відповіді, використовуючи підключення до інтернету. За цією схемою успішно працюють системи Siri від Apple та Google Voice Search від Google. Проте, для такої реалізації необхідні певні умови, наприклад, безперервний доступ до інтернету, які в ряді випадків недосяжні, і потрібно створити компактний і надійний самостійний пристрій, що експлуатує лише доступні «на місці» обчислювальні потужності. Описані проблеми виникають під час створення інтелектуальних механізмів як у військовій сфері, так і у цивільної. Всі описані вище приклади поєднує необхідність створення компактного, надійного, самостійного та максимально швидкодіючого пристрою. Над розв'язанням зазначеної задачі працює безліч фахівців.

Таким чином, пошук нових архітектурних рішень, що не базуються на архітектурі фон Неймана, є актуальною темою, особливо в її додатку до розв'язання задач штучного інтелекту, яких відноситься і розпізнавання мови. Одним з перспективних напрямів є розробка та дослідження асоціативних середовищ та побудови за допомогою них неоднорідних клітинних автоматів. Асоціативний доступ здійснюється, на противагу адресному, за вмістом інформації, а не за її адресою в середовищі, що запам'ятовує. Це дозволяє виконувати обробку інформації безпосередньо в середовищі логіки, а час асоціативного пошуку практично не залежить від ємності накопичувача. При цьому асоціативне осциляторне середовище складається з простих осередків, кожна з яких має свій закон функціонування, а разом ці осередки виробляють потокову обробку інформації. Успішне вирішення вищезгаданих завдань, а також прогрес обчислювальної техніки загалом дозволили звернутися до вирішення одного із завдань штучного інтелекту - автоматичного розпізнавання мови. Мета роботи полягає у розробці методів розпізнавання мови в асоціативних середовищах та побудові системи розпізнавання у цих середовищах.

1. Історія та класифікація систем. Порівняльний аналіз існуючих методів розпізнавання людини по голосу

1.1 Історія виникнення та розвитку систем розпізнавання мови

Розпізнавання мови. як технологія, увійшла в суспільство порівняно недавно, з блискучими подіями запуску від високотехнологічних гігантів провідних світових трендів. Історія виникнення систем розпізнавання мови дуже багата і різноманітна, яка починалась ще визначенням окремих слів, надалі ще більших словників і нарешті до швидких відповідей на запитання, як це робить наприклад Siri.

Вперше засіб для розпізнавання мови з'явився ще в далекому 1952 році. Bell Laboratories розробили систему "Audrey", яка розпізнавала вимовлені людиною цифри. Це вірно, враховуючи складність мови, що інженери спочатку зосередились на цифрах. Та вже через десять років в 1962 році IBM випустила їх розроблену систему "Shoebox", яка розуміла 16 слів англійською.

Лабораторії в США, Японії, Англії та СРСР розробили ще кілька апаратів, які розпізнавали окремі вимовлені звуки, розширивши технологію розпізнавання мови підтримкою чотирьох голосних і дев'яти приголосних звуків. Звучали вони не дуже добре, але ці перші спроби дали вражаючий старт, особливо якщо враховувати, наскільки примітивними були комп'ютери того часу. автоматичний мовлення нейронний

Завдяки новим підходам і технологіям словниковий запас подібних систем виріс з декількох сотень до декількох тисяч слів і мав потенціал розпізнавання необмеженої кількості слів. Однією з причин був новий статистичний метод, більше відомий як прихована марківських модель. Використовуючи шаблони для слів і звукові патерни, вона розглядала ймовірність того, що невідомі звуки могли бути словами. Ця база використовувалася іншими системами ще протягом двадцяти років.

Тільки в 1997 році випустили перший у світі «безперервний розпізнавач мови», тобто більше не доводилося робити паузу між кожним словом, у вигляді програмного забезпечення Dragon's NaturallySpeaking. Цей винахід був здатний розуміти 100 слів за хвилину, він все ще використовується сьогодні в оновленій формі і користується попитом у лікарів.

Проривом для технології розпізнавання мови стало машинне навчання, завдяки чому кількість помилок при розпізнаванні слів стала значно меншою. Google об'єднав новітні технології з хмарними обчисленнями для обміну даними і це призвело до запуску додатка Google Voice Search для iPhone у 2008 році. Google ввів елементи персоналізації в свої результати пошуку за допомогою голосу, і використовував ці дані для розробки свого алгоритму Hummingbird, отримуючи набагато більше тонке розуміння використовуваної мови.

Потім з'явилася Siri, яка так само, як і система Google Voice Search, покладається на хмарні обчислення. Siri використовує ті дані, які їй відомі про тебе, щоб згенерувати відповідь, яка випливає з контексту і відповідає на твій запит як деяка особистість. Розпізнавання мови перетворилося з інструмента у розвагу.

Методи, які використовувались для здійснення цих проривів вперед, стали витонченішими в тій мірі, в якій вони тепер вільно симулюють принципи, засновані на схемах роботи людського мозку. Комп'ютери на базі хмарних обчислень увійшли в мільйони будинків і можуть контролюватися голосом, навіть пропонуючи інтерактивні відповіді на широкий спектр запитів.

На сьогоднішній день технологія дійсно корисна для виконання повсякденних завдань. Запитайте у Siri, Cortana або Google, яка погода буде завтра, і вона надасть цілком виразний словесний звіт. Звичайно пристрій ще не повністю досконалий, але розпізнавання мови досягло зараз прийнятного рівня точності для більшості людей, причому всі основні платформи повідомляють про частоту помилок менше 5%.

Мова йде про нестаціонарний сигнал, тобто його характеристики змінюються у часі. Можна наочно зобразити ці зміни, побудувавши графіки модулів ДПФ для фрагментів (фреймів) мовного сигналу, що йдуть підряд. Зображення, що вийшло, називається спектрограмою (рисунок 1,3.б). На рисунках 1.1 і 1.2 видно, що найбільше енергії несуть частоти до 8 КГц. Тому при оцифровці мовного сигналу типовим вибором частот дискретизації. Його характеристики змінюються у часі. Можна наочно зобразити ці зміни, побудувавши графіки модулів ДПФ для фрагментів (фреймів) мовного сигналу, що йдуть підряд. Зображення, що вийшло, називається спектрограмою (рисунок1. 3.б). На рисунках 1.2 і 1.3 видно, що найбільше енергії несуть частоти до 8 КГц. Тому при оцифровці мовного сигналу типовим вибором частоти дискредитації є 16 КГц.

Рис. 1.1 - Ділянка промови з голосним звуком «а»

Рис.1, 2 - ДПФ для дільниці мовленого сигналу с голосним звуком «а»

а) б)

Рис. 1.3 - Осциллограмма слова «Вперед» і його спектрограма

Як слова в писемному мовленні утворюються з кінцевого набору символів - алфавіту мови, так і усне мовлення при всій її варіативності включає обмежений набір звукових «літер». Мінімальною сенсорною одиницею мови є фонема.Фонетична система сучасної української мови, включаючи літературні норми й деякі діалектні особливості, налічує 38 основних фонем: 6 голосних і 32 приголосних; додатково визначають 13 приголосних фонем у периферійній підсистемі, але існують й інші погляди на фонемний склад української мови.

1.2 Загальна структура системи автоматичного розпізнавання мовлення

У роботі системи автоматичного розпізнавання мови (АРМ) вхідний мовленнєвий сигнал перетворюється в послідовність акустичних векторів-ознак

Y1: T =--(y1--,--y--2--,...,yT--) (1.1)

в результаті постпроцесингу. Потім декодер намагається відшукати послідовність мовленнєвих сегментів, заданих символами

w1: L =--(w1 , w2 ,...,wL) ),

яка найбільш ймовірно відповідає Y, яка спостерігається:

w€ = argmax P(w | Y)--@ argmax p(Y | w)P(w).

відшукати послідовність мовленнєвих сегментів, заданих символами

w1:L =--(w1 , w2 ,...,wL ),

яка найбільш ймовірно відповідає Y, яка спостерігається:

w€ = argmax P(w | Y)--@ argmax p(Y | w)P(w).

ww

Еквівалентність правої частини виразу, що випливає із застосування правила Байєса, представляє базове формулювання генеративної моделі розпізнавання мовлення.

Акустична - p(Y | w) та лінгвістична - P(w ) - складові генеративної моделі, описуються кожна своїми стохастичними породжувальними граматиками.

Акустична модель кожного зі слів w формується в результаті композиції моделей базових мовленнєвих елементів, тобто фонем, які складають фонемну транскрипцію слова q(w) =(q ,q ,...,q ). Для моделювання екстралінгвістичних явищ, властивих спонтанному мовленню, в алфавіт базових елементів, додатково до фонем і фонем-пауз, вводяться символи, які відображають неінформативні звуки.

Загальноприйняті системи пофонемного розпізнавання оперують алфавітом фонем, контекстно-залежних або контекстно-незалежних, з яких будуються мовленнєві образи слів. Вже на послідовності слів накладаються обмеження шляхом введення лінгвістичної моделі на основі породжувальних граматик або статистичної моделі, враховуючи контексти слів.

Загальноприйняті системи розпізнавання оперують алфавітом фонем, контекстно-залежних або контекстно-незалежних, з яких будуються мовленнєві образи слів. Вже на послідовності слів накладаються обмеження шляхом введення лінгвістичної моделі на основі граматик або статистичної моделі, враховуючи контексти слів.

На рис. 1.4 зображено загальну структуру системи автоматичного розпізнавання злитого мовлення, яка є спільною для ізольованих, клієнт-серверних і гібридних технологій. первинних векторів-ознак.

Рис.1.4 Система автоматичного розпізнавання злитого мовлення.

При цьому використовується мілкепстральне перетворення з відніманням середнього значення. Декодер проводить порівняння вхідного мовленнєвого сегмента з гіпотезами еталонного сигналу допустимих послідовностей слів із робочих словників, застосовуючи деяку обережну стратегію відкидання малоперспективних гіпотез. Для цього використовуються дані з акустичної та лінгвістичної моделей. Послідовність слів, за якою генерується еталонний сигнал, найбільш схожий на вхідний сигнал, оголошується відповіддю розпізнавання.

В ізольованих системах розпізнавання мовлення модулі реального часу та всі компоненти бази даних і знань знаходяться безпосередньо на портативному пристрої. Клієнт- серверні системи передбачають розміщення детектору голосової активності на пристрої, у той час як препроцесор може перебувати як на серверній, так і на клієнтській частині. Декодер із базами даних і знань перебуває на сервері. У гібридних системах розташування як модулів, так і компонент бази даних і знань варіюється.

1.2.1 Типи систем розпізнавання мови за послідовністю слів

Усі сучасні описи мовлення певною мірою є імовірнісними. Це означає, що між одиницями чи між словами немає певних пауз. В системах розпізнавання мови можна умовно виділити декілька класів, які послідовності слів вони мають можливість аналізувати:

1.Окремі слова

Такі системи розраховані на то, що вимова кожного слова буже оточено тишою з обох сторін, тобто до і після слова повинна слідувати пауза. Зручно використовувати у ситуаціях, коли потрібно сказати якусь команду, яка складається з одного слова. В такій системі окремою задачою виявляється виділення пауз у мові між сусідіми входженнями, однак таку задачу все ж таки найлегше реалізувати навідміну від наступних. Йдеться про нестаціонарниий сигнал, тобто. його характеристики змінюються у часі. Можна наочно зобразити ці зміни, побудувавши графіки модулів ДПФ для фрагментів (фреймів) мовного сигналу, що йдуть підряд. Зображення, що вийшло, називається спектрограмою (рисунок 1.3.б). На рисунках 1.2 і 1.3 видно, що найбільше енергії несуть частоти до 8 КГц. Тому при оцифровці мовного сигналу типовим вибором частоти дискретизації є 16 КГц.

Розмір лексики має важливе значення для системи розпізнавання мови та її роботи. Словниковий запас визначається як набір слів, з яких система може вибрати, тобто слова, на які він може посилатися. У випадках, коли варіантів небагато, розпізнавання очевидно простіше, ніж якщо словниковий запас великий. Так виділяють такі типи на основі об'єму словника:

- Малий словник (розпізнає від 1 до 100 слів або фраз);

- Середній словник (розпізнає від 101 до 1000 слів або фраз);

- Великий словник (розпізнає від 1001 до 10000 слів або фраз).

1.2.2 Типи систем розпізнавання мови по залежності від диктора

Кожна людина має свої особливості та властивості голосу, які будуть розглянуті далі в цій главі. Базуючись на цьому можна виокремити дві типи систем:

Дикторозалежні моделі

Програмне забезпечення для розпізнавання мови, яке залежить від знання особливостей голосу мовця. Програмне забезпечення вивчає характеристики голосу мовця через голосове навчання. Цей тип системи повинен бути навчений конкретному користувачеві, перш ніж він зможе розпізнати сказане. Цей тип системи працює добре, якщо буде лише один користувач, який буде говорити з системою.

Системи, що залежать від ораторів, як правило, здатні розпізнавати мовлення з різних контекстів (слів, фраз). Однак незалежні від оратора системи здатні розпізнавати мовлення у різних користувачів, обмежуючи контексти мови (слова та фрази).

Дикторонезалежні моделі

Програмне забезпечення, яке не потребує навчання, не залежить від ораторів. Ці системи використовуються для автоматизованих телефонних інтерфейсів. Ці системи можуть бути використані різними особами без навчання розпізнаванню мовленнєвих особливостей кожної людини.

1.2.3 Порівняння існуючих систем

Розглянемо найпопулярніші постачальники послуг з розпізнавання голосу на ринку.

Dragon Naturally Speaking (його ще називають Dragon for PC) є найкращим загальним програмним забезпеченням для розпізнавання голосу. Його можна використовувати як в особистих, так і в офіційних цілях. Так Dragon Home допоможе вам у кількох повсякденних заходах, таких як диктування домашніх завдань, надсилання електронної пошти та навіть у веб-серфінгу. Dragon Professional Individual допомагає працюючим особам та малому бізнесу створювати та переписувати документи, вставляючи підпис або налаштовуючи словниковий запас. Dragon Legal Individual - це допомога в юридичних професіональних справах таких, як впорядкування юридичної документації.

Google Cloud Speech API є лідером індустрії. Це програмне забезпечення розпізнає 120 мов, яке навчилось розпізнавати різних спікерів і самостійно визначати мову записи з декількох можливих. Google Cloud Speech API розшифровує аудіо з кол-центрів, перекладає, підтримує глобальних користувачів, самостійно розставляє знаки пунктуації та виконує команди. Він навіть використовує власний "мозок" для транскрипції попередньо записаного звуку. Це дивовижний інструмент. Також він підтримується всією підтримкою, якою Google так відомий.

Amazon Lex надає інструменти для вирішення складних завдань глибокого навчання, таких як розпізнавання мови і розуміння мови, за допомогою простого і повністю керованого сервісу. Amazon Lex інтегрований з сервісом AWS Lambda, який можна використовувати для простого доступу до більшості функцій і виконання функціонального коду на сервері з метою вилучення та оновлення даних. Після створення бот можна розгортати безпосередньо на платформі чату, мобільному клієнті або пристрої IoT. Можна також використовувати надані звіти для відстеження метрик свого бота. Amazon Lex надає безпечне і просте у використанні комплексне рішення, що дозволяє створювати, публікувати боти і відстежувати їх стан.

Усім відомий Siri- це найпопулярніший особистий помічник в Америці. Siri може дзвонити і відправляти повідомлення, коли ви за кермом, у вас що може знадобитися, наприклад, запропонує відправити повідомлення колегам, якщо ви спізнюєтеся на зустріч. Siri допоможе працювати з пристроєм, не торкаючись до нього. Розумний помічник запам'ятовує ваші звички і передбачає, що вам може знадобитися протягом дня. Ви можете перевіряти факти, робити розрахунки або переводити фрази з однієї мови на іншу. З 95-відсотковою точністю Сірі перевершує всіх своїх гігантів з Кремнієвої долини. Точність та інтелект помічника і надалі будуть продовжувати вдосконалюватися.

Наступний лідер ринку Voice Finger використовується в цілях схожих до нашої розробленої програми. За допомогою Voice Finger ви зможете керувати комп'ютером лише голосом і не потрібно буде використовувати клавіатуру та мишу. Він підтримує команди Windows. За допомогою цього інструменту ви зможете виконувати завдання з нульовим контактом на комп'ютері.

1.2.4 Синтезатори мовлення

У той час як завдання розпізнавання мови дуже складна і вирішена лише частково, завдання синтезу мови набагато простіше (хоча і там є чимало проблем, що чекають свого рішення). У побуті нам доводиться стикатися з різними системами синтезу мови. Ось кілька прикладів. Технології синтезу мови застосовуються в метро при оголошенні зупинок.

Власники мобільних телефонів можуть спілкуватися з автоматичною сервісною службою для визначення залишку коштів на рахунку, перемикання тарифних планів, підключення або відключення послуг тощо. Сервісна служба спілкується голосом із застосуванням технологій синтезу мови.

Випущено чимало дитячих іграшок, що «говорять» людським голосом. У цих іграшках також застосовуються найпростіші синтезатори мови або цифрові магнітофони.

Синтезатори мови застосовуються в різних голосових системах попередження, що встановлюються в автомобілях і літаках. Такі системи дозволяють привернути увагу людини до виникнення тієї чи іншої критичної ситуації, не відволікаючи його від процесу керування автомобілем, літаком чи іншим аналогічним засобом.

Також розроблено чимало комп'ютерних програм, здатних читати голосом вміст текстових файлів або текст, розташований на панелі програм. Ці системи можуть виявитися корисними тим, у кого ослаблений або повністю відсутній зір.

1.2.5 Моделі синтезу мови

Всі існуючі в даний час методи синтезу людської мови засновані на використанні двох моделей - моделі компілятивного синтезу і формантно- голосові моделі, як показано на рисунку 1.5.

Рис. 1.5. Моделі синтезаторів мовлення.

Розглянемо детальніше кожну з цих моделей нижче:

Модель компілятивного синтезу передбачає синтез мови шляхом конкатенації (складання) записаних зразків окремих звуків, вимовлених диктором. При використанні цієї моделі складається база даних звукових фрагментів, з яких в подальшому буде синтезуватися мова. На перший погляд цей підхід не повинен викликати особливих труднощів. Модель компілятивного синтезу підходить, головним чином, тільки в найпростіших випадках, коли синтезатор повинен вимовляти відносно невеликий і заздалегідь відомий набір фраз. При цьому забезпечується досить висока якість мови. Втім, цей факт не дуже дивний, якщо згадати, що для синтезу використовується природна людська мова. Проте, на стику складених звукових фрагментів можливі інтонаційні викривлення і розриви, помітні на слух. Крім того, створення великої бази даних звукових фрагментів, що враховує всі особливості вимови фонем і алофонів з різними інтонаціями, являє собою складну і копітку роботу.

Формантно-голосова модель заснована на моделюванні мовного тракту людини. Ця модель може бути реалізована із застосуванням нейронних мереж і допускає самонавчання. На жаль, зважаючи на складність точного моделювання особливостей мовного тракту, а також з врахуванням інтонаційної модуляції мови формантно-голосова модель володіє відносно низькою точністю синтезованих звуків мови. Проте, сучасні програми синтезу мови, побудовані з використанням цієї моделі, синтезують цілком розбірливу мову і можуть застосовуватися в ряді випадків. Треба зауважити, що системи голосового попередження про виникнення аварійних ситуацій краще будувати з використанням моделі компілятивного синтезу, так як розбірливість мови в таких системах виходить на передній план.

Що ж стосується «побутових» синтезаторів мови, то в них можна з успіхом застосовувати і формантно-голосову модель.

1.2.6 Порівняльний аналіз синтезаторів мовлення

Нижче наведено інформацію про декілька програмних реалізацій синтезаторів мови. Більшість таких синтезаторів розроблено для платформи Microsoft Windows і користується мовним програмним інтерфейсом Speech API, розробленим компанією Microsoft.

Синтезатор мови Google дозволяє озвучувати текст в додатках.

Наприклад, він використовується:

-в Google Play Книгах для читання вголос;

-в Google Перекладач для вимови слів;

-в TalkBack і інших сервісах спеціальних можливостей для озвучування тексту на

екрані;

-в інших додатках, які можна знайти в Play Маркеті.

SpeechText - технологія, яка розроблена спеціально, для тих, у кого зайняті руки, кому цікаво знати вимова будь-яких слів. Цей додаток вимовляє будь-який введений вами текст, на будь-якому з доступних мов. Є можливість зберігати в вигляді звукового файлу на карту пам'яті те, що було написано.

Болтун - зручний додаток для пристроїв на Андроїд. Може озвучити текст SMS, повідомлення електронної пошти, статтю в браузері - будь-які тексти, які ви скопіювали в буфер обміну або введете прямо в додаток.

Висновки до розділу

1. Досліджено історію виникнення та розвитку систем розпізнавання мови.

2. Показано, що за сучасними тенденціями завдання є дуже актуальним.

3. Розглянуто основні ознаки, за якими можна класифікувати системи розпізнавання людської мови і те, як ці ознаки можуть впливати на роботу системи.

4. Наведений порівняльний аналіз декількох найбільш відомих та кращих існуючих систем. Окремо було досліджено синтезатори мови, а саме моделі синтезу мови та виконано порівняльний аналіз існуючих платформ.

2. Структура мовлення та архітектура розпізнавання, загальні поняття про нейронну мережу

2.1 Структура мовлення

Мова є найбільш природною формою людського спілкування і тому реалізація інтерфейсу з урахуванням аналізу мовної інформації є перспективним напрямом розвитку інтелектуальних систем управління. Однією з актуальних невирішених завдань області інформаційно-вимірювальних систем є створення систем автоматичного розпізнавання інваріантних для диктора голосових сигналів. Її рішення дозволило б розширити коло користувачів таких систем та значно підвищити ефективність обміну інформацією у людино-машинних системах.

Реалізація мовного інтерфейсу -- дуже складне технічне завдання, вирішення якого перебуває в стику багатьох галузей науки. Тому при сприйнятті мови людина використовує механізми асоціативного аналізу, не тільки аналізуючи та порівнюючи почуті звуки, але збираючи фонеми в словесні образи, підбираючи найбільш підходящі слова не тільки за подібністю звучання, але й за інтонацією, емоційне забарвлення, контекст слів, словосполучень, речень навіть усього тексту. Тому людина здатна розпізнавати мову навіть за великої нестачі інформації. Наприклад, людина набагато вимогливіша до якості звуку при прослуховуванні тексту іноземною мовою, який він погано знає, ніж при сприйнятті рідної мови. Ще час безпосередньо впроваджувати лінгвістичний інтерфейс у повсякденне життя кінцевого користувача, але поточний прогрес складно переоцінити. Програми та системи, що мають засоби лінгвістичного введення, набувають все більшого поширення, але, враховуючи всі їхні недоліки, варто розглянути перспективи розробки вузькоспеціалізованих систем, які мають чітке застосування:

--управління системами життєзабезпечення для людей з обмеженими фізичними можливостями та побудови систем інтелектуалізації житла, так звані «розумні будинки»;

--розробка інформаційно-довідкових служб різного призначення, в яких клієнт запитує довідки, данні, що його цікавлять й одержує інформацію в мовній або іншій формі; телефоні лінії підтримки клієнтів, електронна комерція;

-- управління освітленням, водопостачанням, опалюванням, кондиціонуванням повітря тощо;

-- створення індивідуальних автоматичних систем перекладу з одної мови на іншу, що працює у реальному часі;

-- судові експертизи, зокрема системи відтворення спотворених та зашумлених мовних повідомлень;

-- в майбутньому -- пошук в інформаційних мережах мовної інформації за заданими ключовими словами або проблематикою.

-- системи контролю присутності людини;

-- аутентифікація та контроль доступу;

-- телефонний банкінг;

-- голосовий ввід інформації, що замінює текстовий набір;

-- автоматизовані системи заповнення анкет та шаблонних інформаційних листів;

-- біометрична реєстрація в різноманітних і різнонаправлених телефонних системах; Існують різні підходи до вирішення даного завдання, однак є загальні вимоги, яким має відповідати ідеальна система автоматичної ідифікації розмовної мови (англ. Spoken language identification, далі SLI) :

1. Система не повинна бути "зміщена" у бік будь-якої мови або групи мов, де зсуви можуть існувати через різну кількість навчальних даних або різного числа векторів ознаки для однієї моделі;

2. Час визначення мови має бути малим, а отже, система не повинна бути надто складною;

3. При збільшенні кількості мов, що визначаються, або зменшенні тривалості висловлювання зниження продуктивності системи має бути прийнятним;

4. Система має бути стійкою (надійною) за наявності низького співвідношення сигнал-шум.

Кожна SLI система включає кілька рівнів (етапів) обробки сигналу. Розглянемо кожен рівень окремо:

1. Акустичний рівень. Акустична інформація є однією з найпримітивніших форм інформації, які можуть бути одержані під час параметризації досліджуваного мовного сигналу. Крім того, більш високі рівні системи, такі як фонотактичний та лексичний можуть отримати інформацію на основі акустичного аналізу.

2. Фонетичний рівень. Людина може видавати велику кількість кількість звуків, проте, кожен із цих звуків є у конкретно заданій мові, отже, кожна мова має своє власне кінцеву підмножину значних звуків, фонем. Фонема - це мінімальна сенсорозрізна одиниця мови. Одна фонема може бути в декількох мовах, але частота її появи в кожній мові може бути різною. Фонотактика визначає допустимі комбінації фонем у конкретній мові.

3. Просодичний рівень. На цьому рівні визначаться інформація про зміну висоти тону (інтонація, акцент, тембр). У всіх мовах інтонація використовується у тому, щоб сестиматизувати якусь семантику висловлюванню, у деяких мовах інтонація може визначати значення слів.

4. Лексичний рівень. Різні мови мають власні набори словників і правила освіти слів. Отже, можна спробувати визначити мову промови лише на рівні слова.

5. Синтаксичний рівень. Моделі побудови речення різні в різних мовах, навіть у тому випадку, якщо одне і те ж слово є в декількох мовах, набори слів, які можуть передувати і слідувати за цим словом, різні .

Більшість існуючих методів використовує як інформативні ознаки спектральні характеристики сигналу, а як класифікатор - приховані Марківські моделі (СММ) або нейронні мережі .

Розглянемо основи існуючих методів побудови SLI систем.

2.2 Архітектура систем розпізнавання

Фаза зустрічі функцій має здатність створити образ форми голосових зв'язок. Тобто в цифровому сигналі виділяються області, які містять розмовну частину, виключаються проміжні та знаходять параметри мовлення. Основна мета цього етапу полягає в тому, щоб позбавить нас від використання необхідної несуттєвої інформації, фону, емоцій та іншого. Вектори функціональності полягають у генерації ділень у кадрі довжиною приблизно 25 мс і обчисленні 10 мс. Одна зі схем кодування для зразків і використання заснована на коефіцієнті Mel-Frequency Cepstral Coefficient (MFCC). Основа розуміння мови полягає в тому, що вони дуже відрізняються за формою голосового тракту, включаючи язик, а також за зубами та оком. Ця форма визначається тим, чим вона є. Почнемо з окремого у формі, слід дати уявлення про фонемну точність твору. Форма вокального тракту проявляється у смаку енергетичного спектру пивоварного терміну, і збірка MFCC точно представляє цей смак. Коефіцієнти кепстрал частоти Mel (MFCC) - це функція, яка амбітно використовується для автоматичного розпізнавання гучномовців і гучномовців. Його познайомили Девіс і Мермельштейн у 1980-х роках і в стані модернізму. До впровадження MFCC основними функціями автоматичного розпізнавання мови були коефіцієнти лінійного передбачення (LPC) і коефіцієнти лінійного прогнозування (LPCC). Нижче наведені основні аспекти коефіцієнта частоти цього, важливо впроваджувати та впроваджувати спеціальні заходи для відновлення.

Алгоритм відстеження та частотні коефіцієнти цієї частоти для даного кадру виглядає наступним чином: Мел-частотні кепстральні коефіцієнти (MFCC) - це функція, яка широко використовується в автоматичному розпізнаванні мови та динаміків. Вона були представлені Девісом і Мермельштейном у 1980-х роках і з тих пір є найсучаснішою. До впровадження MFCC, лінійні коефіцієнти прогнозування (LPC) та лінійні коефіцієнти прогнозування (LPCC) були головними функціями для автоматичного розпізнавання мови. Далі викладені основні аспекти мел-частотних кепстральних коефіцієнтів, а саме як їх реалізувати та чому вони є особливими для розпізнавання.

Алгоритм знаходження мел-частотних кепстральних коефіцієнтів для заданого фрейму наступний:

Розкладаємо у ряд Фур'є.

Вихідний мовний сигнал запишемо в дискретному вигляді як:

??[??], 0 ? ?? ? ??, (2.1)

застосуємо до нього перетворення Фур'є, а саме можна використати

Застосуємо до нього перетворення Фур'є, а саме можна використати швидке перетворення Фур'є (FFT реалізація):

????[??] ???-1 ??[??]??

-2????????

??, 0 ? ?? ? ??,(2.2)

Далі застосуємо віконну функцію Хеммінга для зглажування значень на межах фреймів:

??[??] = 0.54 - 0.46 cos (2????),(2.3)

??-1

В результаті отримуємо наступний вектор:

??[??] = ??[??] * ??[??], 0 ? ?? < ??, (2.4)

Важливо розуміти, що після цього перетворення по осі Х ми маємо частоту (hz) сигналу, а по осі Y - магнітуду (як спосіб піти від комплексних значень). На рисунку 2.1. наведені частота і магнітуда сигналу.

Рис.2.1. Частота та магнітуда сигналу

Рис. 2.2. Графік залежності mel-одиниць від частоти

Така залежність не претендуєна великуточність, алезате виконується наступною формулою:

??(??) = 1127 * log (1 + ?? 700),(2.5)

Обернене перетворення має наступний вигляд:

?? = 700 * (exp

??-1( ) ?? ) - 1),(2.6)

1125

Подібні одиниці виміру часто використовують при вирішенні задач розпізнавання, так як вони дозволяють наблизитися до механізмів людського сприйняття, яке поки що лідирує серед відомих систем розпізнавання мови.Для розкладання спектру сигналу по mel-шкалі необхідно побудувати mel-фільтри. Мел-фільтр є трикутним віконною функцією, яка підсумовує енергію на своєму діапазоні частот і обчислює mel-коефіцієнти. Знаючи кількість mel-коефіцієнтів і діапазон частот можна побудувати набір наступних фільтрів, наприклад, як на рисунку 2.1:

Рис. 2.3. Графік mel-фільтрів

Чим більше порядковий номер мел-коефіцієнта, тим ширше основа фільтра. Це пов'язано з тим, що розбиття потрібному нам діапазону частот на оброблювані фільтрами діапазони відбувається на шкалі Мілове.

Нехай ми маємо фрейм з 256 елементами з частотою звуку 16000 Hz.

Припустимо, що людська мова лежить в діапазоні від 300 до 8000 Hz. Кількість мел-коефіцієнтів, які ми хочемо знайти, рівна 10.

Для побудови 10 трикутних фільтрів необхідно взяти 12 опорних точок:

m[i] = [401.25, 622.50, 843.75, 1065.00, 1286.25, 1507.50, 1728.74,

1949.99, 2171.24, 2392.49, 2613.74, 2834.99]

Важливо, що точки на mel-шкалі мають рівномірний розподіл. Застосуємо формулу для оберненого перетворення шкали в Hz. h[i] = [300, 517.33, 781.90, 1103.97, 1496.04, 1973.32, 2554.33, 3261.62,4122.63, 5170.76, 6446.70, 8000]

Бачимо, що шкала поступово розтягується, вирівнюючи тим самим динаміку зростання "значущості" на низьких і високих частотах.

Накладемо отриману шкалу на спектр нашого фрейму. По осі Х у нас знаходиться частота. Довжина спектра 256 елементів, при цьому в ньому вміщується 16000 Hz. Обрахувавши пропорцію отримуємо наступну формулу:

??(??) = ?????????? ((?????????????????? + 1) *h(??)

????????????????????),

В нашому прикладі отримуємо такий результат: f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128.

Знаючи опорні точки на осі Х спектру, легко побудувати необхідні фільтри за такою формулою:

0,?? < ??(?? - 1)

????

(??) =

??-??(??-1)

??(??)-??(??-1)

??(??+1)-??

??(??+1)-??(??)

??(?? - 1) ? ?? ? ??(??),

??(??) ? ?? ? ??(?? + 1)

{0,?? > ??(?? + 1)

1. Фільтруємо та логарифмуємо енергію спектра.

Застосування фільтру полягає в попарном перемножуванні його значень зі значеннями спектра. Результатом цієї операції є мел-коефіцієнт. Оскільки фільтрів у нас M, коефіцієнтів буде стільки ж.

??[??] = log(???-1|??[??]|2 * ????[??]) , 0 ? ?? ? ??,(2.7)

Однак, нам потрібно застосувати мел-фільтри не до значень спектра, а до його енергії. Після чого прологарифмувати отримані результати. Вважається, що таким чином знижується чутливість коефіцієнтів до шумів.

2. Застосовуємо дискретне косинусе перетворення.

За допомогою дискретного косинусного перетворення (DCT) можна отримати "кепстральні" коефіцієнти.

Треба трохи розповісти і про друге слово в назві - кепстра. Мова являє собою акустичну хвилю, яка випромінюється системою органів: легкими, бронхами і трахеєю, а потім перетворюється в голосовому тракті. Якщо припустити, що джерела збудження і форма голосового тракту відносно незалежні, мовний апарат людини можна представити у вигляді сукупності генераторів тональні сигнали і шумів, а також фільтрів:

1. Генератор імпульсної послідовності (тонів).

2. Генератор випадкових чисел (шумів).

3. Коефіцієнти цифрового фільтра (параметри голосового тракту).

4. Нестаціонарний цифровий фільтр.

Основна задача дискретного косинусного перетворення - це "стиснення" отриманих результатів, причому з підвищенням значущості перших коефіцієнтів і зменшення значущості останніх. У результаті для кожного фрейму ми отримаємо набір MFCC коефіцієнтів розміру M. Надалі їх можна буде використати у якості вхідних даних для акустичної моделі.

Відповідно до структури мовлення, для розпізнавання мови використовується три моделі:

1. Акустична модель - це функція, що приймає на вхід невелику ділянку акустичного сигналу (кадр або фрейм) і видає розподіл ймовірностей різних фонем на цьому кадрі. Таким чином, акустична модель дає нам можливість по звуку відновити, що було вимовлено - з тим або іншим ступенем впевненості. Фонема - елементарна одиниця людської мови.

2. Мовна модель використовується для обмеження пошуку слів. Вона визначає, яке слово могло б слідувати раніше розпізнаним словам (відповідність є послідовним процесом) і допомагає значно обмежити процес узгодження шляхом вилучення слів, які не вірогідні. Найпоширеніші мовні моделі - це n-грамові мовні моделі - вони містять статистику послідовностей слів - і моделі кінцевих мов - вони визначають мовленнєві послідовності методом автоматичного обмеження стану, іноді з вагами. Щоб досягти хорошого показника точності, мовна модель повинна бути дуже успішною в обмеженні простору пошуку. Це означає, що слід дуже добре передбачити наступне слово. Мовна модель, як правило, обмежує словниковий запас, який вважається словами, який він містить. Це проблема розпізнавання імен. Щоб вирішити це, мовна модель може містити менші фрагменти, як підслова або навіть фонеми. Обмеження шуканого фрагмента в цьому випадку зазвичай гірше, а відповідні точності розпізнавання нижчі, ніж у мовній моделі на основі слів.

3. В ході роботи системи автоматичного розпізнавання мови завдання розпізнавання зводиться до визначення найбільш вірогідною послідовності слів, відповідних змісту мовного сигналу. Найбільш ймовірний кандидат повинен визначатися з урахуванням як акустичної, так і лінгвістичної інформації. Це означає, що необхідно проводити ефективний пошук серед можливих кандидатів з урахуванням різної ймовірнісної інформації. При розпізнаванні суцільної мови число таких кандидатів величезне, і навіть використання найпростіших моделей призводить до серйозних проблем, пов'язаних з швидкодією і пам'яттю систем. Як результат, це завдання виноситься в окремий модуль системи автоматичного розпізнавання мови, званий декодером. Декодер повинен визначати найбільш граматично ймовірну гіпотезу для невідомого висловлювання - тобто визначати найбільш ймовірний шлях по мережі розпізнавання, що складається з моделей слів (які, в свою чергу, формуються з моделей окремих фонів). Правдоподібність (likelihood) гіпотези визначається двома факторами, а саме можливостями послідовності фонів, що приписуються акустичної моделлю, і можливостями проходження слів один за одним, обумовленими моделлю мови.

Ці три об'єднання об'єднані разом для розпізнавання мови.

2.3 Методи та алгоритми розпізнавання мови

Сучасніметодитаалгоритмирозпізнаваннямовленняможна поділити на наступні класи:

- Динамічне програмування - алгоритм динамічної трансформації часової шкали (Dynamic Time Wrapping - DTW).

- Приховані Марківські моделі (Hidden Markov Models - HMM).

- Нейронні мережі (Neural Networks - NN).

У багатьох статтях, які відносяться до розпізнавання мови довгий час базовим підходом вважалися приховані марківскі моделі, проте останнім часом активно розвиваються методи, засновані на застосуванні нейронних мереж. Далі наводиться більш детальний огляд зазначених методів.

2.3.1 Динамічне програмування

Визначення слова може здійснюватися шляхом порівняння числових форм сигналів або шляхом порівняння спектрограми сигналів. Процес порівняння в обох випадках повинен компенсувати різні довжини послідовності і нелінійний характер звуку. DWT алгоритму вдається розібрати ці проблеми шляхом знаходження деформації, відповідної оптимальному відстані між двома рядами різної довжини.

Існують 2 особливості застосування алгоритму:

1. Пряме порівняння числових форм сигналів. В цьому випадку, для кожної числової послідовності створюється нова послідовність, розміри якої значно менше. Алгоритм має справу з цими послідовностями. Числова послідовність може мати кілька тисяч числових значень, в той час як підпослідовність може мати кілька сотень значень. Зменшення кількості числових значень може бути виконано шляхом їх видалення між кутовими точками. Цей процес скорочення довжини числової послідовності не повинен змінювати свого уявлення. Безсумнівно, процес призводить до зменшення точності розпізнавання. Однак, беручи до уваги збільшення швидкості, точність, по суті, підвищується за рахунок збільшення слів в словнику.


Подобные документы

  • Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.

    реферат [61,7 K], добавлен 23.12.2013

  • Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

    дипломная работа [291,0 K], добавлен 14.10.2010

  • Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.

    дипломная работа [3,4 M], добавлен 15.03.2022

  • Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.

    дипломная работа [182,5 K], добавлен 07.05.2012

  • Елементи прихованої марківської моделі. Матриця ймовірностей переходів (або матриця переходів). Розподіл ймовірностей початкового стану. Розпізнавання мовлення із великих словників для ізольовано вимовлених слів. Попередня обробка мовного сигналу.

    курсовая работа [175,1 K], добавлен 13.04.2009

  • Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.

    курсовая работа [4,5 M], добавлен 29.09.2010

  • Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.

    дипломная работа [1,6 M], добавлен 02.07.2014

  • Навчання штучних нейронних мереж, особливості їх використання для вирішення практичних завдань. Рецепторна структура сприйняття інформації. Перцептрон як модель розпізнавання. Задача моделювання штучної нейронної мережі з розпаралелюванням процесів.

    дипломная работа [2,8 M], добавлен 24.07.2013

  • Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.

    курсовая работа [1,7 M], добавлен 19.05.2014

  • Визначення найкращого режиму роботи системи обробки повідомлень. Представлення моделі у вигляді системи масового обслуговування. Визначення структури моделі. Обмеження на зміну величин. Програмна реалізація імітаційної моделі. Оцінка адекватності.

    курсовая работа [153,9 K], добавлен 29.01.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.