Моделі мовленнєвих сигналів
Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | украинский |
Дата добавления | 25.07.2022 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
2. Подання сигналів спектрограм і застосування алгоритму DTW для порівняння двох спектрограм. Метод полягає в поділі цифрового сигналу на деяку кількість інтервалів, які будуть перекриватися. Для кожного імпульсу, інтервали дійсних чисел (звукових частот), буде розраховувати Швидким перетворення Фур'є, і буде зберігатися в матриці звуковий спектрограми. Параметри будуть однаковими для всіх обчислювальних операцій: довжин імпульсу, довжини перетворення Фур'є, довжини перекриття для двох послідовних імпульсів. Перетворення Фур'є є симетрично пов'язаних з центром, а комплексні число з одного боку пов'язані з числами з іншого боку. У зв'язку з цим, тільки значення з першої частини симетрії можна зберегти, таким чином, спектрограмма представлятиме матрицю комплексних чисел, кількість ліній в такій матриці є рівною половині довжини перетворення Фур'є, а кількість стовпців буде визначатися в залежності від довжини звуку. DTW буде застосовуватися на матриці дійсних чисел в результаті сполучення спектрограми значень, така матриця називається матрицею енергії.DTW алгоритми є дуже корисними для розпізнавання окремих слів в обмеженому словнику. Для розпізнавання швидкого мовлення використовуються приховані моделі Маркова. Використання динамічного програмування забезпечує полімінальную складність алгоритму: О (n2v), де n - довжина послідовності, а v кількість слів у словнику.
DWT мають кілька слабких сторін. По-перше, O (n2v) складність не задовольняє великим словників, які збільшують успішність процесу розпізнавання. По-друге, важко вирахувати два елементи в двох різних послідовностях, якщо взяти до уваги, що існує безліч каналів з різними характеристиками. Проте, DTW залишається простим в реалізації алгоритмом, відкритим для поліпшень і відповідним для додатків, яким потрібна проста розпізнавання слів: телефони, автомобільні комп'ютери, системи безпеки і т.д.
2.3.2 Прихована марківська модель
Дискретні ланцюги Маркова описують випадкові процеси, які протікають у дискретному часі та в кожний момент перебувають в одному ?? ? ?? станів; безліч станів I є кінцевим чи рахунковим. Перехід зі стану в стан має випадковий характер і задається матрицею переходів ?? = {?????? }, де ?????? - ймовірність переходу зі стану i в j. Початковий стан також вибирається випадково згідно з вектором початкового розподілу ?? = {????} , где ???? - ймовірність того, що в початковий момент процес перебуває у стані ??. Прикладами дискретних марківських процесів може бути підкидання монети, зміна довжини черги у системах масового обслуговування та багато інших. Для першого процесу множина станів I складається з двох значень - H (Heads - орел) и T (Tails - решка), а переходи рівноймовірні:
?????? = 0.5, ???, ?? ? ?? . В другому прикладі I включає в себе (N+1) значень, що відображають довжину черги. У процесі своєї еволюції Марковський процес за тактів проходить через послідовність станів ?? =??1, ??2, … , ???? . Вірогідність того, що в моменти часу 1, 2, … , ?? цими станами виявилися ??1, ??2, … , ???? ? ??, визначається наступним чином:
?? ??1 = ??1, ??2 = ??2, … , ???? = ???? = ????1 ????1??2 ? ??????-1????.
При цьому перехід у поточний стан визначається лише попереднім станом:
?? ????|????-1 = ?? ????|????-11
де ????-1 = ??1, ??2, … , ????-1. Цю особливість марківських ланцюгів називають марковським властивістю чи Марківським припущенням, а процес характеризують як «процес без пам'яті» (memoryless).
Щоб коротко записати набір параметрів прихованої Марківської моделі, їх поєднують у трійку ?? = (??, ??, ??). Крім додаткового порівняно з простим Марківським процесом параметра, у СММ з'являється припущення про незалежність вихідних значень.
?? ????|????-1, ???? = ?? ????|???? 11
Зовсім небагато і їх можна скласти будь-які слова, отже розпізнавання буде зводиться до визначення ланцюжка сказаних фонем, і словник такий системи, власне, необмежений. Є, однак, і великий мінус: така модель має низьку точність;
o трифони - коартикуляція враховується шляхом складання окремих моделей для фонем серед інших фонем. Розглянемо слово «назад»: використовуючи Міжнародний Фонетичний Алфавіт 6 його можна описати як "n-a-z-a-t". Тут фонема /а/ зустрічається двічі, але через коартикуляцію для неї потрібно скласти дві окремі моделі: "n-a+z" та "z-a+t". Це набагато складніший підхід, але й точність розпізнавання в нього вище, ніж під час використання монофонів;
* складають окремі СММ для кожного слова зі словника та при розпізнаванні вибирають «найбільш відповідну». Такий підхід підійде для розпізнавання слів, що окремо стоять.
* складають одну СММ, склеюючи СММ для слів через проміжні стани (наприклад, тишу), згідно з граматикою мови. Це необхідно для розпізнавання злитого мовлення.
Для застосування прихованих Марківських моделей у розпізнаванні мови необхідно вирішити такі три завдання :
1. Завдання оцінки - дана модель ?? та вихідна послідовність ?? . Знайти ймовірність ??(??|??), тобто визначити ймовірність того, що модель
?? згенерувала послідовність ??.
2. Завдання декодування - дана модель ?? та вихідна послідовність
??. Знайти найімовірнішу послідовність станів ??, яка могла породити ??.
3. Завдання навчання - дана модель ?? та навчальна послідовність ??. Підібрати параметри моделі ?? таким чином, щоб максимізувати ймовірність ??(??|??).
Застосування СММ для розпізнавання ізольованих слів ґрунтується на обчисленні функції прямого поширення ймовірності ???? ?? , яка визначається як ймовірність спостереження послідовності ???? = (??1, ??2, … , ???? ), перебуваючи у стані j у момент часу t на моделі?? = (??, ??, ??) :
??
???? ?? = ?? ??1, ??2, … , ????, ???? = ??|?? = ????-1 ?? ?????? ???? (????)
??=1
??1 ?? = ???? ???? (??1)
Видно, що обчислення ???? ?? відбувається рекурсивно. Для підвищення ефективності рекурсію можна перетворити на цикл. Дійшовши до кінця послідовності, що спостерігається, тобто. до ?? = ??, потрібно скласти ???? ?? для всіх станів, отримавши ймовірність спостереження послідовності?? = (??1, ??2, … , ????) для данной СММ ??:
??
?? ?? ?? = ???? ??
?? =1
Цією ймовірністю можна скористатися при розпізнаванні ізольованих слів: кожне слово моделюється СММ ???? , а при розпізнаванні слова необхідно вибрати ту СММ, яка з найбільшою ймовірністю здатна породити послідовність, що спостерігається ??
??* = argmax ??(??|???? )
??=1,…,??
При навчанні СММ необхідно оцінити її параметри ?? = ??, ??, ?? так, щоб максимізувати можливість спостереження навчальної послідовності ??(??|??). Для цього необхідно вирішити два завдання:
* ініціалізація - вибір початкових значень усіх параметрів моделі?? = ??, ??, ?? ;
· оновлення параметрів моделі - найти нові параметри моделі
?? = ?? , ?? , ?? так, что ??(??|?? ) > ??(??|??).
У цій роботі як початкові значення використовується середня кількість появи символу ???? в навчальній вибірці.
Переоцінка параметрів СММ виконується за алгоритмом Баума-Велша.
Для вирішення задачі декодування використовується алгоритм Вітербі, який працює так само, як алгоритм прямого ходу, тільки замість накопичення ймовірності прямого поширення, рухаються по максимуму:
????(??) = max ????-1(??) • ?????? ???? (????)
1??????
Коли буде досягнуто останнє значення, що спостерігається в ланцюжку, відновлюється вся послідовність станів, починаючи з кінця.Як було зазначено у першому розділі, апарат прихованих Марківських моделей було обрано для реалізації блоку розпізнавання. Головним алгоритмом у цьому підході є алгоритм прямого ходу. Далі буде описана його реалізація на елементах асоціативного осциляторного середовища.
2.3.3 Нейронні мережі
Особливе місце в задачі розпізнавання мови займають методи, засновані на нейромережевих технологіях. У цих методах результат розпізнавання є продуктом функціонування нейронної мережі певного виду і топології. Нейронні мережі являють собою безліч пов'язаних між собою елементарних процесорів (нейроподібних елементів), кожний з яких виконує відносно прості функції.
Прототипом нейрона є біологічна нервова клітина. Нейрон складається з тіла клітини, або соми, і двох типів зовнішніх деревоподібних гілок: аксона і дендритів. Тіло клітини включає ядро, яке містить інформацію про спадкові властивості, і плазму, що володіє молекулярними засобами для виробництва і передачі елементів нейрона необхідних йому матеріалів. Нейрон отримує сигнали (імпульси) від інших нейронів через дендрити і передає сигнали, згенеровані тілом клітки, вздовж аксона, що наприкінці розгалужується на волокна, на закінченнях яких знаходяться синапси. Математична модель нейрона описується наступним співвідношенням:
де ???? - вага синапса;
b - значення зміщення; s - вхідний сигнал;
??
?? = ??(??), ?? = ? ???????? + ??,
??=1
y - вихідний сигнал нейрона; n - число входів нейрона;
f - функція активації.
Структурна схема нейрона подана на рисунку 2.4:
де ??1, ??2, ..., ???? - вхідний сигнал нейрона;
??1, ??2, ..., ???? - набір вагових коефіцієнтів; f (s) - функція активації;
y - вихідний сигнал.
Рис. 2.4 - Структурна схема нейрона
Як видно, нейроподібні елемент виконує нескладні операції зваженого підсумовування, обробляючи результат нелінійним пороговим перетворенням. Особливість нейросетевого підходу полягає в тому, що структура з простих однорідних елементів дозволяє вирішувати нетривіальні завдання завдяки складній організації зв'язків між елементами. Структура зв'язків визначає функціональні властивості мережі в цілому.
Процес функціонування мережі залежить від величин синаптичних зв'язків. Задавши певну структуру мережі (на етапі проектування), знаходять оптимальні значення вагових коефіцієнтів ??1, ??2, ..., ???? і зсувів b всіх нейронів. Цей етап називають навчанням нейронної мережі.
Вирішити поставлене завдання розпізнавання мови за допомогою нейронної мережі заданої структури - означає шляхом навчання за вибіркою, заданої k парами значень вхідних і вихідних векторів (????, ????), i=1,…,k, знайти таку конфігурацію, щоб забезпечити найбільш оптимальне в певному сенсі її функціонування. Розрізняють два підходи до навчання нейронної мережі: навчання з учителем і навчання без вчителя (самонавчання). При навчанні з учителем на вхід мережі подається один з векторів ???? навчальної вибірки, вихід мережі Y порівнюється з виходом ???? навчальної вибірки, і при необхідності робляться поправки в вагові коефіцієнти і зміщення нейронів мережі. В алгоритмах навчання без учителя підстроювання ваг синапсів проводиться на підставі інформації про стан нейронів і вже наявних вагових коефіцієнтів по одному з правил навчання. Процес повторюється, поки вихідні значення мережі не стабілізуються із заданою надійністю.
Нейрони можуть групуватися в мережеву структуру по-різному. Функціональні особливості нейронів і спосіб їх об'єднання в мережеву структуру визначають особливості нейромережі. Для вирішення задач ідентифікації та управління найбільш адекватними є багатошарові нейронні мережі (БНС) прямої дії, або багатошарові персептрони. При проектуванні БНС нейрони об'єднують в шари, кожен з яких обробляє вектор сигналів від попереднього шару. Мінімальною реалізацією є двошаровий нейронна мережа, що складається з вхідного (розподільного), проміжного (прихованого) і вихідного шару, як на рисунку 2.5.
Рис.2.5 - Структурна схема двошарової нейронної мережі
Реалізація моделі двошарової нейронної мережі прямого дії має наступний математичний вигляд:
??h??h
??(??) = ???? (? ?????????? (? ?????????? + ????0) + ????0)
??=1??=1
???? - розмірність вектора входів ц нейронної мережі;
?? - вектор параметрів, що настроюються нейронної мережі, що включає вагові коефіцієнти і нейронні зміщення (??????, ??????);
???? (??) - активаційна функція нейронів прихованого шару;
???? (??) - активаційна функція нейронів вихідного шару.
Найважливішою відмінною рисою нейромережевого методу є можливість паралельної обробки. Дана особливість при великій кількості міжнейронних зв'язків дає можливість досягти значного прискорення процесу обробки даних. У багатьох випадках з'являється можливість обробки мовних сигналів в реальному часі. Ще один важливий плюс в нейромережевому методі - це узагальнення отриманих знань. Нейронна мережа має ті якості, які властиві для так званого штучного інтелекту.
В результаті процесу навчання нейронна мережа здатна виявляти складні залежності між вхідними та вихідними даними. При узагальненні інформації мережа дозволить повернути вірний результат на підставі неповних або перекручених даних. При великій кількості з'єднань між нейронами мережа набуває стійкість до помилок, які виникають на деяких лініях. Роботу пошкоджених зв'язків беруть на себе справні лінії, в результаті чого робота мережі не зазнає істотних змін.
Процедура навчання мережі є досить трудомістким в обчислювальному плані процесом, вимагає великого розміру навчальної вибірки. Крім того, процедура навчання не у всіх випадках гарантує отримання результату, багато робіт присвячено проблемам навчання нейронних мереж. Незважаючи на ці недоліки даного методу, він є одним з найчастіше використовуваних для розпізнавання мови, володіє наступними перевагами перед іншими методами: є нелінійним, досить стійкий до зашумлення мовного сигналу, легко піддається розпаралеливанню обчислень.
Розглянемо «класичний варіант» багатошарової мережі, де синаптичні зв'язки можуть визначатися будь-якими дійсними числами, а вихід нейрона - дійсними числами з інтервалу від 0 до 1. Як активаціонну функцію використовуємо сигмоїд, число шарів - довільне.
1. Визначаємо М матриць вагових коефіцієнтів W розміром NxN, де M - число шарів, N - число нейронів в одному шарі. ????,??,?? буде позначати вагу j-го входу k-го нейрона в i-м шарі. Ініціалізуємо матриці деякими малими випадковими (не однаковими) значеннями.
2. Подаємо на входи мережі певні значення X, для яких відомі правильні значення виходів мережі Y*.
3. Обчислюємо значення виходів мережі для поточного стану матриць W. Тобто для вхідного вектора X обчислюється вихідний вектор Y. Для цього необхідно послідовно обчислити вихід для кожного шару мережі з першого по останній. Для i-го шару в векторному вигляді це можна записати так:
???? = ??(?????? ), якщо і - перший шар;
???? = ??(????-1???? ), якщо і - не перший шар,
???? - вектор виходу i-го шару; F - активаційна функція;
X - вектор входів;
????-1 - вектор виходу (i-1)-го шару;
???? - матриця вагових коефіцієнтів i-го шару.
4. Обчислюємо вектор
ДY = Y-Y*
5. Якщо ДY менше заданої похибки, переходимо до кроку 9.
6. Для шару з номером M (тобто в останньому шарі) проводим наступні операції:
6.1. Для всіх нейронів в шарі з номера 1 по N робимо наступні операції:
6.1.1. Для всіх ваг нейрона з номера 1 по N робимо наступні операції:
6.1.1.1. Розраховуємо вектор
???? = ??(1 - ??)???
6.1.1.2. Розраховуємо величину
?????,??,?? = ??????, ?????? - 1, ??,
де ?? - коефіцієнт швидкості навчання (від 0.01 до 1.0).
6.1.1.3. Коригуємовеличинуваговогокоефіцієнта, додаючи до ????,??,?? величину Д????,??,??.
7. Для шарів з номером M-1 по перший послідовно проводимо такі операції:
7.1. Для всіх нейронів в шарі з номера 1 по N робимо наступні операції:
7.1.1. Для всіх ваг нейрона з номера 1 по N робимо наступні операції:
7.1.1.1. Розраховуємо вектор
???? = ????+1(1 - ????+1)[? ????+1,??????+1,??,??]
7.1.1.2. Розраховуємо величину
?????,??,?? = ??????, ?????? - 1, ??
де ??- коефіцієнт швидкості навчання (від 0.01 до 1.0).
7.1.1.3. Коригуємовеличинуваговогокоефіцієнта, додаючи до ????,??,?? величину Д????,??,??.
8. Перехід до кроку 3.
9. Кінець (навчання закінчено).
Описаний алгоритм застосовується достатню кількість разів, щоб всі варіанти вихідних значень могли правильно виходити при завданні довільних значень входу із заданою вірогідністю помилки.
З усього вищесказаного можна зробити висновок про ефективність застосування нейромережевого методу до розглянутої задачі розпізнавання мови. Використання нейромережевих методів для розпізнавання мови дозволяє істотно підвищити точність системи розпізнавання мовного сигналу і збільшити її швидкодію.
Висновки до розділу
1. Детально розглянуто крок за кроком архітектуру розпізнавання мови.
2. На першому етапі виділення ознак детально розглянуто алгоритм знаходження мел-частотних кепстральних коефіцієнтів (MFCC) для заданого фрейму.
3. Наведено три моделі розпізнавання: акустична, мовна та словник, які об'єднані разом.
4. Розглянуто сучасні методи та алгоритми розпізнавання мовлення (Dynamic Time Wrapping, приховані марківські моделі, нейронні мережі).
Особливу увагу було приділено методу, заснованому на нейронній мережі, а саме розглянуто процедуру навчання «класичного варіанту» багатошаровоїмережі.
3. Системи і перетворення сигналів
У цьому розділі описані деякі типи систем і розглядаються дві основні завдання: перше - уявлення (моделювання) аналогових систем у цифровій формі, друге - оцінка параметрів дискретних систем.
Загальні питання моделювання сигналів та систем викладені в дипломі.
3.1 Загальні відомості про системи
Під час розгляду сигналів поруч із поняттям «сигналу» використовується поняття (чи концепція) «системи». Системи описують перетворення сигналів (аналогових та цифрових). Поняття системи зручне, коли ми хочемо зв'язати два (або більше) сигнали, що виникають при їх перетворенні або реалізувати таке перетворення. Часто зручно розглядати сигнал як вихід системи, яка може бути реальною або просто зручною моделлю. Основне призначення систем - моделювання та виконання перетворень.
Акустичні сигнали зазнають різних перетворень: розповсюдження сигналу в просторі, перетворення мікрофоном акустичного сигналу в електричний, перетворення електричного сигналу. Після перетворення електричних сигналів на цифрову форму вони обробляються вже в дискретних системах.
Система - це певне перетворення сигналу. Система перетворює вхідний сигнал x(t) у вихідний сигнал y(t). Наприклад, залежність тиску повітря в точці іноді можна розглядати як звуковий сигнал. Залежність напруги у провіднику іноді теж може представляти звуковий сигнал. Мікрофон перетворює акустичну енергію звукового сигналу на напругу.
Модель системи - математичний спосіб опису перетворення сигналів та його характеристик. Модель системи описує зв'язки між сигналами на вході та виході (надалі - входом та виходом) і може бути описана у символьній формі наступним співвідношенням:
Y = F{X}, (3.1)
де X - вхід системи, Y - вихід, F{} - перетворення, яке виконується системою.
Прикладом системи є апарат мовлення, що перетворює звук коливань голосових зв'язок у звуки мови. Перелічимо основні завдання, пов'язані із застосуванням систем.
Завдання аналізу. Знаючи характеристики системи, необхідно визначити вихід по входу або вхід по виходу:
X, F › Y, (3.2)
Y, F › X. (3.3)
Завдання ідентифікації системи. Маючи вхід та вихід, необхідно визначити характеристики системи:
X, Y › F (3.4)
Завдання "сліпої" ідентифікації системи (blind system identification).
Знаючи вихід, необхідно визначити вхід та характеристики системи:
Y › F, X. (3.5)
Завдання синтезу. Необхідно визначити характеристики системи, що реалізує задане перетворення між входом та виходом:
X, Y › F. (3.6)
Моделі (поряд з аналітичними виразами) є формою представлення знань про системи. Для того самого фізичного об'єкта можна використовувати різні моделі. Будь-яка модель має характер проекції. Модель дозволяє "представити" або "замінити" систему (рисунок 3.1).
Рис. 3.1 Загальна схема СРМ з використанням нейромереж.
Надалі, говорячи про систему, ми маємо на увазі наші уявлення про неї, тобто її модель.
3.2 Лінійні системи
Лінійна система - система, що здійснює лінійне перетворення сигналу, наприклад, електричний ланцюг з елементами, що не залежать від напруг та струмів. Лінійні системи - перше наближення (модель) перетворень сигналів. Математичне визначення лінійності:
y(t) = F{a x1(t) + b x2(t)} = a F{x1(t)} + b F{x2(t)}. (3.7)
Велика кількість реальних систем із перетворення сигналів можна вважати лінійними. Наприклад, мікрофон є лінійною системою (з достатнім ступенем точності), тому що якщо в нього говорити одночасно дві людини з різною гучністю, то електричний сигнал на виході буде виваженою сумою сигналів (від кожної людини окремо) на вході, а коефіцієнти будуть означати гучність розмови першої та другої людини . Однак у обробці РС широко застосовуються і нелінійні системи. Наприклад, компресор, експандер та низка інших миттєвих перетворень є нелінійними перетвореннями.
Інваріантна до тимчасового зрушення система - це система, зсув сигналу на вході якої породжує той самий відгук, лише зрушений за часом, тобто. якщо x(t) > y(t), то x(t+ф) > y(t+ф). Це означає, що властивості системи, наприклад мікрофонів, не змінюються у часі та не залежать від вхідного сигналу.
Далі ми розглядатимемо лінійні інваріантні до зсуву системи, називаючи їх просто лінійними.
Властивості лінійних систем:
а) постійний (константа) сигнал переводиться будь-якою лінійною системою в постійний сигнал;
б) при проходженні через лінійну систему синусоїда залишається синусоїдою. Можуть змінитися лише її амплітуда та фаза (зсув у часі).
3.3 Лінійні дискретні системи
Дискретні системи - системи, що перетворюють сигнали, дискретні або за часом, або за рівнем, або за рівнем і часом (тобто цифрові сигнали). Надалі ми називатимемо дискретними системами системи, що перетворюють цифрові сигнали. Дискретні системи є дискретним аналогом безперервних систем. Співвідношення між безперервною та дискретною системами схематично представлено на малюнку.
Рисунок 3.2 - Співвідношення між безперервною та дискретною системою
Під дискретизацією системи мається на увазі перетворення непрединамічної динамічної моделі до дискретної форми опису в різницевих рівняннях. При цьому передбачається, що моменти t = iT дискретні сигнали y[i] = y(iT) отриманої дискретної моделі з певним ступенем точності повторюють значення сигналів y(t) вихідної безперервної системи.
Дискретна модель описує перетворення дискретного вхідного сигналу x[i] у вихідний сигнал y[i]:
x[i] › y[i] = F {x[i]},
де F{ } є дискретну систему (обчислювальний процес) перетворення вхідного сигналу x[i] у вихідний сигнал y[i].
Найпростішими дискретними системами є лінійні дискретні системи (ЛДС). Основними операціями в ЛДС є підсумовування, збільшення та затримка на один відлік (рисунок)
Рисунок 3.3 - Основні операції у ЛДС z-1 - оператор затримки сигналу на один відлік
В ластивості лінійності ЛДС формулюються так само, як і для безперервних лінійних систем.
Лінійність: y[i] = F{ax1[i] + bx2[i]} = a F{x1[i]} + b F{x2[i]}.
Інваріантність у часі: y[i - K] = F{x[i - K]}.
3.4 Дискретна згортка
Розглянемо формування вихідного сигналу ЛДС. Для цього розглянемо реакцію системи на цифрову дельта-функцію - сигнал виду д[0] = 1, д[i?0] = 0.
Будь-який дискретний сигнал можна розкласти на суму таких функцій, зрушених у часі. Наприклад, нескінченний сигнал x[i] можна у вигляді:
????[????] = ?+? ????[????] ????[???? - ????] = ?+?????[???? - ????]????[????].
Розглянемо відгук (вихідний сигнал) лінійної системи цифрову дельта-функцию. Для цього подамо дельта-функцію в систему та виміряємо вихідний сигнал. Нехай вихідний сигнал дорівнює h[n]: д[n] > h[n].
Сигнал h[n] називається імпульсною характеристикою або реакцією системи (impulse response), оскільки він є відгуком системи на одиничний імпульс. Знаючи h[n] (відгук системи на дельта-функцію), можна обчислити відгук системи на будь-який вхідний сигнал. Дійсно, оскільки будь-який вхідний сигнал є лінійною комбінацією зрушених у часі дельта-функцій, то вихідний сигнал буде тією ж лінійною комбінацією зрушених у часі функцій h[n]. Це випливає з лінійності системи та інваріантності до зсуву за часом:
+?
????[????] = ????[???? - ????] h[????] .
???? = -?
Таким чином, кожна точка сигналу перетворюється на функцію h (зсунуту на потрібну позицію та помножену на величину даної точки сигналу), а потім усі ці функції складаються.
Додатково вважатимемо систему каузальною, якщо її відгук слід за входом (що відповідає системам, що фізично реалізуються).
Розглянута операція отримання результуючого сигналу називається згорткою (convolution). Отже, будь-яка лінійна система здійснює згортку вхідного сигналу зі своєю імпульсною характеристикою. Це записується так: y[i] = x[i] * h[????]. Функція h[n] називається імпульсною характеристикою лінійної системи.
Властивості згортки представлені нижче.
Для каузальної системи h[i<0]=0.
Згортка з одиничним імпульсом: x[i] = x[i]*д[i].
Комутативність: x[i] = x[i]*h[i] = h[i]*x[i].
Асоціативність: x[i]*h[i]*g[i] =(x[i]*h[i])*g[i] = x[i]* (h[i]*g[i]) .
Дистрибутивність:
x[i]*(g[i] + h[i]) = x[i]*g[i] + x[i]*h[i],
(x[i] + y[i]) *h[i] = x[i]*h[i] + y[i]*h[i].
Періодичність:
якщо h[i] є періодичною, то h[i]*x[i] також періодична.
3.5 Система з кінцевою імпульсною характеристикою
Систему з кінцевим числом коефіцієнтів імпульсної характеристики називають системою з кінцевою імпульсною характеристикою (КІХ). КІХ-систему (на відміну від згортки з нескінченним числом коефіцієнтів) можна представити в наступному вигляді:
????2
????[????] = ????[????] * h[????] = ????[???? - ????] h[i i].
????= ????1
Для каузальної системи y[i] = x[i]*h[i] = ?k=0, + M x[i-k] h[i].
Для некаузальної системи y[i] = x[i]*h[i] = ?k= - M1 + M2 x[i-k] h[i]. Приклад некаузальної системи: y[i] =? (x[i -1] + 2 x[i] + x[i +1]). Частотний опис перетворення КІХ-системи наведено нижче.
Уявімо рівняння згортки в частотній області. ДПФ згортки перетворюється на добуток ДПФ імпульсної реакції та ДПФ сигналу.
y[i]= h[i]* x[i] › DFT{h[i]*x[i]} = DFT{h[i]} DFT{x[i]}.
Розіб'ємо вхідний і вихідний сигналу на кадри кінцевого розміру (fram-ing). Застосуємо ДПФ до кадрів вхідного сигналу кінцевого розміру:
Y(f, k) = H(f) X(f, k), H(f) = Y(f, k) /X(f, k) ,
де k - індекс кадрів, f - індекс частоти.
H(f) = DFT{h[i]}, X(f, k) = DFT{x[i]}, Y(f, k) = DFT{y[i]},
де H(f) - передатна функція ЛДС,
H(f) = DFT{h[i]} = ? n=0, L-1 h[n] exp (-j2рfTn).
Розглянемо вихідний сигнал системи:
Y(f, k) = H(k) X(k) = Re{Y} + j Im{Y} = (Re{H} + j Im{H}) (Re{X} + j Im{X}) = (Re{H} Re{X} - Im{H} Im{X}) + j (Re{H} Im{X} + Im{H} Re{X}).
Оскільки h[n], x[n] - речові функції, то Re{H} Re{X} - симетричні, Im{H} Im{X} - антисиметричні функції, тому Re{Y} - симетрична, Im{Y} - антисиметрична.
Отже вектор кадру вихідного сигналу Y[k] = IDFT{Y(f, k)}.
Послідовність кадрів вихідного сигналу перетворюється на функцію y[i] - вихідного сигналу.
3.6 Система з нескінченною імпульсною характеристикою
У випадку перетворення сигналу в ЛДС то, можливо представлено лінійним різницевим рівнянням:
y[i] = ? n=0, P bn x[i-n] - ? m=1, Q am y[i-m].
Схема цього перетворення наведено малюнку 5.4.
Система має зворотний зв'язок, оскільки затриманий сигнал із виходу системи надходить назад у систему. Відгук такої системи на одиничний імпульс може тривати нескінченно. Тому такі системи називають системами з нескінченною імпульсною характеристикою (БІХ).
Розглянемо коротко опис систем з БІХ. Тимчасове уявлення: y[i]*a[i] = b[i]*x[i] Частотне уявлення: Y(f) A(f) = X(f) B(f)
АЧХ: Y(f) = X(f) B(f)/A(f) = H(f) X(f), H(f) = B(f)/A(f)
Рисунок 3.4 - Схема лінійної дискретної системи.
Приклад 1
Проста БІХ-система: y[i] = - a1 y[i-1] + bo x[i] + b1 x[i-1].
Приклад 2
Окремий випадок БІХ-системи (рівняння авторегресії): y[i]*a[i] = x[i].
3.7 Спектральний опис лінійних систем з одним входом та виходом
Припустимо, що на вхід лінійної системи подається деякий стаціонарний випадковий процес x(t) з нульовим середнім. Тоді вихід y(t) матиме такі властивості:
y(t) = h(t) *x(t),
Y(f) = H(f) X(f) = |H(f)| e j Ц(f) X(f ),
де | H (f) | - модуль передавальної функції системи (амплітудно-частотна характеристика, АЧХ), Ц(f) - фазова характеристика передавальної функції (фазово-частотна характеристика, ФЧХ).
Функції щільності спектра потужності Pxx(f), Pyy(f) та функцію крос- спектру Pxy(f) пов'язують співвідношення:
Pyy(f) = |H(f)|І Pxx(f),
Pxy(f) = H(f) Pxx(f).
Якщо спектр потужності входу та крос-спектр потужності відомі, то час-тотна функція відгуку визначена:
Hxy(f) = Pxy(f)/Pxx(f).
У разі ідеальної лінійної системи без шуму:
ГІxy(f ) = |Pxy(f )|І / Pxx(f )Pyy(f ) = | H (f) Pxx (f) | І / Pxx (f) | H (f) | І Pxx (f) = 1.
Отже, у разі лінійних систем функція когерентності досягає свого теоретичного максимуму, що дорівнює одиниці на всіх частотах. Якщо ж функція когерентності менше одиниці, то однією з можливих причин цього може бути відсутність лінійної залежності виходу від входу системи, що розглядається, тобто нелінійність системи.
3.8 Оцінка параметрів лінійних систем
Оцінку характеристик систем виконують за спостереженнями сигналу на вході та виході системи. Інші методи виконують за спостереженнями сигналу на виході системи у припущенні, що на вхід системи надходить сигнал із відомими властивостями, наприклад, білий шум. Розглянемо деякі з методів.
Оцінка передавальної функції з використанням тестового сигналу
Розглянемо лінійну систему:
Y(f) = |H(f)| e jЦ(f) X(f).
Завдання полягає в оцінці амплітудної та фазової характеристики передаточної функції H(f). Оцінка за допомогою синусоїд
Метод реалізується з допомогою інструментальних засобів аналізу аналогових сигналів. На вхід системи подається косинус частоти fo:
x(t) = A cos(2рfo t).
Спектр вхідного сигналу має вигляд:
X(f) = A/2[д(f-fo) + д(f+fo)].
Тоді спектр вихідного сигналу матиме вигляд:
Y(f) = |H(f)| ejЦ(f) A/2[д(f-fo) + д(f+fo)] = |H(fo)|A/2 (ejЦ(fo) + ejЦ(-fo)),
а сигнал буде містити інформацію про АЧХ та ФЧХ системи:
y(t) = A|H(fo)| cos(2рfot + Ц(fo)).
Маючи в своєму розпорядженні інструмент оцінки фаз і амплітуд, можна оцінити АЧХ і ФЧХ системи [39]. Змінюючи частоту тестового сигналу, можна виміряти передачу функцію в потрібному діапазоні.
Оцінка за допомогою випадкового сигналу
Інший метод ґрунтується на цифровій обробці сигналів. На вхід системи подається широкосмуговий сигнал. Дискретні спектри вхідного та вихідного сигналів на кадрах (k) пов'язані співвідношенням:
Y(f, k) = H(f) X(f, k).
Крос-спектр вхідного та вихідного сигналів визначається співвідношенням:
Pxy(f ) = <X*(f, k) Y(f, k) > = <X*(f, k)H(f ) X(f, k)> = H(f ) Pxx(f ),
де () * - Символ комплексного сполучення.
Звідси може бути обчислена оцінка передавальної функції:
H(f) = Pxy(f)/Pxx(f).
По передавальній функції можна обчислити імпульсну характеристику системи:
h[i] = FT-1{H(f)}.
Необхідно, щоб вхідний сигнал мав спектральні компоненти у всьому діапазоні частот, що цікавить, наприклад білий шум.
Описаний метод особливо зручний для якісної експрес-оцінки АЧХ системи, якщо її вхід подавати білий шум.
Оцінка коефіцієнтів КІХ-системи по входу та виходу
Розглянемо процедуру оцінки імпульсної характеристики КІХ-системи. Запишемо відгук системи у векторній формі:
y[n] = hT X[k] = XT[k] h,
де k - індекс кадрів, X[k] = [x[k], x[k -1],…x[k -L+1]]T - вектор вхідного сигналу, h = [h[0], h[1],…h[L-1]]T - імпульсна характеристика.
Запишемо співвідношення між вектором крос-кореляції та імпульсним відгуком:
<X[k] y[n]> = Cxy = < X[k] XT[k] h> = Axx h,
де Cxy - вектор кросс-кореляції, Axx - матриця автокореляції.
Вирішуючи систему лінійних рівнянь, отримаємо оцінку коефіцієнтів імпульсного відгуку:
h = Axx-1 Cxy.
Оцінка коефіцієнтів авторегресійної моделі по входу та виходу
Представимо авторегресійну модель у векторній формі:
y[i] = AT Y[i] + e[i] = YT[i] A + e[i],
де Y[i] = [y[i -1], y[i -2],…y[i -p]]T - вектор відліків сигналу,
A = [a [1], a [2], ... a [p]] T - Вектор коефіцієнтів.
Запишемо помилки між сигналом y[i] та виходом фільтра;
E{|e[i]|І} = < (y[i] - AT Y[i])І>.
Мінімізація СКО помилки призводить до оптимального вирішення:
<Y[i] y[i]> = Cy = <Y[i] YT[i] A> = Cyy A.
Вирішуючи систему лінійних рівнянь, отримаємо оцінку БІХ-коефіцієнтів:
A = Cyy -1 Cy.
Всеосяжний опис методів ідентифікації систем можем знайти у книзі Гропа .
Висновки до розділу
У цьому розділі описані деякі типи систем і розглядаються дві основні завдання: перше - уявлення (моделювання) аналогових систем у цифровій формі, друге - оцінка параметрів дискретних систем.
Також розглянуті загальні питання моделювання сигналів та систем.
Системи описують перетворення сигналів (аналогових та цифрових). Основне призначення систем - моделювання та виконання перетворень.
Акустичні сигнали зазнають різних перетворень: розповсюдження сигналу в просторі, перетворення мікрофоном акустичного сигналу в електричний, перетворення електричного сигналу. Після перетворення електричних сигналів на цифрову форму вони обробляються вже в дискретних системах.
Залежність тиску повітря в деякій точці іноді можна розглядати як звуковий сигнал. Залежність напруги у провіднику іноді теж може представляти звуковий сигнал. Мікрофон перетворює акустичну енергію звукового сигналу на напругу.
4. Автоматичне розпізнавання мовлення та розуміння природної мови
4.1 Основні положення
Більше п'яти десятиліть дослідники мовлення працювали над створенням машини, яка зможе розпізнавати й розуміти мовленнєву мову. Основним рушійним фактором у дослідженні стало усвідомлення того, що можливість людей спілкуватися з машинами має три потенційні основні застосування
1. Зменшення витрат: надаючи послуги, коли люди взаємодіють виключно з машинами, компанії усувають витрати на живих агентів і тим самим значно знижують вартість надання послуг. Цікаво, що в результаті цей процес часто надає людям більш природний і зручний спосіб доступу до інформації та послуг. Наприклад, авіакомпанії вже більше десяти років використовують технологію розпізнавання мовлення, що дозволяє їм інформувати своїх клієнтів про фактичний час прибуття та відправлення.
2. Нові можливості для отримання прибутку. Забезпечуючи цілодобову гарячу лінію для клієнтів і агентів з обслуговування клієнтів, компанія може дистанційно взаємодіяти зі своїми клієнтами, використовуючи природне мовлення. Прикладом такої послуги є служба AT&T «How May I Help You» (HMIHY c ) яка наприкінці 2000 року автоматизувала обслуговування клієнтів для споживчих послуг AT&T.
3. Персоналізація та утримання клієнтів: надаючи низку персоналізованих послуг на основі вподобань клієнтів, компанії можуть покращити якість обслуговування клієнтів і підвищити рівень задоволеності клієнтів послугами та інформаційними системами. Дуже простим прикладом може бути персоналізація автомобільного середовища, коли автомобіль розпізнає водія за допомогою простих голосових команд, а потім автоматично налаштовує комфортні характеристики автомобіля відповідно до попередньо визначених уподобань клієнта. Хоча більша частина цієї глави буде присвячена обговоренню того, як реалізуються розпізнавання мовлення та розуміння природної мови, ми почнемо з введення концепції кола діалогу мовлення, яке зображено на малюнку 4.1. Це діалогове коло є механізмом для всіх комунікацій між людьми. Коло діалогу мовлення зображує послідовність подій, які відбуваються між усним висловлюванням (людиною) і усою реакцією на це висловлювання.
Основна мета мови - спілкування, тобто передача повідомлень. Відповідно до теорії інформації Шеннона , повідомлення, представлене як послідовність дискретних символів, може бути кількісно визначено його інформаційним змістом у бітах та швидкістю передачі інформація вимірюється в бітах за секунду (bps). У мовному виробництві, як а також у багатьох штучних електронних комунікаційних системах, інформація, що передається, кодується у вигляді безперервно змінюваного (аналогового) сигналу, який можна передавати, записувати,маніпулюються і зрештою декодуються людиною-слухачем. Для промови фундаментальної аналогової формою повідомлення є акустична хвиля, яку називаємо мовним сигналом. Мовні сигнали можуть бути перетворені в електричні сигнали за допомогою мікрофон, що додатково керується як аналоговим, так і цифровим сигналом обробка, а потім перетворення назад в акустичну форму за допомогою гучномовця, телефонна трубка або навушники за бажанням. Ця форма обробки мови, звичайно, лежить в основі винаходу телефону Беллом.
Размещено на http://www.allbest.ru/
Голосова відповідь “На який номер ви дзвоните?”
Мовлення
Teкст синтезу мовлення
Відповідь клієнту
TTS
Data,
ASR
Автомаичне розпізнавання мови
Відповідь клієнту
“Визначити вірний номер”
Rules “Ви набрали не вірний номер”
Spoken LanguageSLG Generation
Дія “Знайти вірний номер”
SLU
DMВизначення “Платіжний кредит”
Розуміння розмовної мови
Управління діалогами
Рис. 4.1- Коло діалогу мовлення для взаємодії природною мовою з машиною.
Вхідне мовлення спочатку обробляється модулем, який ми позначаємо як система ASR (автоматичного розпізнавання мовлення), єдиною метою якої є перетворення мовленнєвого введення в орфографічну послідовність слів, що є найкращою (з максимальною ймовірністю) оцінкою вимовленого висловлювання. Далі розпізнані слова аналізуються модулем розуміння розмовної мови (SLU), який намагається приписати вимовленим словам значення (у контексті завдання, яке виконує машина). Після визначення відповідного значення модуль керування діалогами визначає найбільш підходящий курс дій відповідно до поточного стану діалогового вікна та ряду встановлених кроків робочого процесу для відповідної задачі. Вжиті дії можуть бути такими ж простими, як запит на додаткову інформацію (особливо коли існує деяка плутанина або невизначеність щодо найкращої дії) або підтвердження дії, яка має бути виконана. Після прийняття рішення про дію, модуль генерації розмовної мови (SLG) вибирає текст, який потрібно промовити людині, щоб описати дію, що виконується, або запитати додаткові інструкції щодо того, як краще діяти. Нарешті, модуль перетворення тексту в мову (TTS) промовляє висловлювання, вибране модулем SLG, і людина повинна вирішити, що сказати далі, щоб продовжити або завершити бажану транзакцію. Коло діалогового діалогу мовлення проходить один раз для кожного голосового введення та кілька разів під час типового сценарію транзакції.
1. Чим точніше ASR пов'язані модулі SLU, тим більше діалогове коло виглядає як природний інтерфейс користувача для машини, і тим легше взаємодіяти та виконувати транзакції. Коло діалогу мовлення є потужною концепцією в сучасних системах розпізнавання мовлення та розмовної мови і широко використовується в ряді сучасних систем.
2. Автоматичне розпізнавання мовлення, це частини діалогового кола, де використовуються різні методи цифрової обробки сигналів. Решта частини діалогового кола є не менш важливими, але вони стосуються питань на рівні тексту, які виходять за рамки нашої праці.
4.2 Система ASR (система автоматичного розпізнавання мовлення)
Мета системи ASR полягає в тому, щоб точно й ефективно перетворити мовний сигнал у текстове повідомлення, транскрипцію вимовлених слів, незалежно від пристрою, який використовується для запису мовлення (тобто перетворювача чи мікрофона), акценту мовця чи акустики. середовище, в якому знаходиться динамік (наприклад, тихий офіс, шумне приміщення, надворі). Кінцева мета ASR, а саме розпізнавання мови так само точно і надійно, як людський слухач, ще не досягнута.
Основою більшості сучасних систем розуміння мовлення та мови є проста (концептуальна) модель генерації та розпізнавання мовлення, показана на рисунку 4.2. Передбачається, що мовець має намір висловити якусь думку як частину процесу розмови з іншою людиною або з машиною. Щоб висловити цю думку, мовець повинен скласти лінгвістично значуще речення W у вигляді послідовності слів (можливо, з паузами та іншими акустичними подіями, такими як uh's, um's, er's тощо). Після вибору слів мовець посилає відповідні керуючі сигнали до артикуляційних мовленнєвих органів, які утворюють мовне висловлювання, звуки якого є тими, які потрібні для промови потрібного речення, в результаті чого формуються мовні хвилі[n]. Ми називаємо процес створення мовного сигналу з намірів мовця моделлю мовця, оскільки він відображає акцент мовця та вибір слів, які використовуються для вираження даної думки чи запиту. Етапи обробки розпізнавання мовлення показані в правій частині рисунка 4.2 і складаються з акустичного процесора, який аналізує мовний сигнал і перетворює його в набір акустичних (спектральних, тимчасових) ознак X, які ефективно характеризують властивості звуки мови, за яким слід лінгвістичний процес декодування, який дає найкращу (максимальну ймовірність) оцінкуслова вимовленого речення, в результаті чого утворюється розпізнане речення W€.
4.3 Базовий склад ASR
Метою системи ASR є точне і ефективне перетворення мовного сигналу в текстову транскрипцію слів, незалежно від пристрою, використовуваного для запису мови (наприклад, перетворювача або мікрофона), акценту мовлення або акустичних характеристик. середовище, в якому знаходиться мовець (наприклад, тихий офіс, галаслива кімната, вулиця). Кінцева мета ASR, саме розпізнавання мови так само точно і надійно, як людина-слухач, ще досягнуто.
В основі більшості сучасних систем розуміння мови та мови лежить проста (концептуальна) модель генерації та розпізнавання мови, показана на рис. 4.2. Передбачається, що той, хто говорить, має намір висловити якусь думку в процесі розмови з іншою людиною або з машиною. Щоб висловити цю думку, той, хто говорить, повинен скласти лінгвістично значущу пропозицію W у вигляді послідовності слів (можливо, з паузами та іншими акустичними явищами, такими як е-е, е-е, е-е тощо). Щойно слова обрані, промовець посилає відповідні управляючі сигнали артикуляційним органам мови, які формують мовленнєве висловлювання, звуки якого необхідні вимовлення бажаного речення, у результаті формуються мовні хвилі[n]. Ми називаємо процес створення мовної хвилі з наміру того, хто говорить моделлю мовця, оскільки він відображає акцент того, хто говорить і вибір слів, що використовуються для вираження даної думки або прохання. Етапи обробки розпізнавача мови показані у правій частині рис. 14.2 і складаються з акустичного процесора, який аналізує мовний сигнал та перетворює його на набір акустичних (спектральних, тимчасових) характеристик X, що ефективно характеризують властивості мови. звуки мови, за якими слідує процес лінгвістичного декодування, який дає найкращу (максимальну ймовірність) оцінку слів промови, внаслідок чого виходить розпізнана пропозиція.
4.4 Загальний процесс розпізнання мовлення
На рис. 4.3 показана блок-схема однієї з можливих реалізацій розпізнавача мовиВхідний мовний сигнал s[n] перетворюється на послідовність векторів ознак X X 1, X 2. . .,X T , блоком аналізу ознак (також званим спектральним аналізом). p align="justify"> Вектори ознак обчислюються покадрово з використанням методів, що обговорюються в розділах 6-9. Зокрема, для представлення короткострокових спектральних характеристик мовного сигналу широко використовується послідовність векторів крейдових крейдових коефіцієнтів. Блок класифікації шаблонів (також званий блоком декодування та пошуку) декодує послідовність векторів ознак символьне уявлення.
Уявлення, яке є рядком максимальної правдоподібності, W , яка могла б зробити вхідна послідовність векторів ознак (з урахуванням обмежень лексики слів та мовної моделі). Система розпізнавання образів використовує набір акустичних моделей (представлених як приховані марківські моделі, HMM) та словник слів, щоб надати набір вимов для кожного слова в кожному можливому рядку слів. Мовна модель AnN-gram використовується для обчислення оцінки мовної моделі для кожного можливого рядка слів. Таким чином, блок класифікації шаблонів забезпечує загальну оцінку правдоподібності для кожної можливої ??пропозиції мовою завдання. Останнім блоком у цьому є процес оцінки достовірності (також званий блоком перевірки висловлювання), який використовується для отримання оцінки достовірності для кожного окремого слова в розпізнаному рядку (з максимальною ймовірністю). Це обчислення забезпечує міру впевненості у правильності кожного слова змісту в розпізнаному реченні, щоб ідентифікувати можливі помилки розпізнавання (а також події поза словниковим запасом) і, таким чином, потенційно покращити продуктивність алгоритму розпізнавання. . Для досягнення цієї мети проводиться оцінка достовірності слова [278], заснована на простій перевірці гіпотези відношення правдоподібності, пов'язаної з кожним розпізнаним словом, та використовується оцінка достовірності слова.
Рис. 4.2
Блок-схема загальної системи розпізнавання мовлення, що складається з обробки сигналів (аналіз для отримання набору векторів ознак, які представляють вхідне мовлення), класифікації шаблонів (щоб найкраще узгодити набір векторів ознак з оптимальним набором об'єднаних слів або звукових моделей), та оцінка впевненості (щоб отримати оцінку впевненості для кожного слова у розпізнаному вихідному рядку). щоб визначити, які слова, якщо такі є, ймовірно, будуть неправильними через помилку розпізнавання або через те, що це було поза словникового (OOV) слово (яке ніколи не можна було правильно розпізнати).2 Кожен з блоків на малюнку 4.2 вимагає ряду операцій з обробки сигналів і, в деяких випадках, великих цифрових обчислень. У решті цієї глави наведено огляд того, що бере участь у кожній частині обробки та обчислення на малюнку 4.2.
Подобные документы
Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.
дипломная работа [3,4 M], добавлен 15.03.2022Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Елементи прихованої марківської моделі. Матриця ймовірностей переходів (або матриця переходів). Розподіл ймовірностей початкового стану. Розпізнавання мовлення із великих словників для ізольовано вимовлених слів. Попередня обробка мовного сигналу.
курсовая работа [175,1 K], добавлен 13.04.2009Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.
курсовая работа [4,5 M], добавлен 29.09.2010Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Навчання штучних нейронних мереж, особливості їх використання для вирішення практичних завдань. Рецепторна структура сприйняття інформації. Перцептрон як модель розпізнавання. Задача моделювання штучної нейронної мережі з розпаралелюванням процесів.
дипломная работа [2,8 M], добавлен 24.07.2013Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Визначення найкращого режиму роботи системи обробки повідомлень. Представлення моделі у вигляді системи масового обслуговування. Визначення структури моделі. Обмеження на зміну величин. Програмна реалізація імітаційної моделі. Оцінка адекватності.
курсовая работа [153,9 K], добавлен 29.01.2013