Моделі мовленнєвих сигналів

Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык украинский
Дата добавления 25.07.2022
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Нижче наведено простий приклад усного введення для розпізнаючого, що складається з фрази з двох слів і результуючого розпізнаного рядка з балами впевненості. Цей приклад ілюструє важливість і цінність оцінки впевненості.

Умовне введення: кредит, будь ласка, Розпізнаний рядок: комісія за кредит. Бали довіри: (0,9) (0,3)

На основі показників довіри (отриманих за допомогою тесту відношення правдоподібності) система розпізнавання визначить, яке слово або слова (наприклад, слово «збори» у наведеному вище прикладі), ймовірно, є помилковими (або слова OOV), і вибере відповідні кроки (у наступному діалоговому вікні), щоб визначити, чи була допущена помилка розпізнавання, і, якщо так, вирішити, як її виправити, щоб діалог міг рухатися вперед до мети завдання впорядковано та ефективно.

4.4.1 Побудова системи розпізнавання мовлення

Нижче наведено чотири кроки побудови та оцінки системи розпізнавання мовлення:

1. Виберіть завдання на розпізнавання, включаючи лексику розпізнавання слів (лексику), основні звуки мовлення для представлення лексики (одиниці мовлення), синтаксис завдання чи мовну модель та семантику завдання (якщо є).

2. Виберіть набір функцій і пов'язану обробку сигналу для представлення властивостей мовного сигналу в часі.

3. Тренувати набір акустичних та мовних моделей.

4. Оцініть продуктивність отриманої системи розпізнавання мовлення.

Тепер ми обговоримо кожен із цих чотирьох кроків більш детально.

4.4.2 Завдання розпізнавання

Завдання розпізнавання варіюються від простих систем розпізнавання слів і фраз до розмовних інтерфейсів із великим словником до машин. Наприклад, для простого завдання розпізнавання словникового запасу з одинадцяти ізольованих цифр (/від нуля до /дев'яти/ і /oh/) як ізольованих мовленнєвих введених даних, ми можемо використовувати моделі цілих слів як основну одиницю розпізнавання (хоча звичайно можна розглядати фонемні одиниці, причому цифри складаються з послідовностей фонем). Цілі шаблони слів, якщо вони життєздатні, як правило, є найнадійнішими моделями для розпізнавання, оскільки розумно тренувати прості моделі слів практично в необмеженому діапазоні акустичних контекстів.

Використовуючи словник цифр, завданням може бути розпізнавання окремих цифр (наприклад, вибір з невеликої кількості альтернатив) або розпізнавання рядка цифр, що представляє номер телефону, ідентифікаційний код або дуже обмежений послідовність цифр, що утворюють пароль. Тому можливий ряд синтаксисів завдань навіть для такого простого словника розпізнавання.

4.4.3 Набір функцій розпізнавання

Не існує «стандартного» набору функцій, які використовувалися для розпізнавання мовлення. Натомість різні комбінації акустичних, артикуляційних і слухових характеристик використовувалися в ряді систем розпізнавання мовлення. Найпопулярнішими акустичними характеристиками були кепстральні коефіцієнти мель-частот та їх похідні. Інші популярні вектори ознак були засновані на комбінаціях параметрів створення мови, таких як частоти формант, період тону, швидкість перетину нуля та енергія (часто у вибраних діапазонах частот). Найпопулярнішими акустично-фонетичними ознаками були ті, що описують як спосіб, так і місце артикуляції, часто оцінювані за допомогою методів нейронної обробки . Артикуляційні особливості включають функції області голосового тракту, а також положення артикуляторів у виробленні мовлення. Також були використані вектори ознак, засновані на слухових моделях. Приклади включають параметри з представлень, таких як моделі вуха Сенеффа або Ліонського вуха , або метод гістограми інтервалу ансамблю Гітца . Блок-схема обробки сигналу, що використовується в більшості сучасних систем розпізнавання мовлення з великим словником, показана на рисунку 4.3. Аналоговий мовний сигнал дискретизується і квантується зі швидкістю від 8000 вибірок/с до 20000 вибірок/сек. А

Для компенсації часто використовується мережа високочастотної попередньої напруги першого порядку (1 гz -1).

Для спектрального спаду мови на більш високих частотах. Попередньо підкреслений сигнал потім блокується в кадри з L вибірок, з сусідніми кадрами, віддаленими один від одного.

Типові значення дляLandR відповідають кадрам тривалістю 15-40 мс, причому найчастіше зсув кадрів становить 10 мс. Вікно Хеммінга застосовується до кожного кадру перед спектральним аналізом за допомогою методів лінійного прогнозування. Дотримуючись (за бажанням) простих методів видалення шуму, коефіцієнти предиктора, що представляють короткочасні спектр,б m , нормалізуються і перетворюються на кепстральні коефіцієнти мель-частот (mfcc)c m за допомогою стандартних методів аналізу Перед обчисленням кепстральних похідних за часом часто використовується деякий тип видалення кепстрального зсуву. Зазвичай результуючий вектор ознак являє собою множину вирівняних кепстральних коефіцієнтів мел-кепстру c m, а також їх першого і другого порядку похідні c m[l] і 2c m[l]. Зазвичай використовують 13 коефіцієнтів mfcc, 13 першого порядку кепстральні похідні коефіцієнти та 13 похідних кепстральних коефіцієнтів другого порядку, в результаті чого вектор ознак компонента a D=39 для кожного 10-мсекундного кадру мови. Ключовою проблемою при виборі акустичних характеристик для представлення мовного сигналу є недостатня надійність багатьох відомих характеристик, пов'язаних з шумом, фоновими сигналами, передачею по мережі і спектральними спотвореннями, що призводить до невідповідності статистичних властивостей мовного сигналу. Вектори акустичних ознак між етапами навчання та тестування.

Рис 4.3 - Блок-схема процесу вилучення ознак для вектора ознак, що складається з набору коефіцієнтів mfcc та їх першої та другої похідних систем розпізнавання.

Цей недолік надійності набору функцій часто призводить до значного погіршення продуктивності та призводить до широкого спектру запропонованих методів обробки сигналів та теорії інформації для вирішення проблем. Ряд методів, запропонованих для поліпшення цієї проблеми надійності, проілюстровано на рис. 4.3, де показано три основних методи зіставлення, а саме на рівні сигналу (за допомогою методів покращення мови), на рівні ознак (з використанням деяких типів ознак). метод нормалізації) та на рівні моделі (використовуючи будь-який метод адаптації моделі).

4.4.4 Навчання розпізнавання

Є два аспекти моделей навчання розпізнавання мови, а саме навчання акустичної моделі та навчання мовної моделі. Навчання акустичної моделі вимагає запису кожної з одиниць моделі (повних слів, фонем) якомога більшій кількості контекстів, щоб метод статистичного навчання міг створювати точні статистичні розподіли для кожного зі станів моделі. Акустичне навчання засноване на точно маркованих мовних висловлюваннях, сегментованих відповідно до транскрипції відповідної моделі-одиниці. Навчання акустичних моделей спочатку включає сегментацію рядків для розпізнавання модельних одиниць (за допомогою методу вирівнювання Баума-Уелча або Вітербі, як пояснюється далі в цьому розділі), а потім із використанням сегментованих висловлювань для одночасної побудови розподілів статистичних моделей для кожного стану моделей словникових одиниць. Наприклад, для простого словника з ізольованими цифрами 100 осіб, що вимовляють кожну з 11 цифр по 10 разів ізольовано, утворюють потужний навчальний набір, який забезпечує дуже точні та високонадійні моделі цілих слів для розпізнавання. Отримані статистичні моделі формують основу для операцій розпізнавання образів, що у основі системи ASR.

Для навчання мовної моделі потрібен великий навчальний набір текстових рядків, що відображають синтаксис сказаних висловлювань для завдання. Зазвичай такі навчальні набори тексту створюються машиною з урахуванням моделі граматики завдання розпізнавання. У деяких випадках у текстових навчальних наборах використовуються існуючі текстові джерела, такі як журнальні та газетні статті, стенограми телевізійних випусків новин із субтитрами тощо. В інших випадках навчальні набори для мовних моделей можуть бути створені з баз даних; наприклад, допустимі рядки телефонних номерів можуть бути створені з наявних телефонних довідників.

4.4.5 Тестування та оцінка продуктивності

Щоб покращити продуктивність будь-якої системи розпізнавання мовлення, має існувати надійний і статистично значущий спосіб оцінки продуктивності системи розпізнавання на основі незалежного набору тесту помічених висловлювань. Зазвичай ми використовуємо частоту помилок у словах і частоту помилок у реченнях (або завданнях) як показники продуктивності розпізнавача. Наприклад, для розпізнавання цифр із завданням розпізнавання дійсних телефонних номерів ми могли б використовувати сукупність розмовляючих з 25 нових розмовляючих, кожен із яких говорить по 10 телефонних номерів як послідовностей ізольованих (чи пов'язаних) цифр, та був оцінити цифрову помилку. частота помилок та (обмежена) частота помилок у рядку телефонного номера.

4.5 Процеси прийняття рішень в ASR

Класифікація шаблонів та операції прийняття рішень лежать в основі будь-якої системи ASR. У цьому розділі ми даємо коротке введення формулювання проблеми ASR.

4.5.1 Прихована модель Маркова

Найбільш широко використовуваним методом побудови акустичних моделей (як для фонем, так і для слів) є статистична характеристика, відома як приховані моделі Маркова (HMM) На малюнку 4.6 показано HMM simpleQ з 5 станами для моделювання цілого слова. Кожен стан HMM характеризується гауссівським розподілом щільності суміші, що характеризує статистичну поведінку векторів ознак X t у станах моделі На додаток до статистичної щільності ознак всередині станів, HMM також характеризується явним набором переходів станів, A a ij, 1 i,j Q, для моделі aQ-стану, які визначають ймовірність здійснення переходу від стану i до statejat кожен кадр, таким чином визначаючи часову послідовність векторів ознак протягом тривалості слова.

Рис. 4.4 HMM на основі слова з п'ятьма станами і без можливості пропуску станів, тобто aij = 0, j ? i + 2. Функція щільності для стану i позначається як bi(Xt), 1 ? i ? 5

Зазвичай самопереходи стану, a ii, великі (близькі до 1,0), а переходи зі стрибком стану, a 12,a 23,a 34,a 45, в моделі, малі (близько до 0). Модель, показана на малюнку 4.4, називається моделлю «зліва направо», оскільки стан переходить зліва направо:

aij =0,j?i+2, 1?i?Q;

тобто система послідовно переходить від стану до стану, починаючи з першого стану і закінчуючи останнім. Повна характеристика HMM моделі слова (або підслова) стану aQ зазвичай записується як л(A,B,р), з матрицею переходу станів A a ij, 1 i,j Q , густиною ймовірності спостереження стану, B b j(Xt ), 1 j Q, і розподіл початкового стану,р р i, 1 i Q , при цьому р 1 встановлено на 1 (а всі інші р i встановлено на 0) для моделей «зліва направо» типу, показаного на малюнку 4.4.Щоб тренувати HMM для кожної одиниці слова (або підслова), використовується позначений навчальний набір речень (транскрибованих у слова та підслова) для керування ефективною процедурою навчання, відомою як алгоритм Баума-Велча. Цей алгоритм узгоджує кожне з різних слів (або підслова) HMM з голосовими вводами, а потім оцінює відповідні середні значення, коваріації та приріст суміші для розподілів у кожному стані моделі на основі поточного вирівнювання. Метод Баума-Велча є алгоритмом підйому на гору і повторюється до тих пір, поки не буде отримано стабільне вирівнювання моделей HMM та векторів мовних характеристик. Деталі процедури Баума-Велча виходять за рамки цієї глави, але їх можна знайти в кількох посиланнях на методи розпізнавання мови Суть процедури навчання для переоцінки параметрів моделі HMM за допомогою процедури Баума-Велча показано на рисунку 4.5. Для початку навчання використовується початкова модель HMM для кожної одиниці розпізнавання (наприклад, фонеми, слова).

Процедура навчання Баума-Велча на основі заданого навчального набору висловлювань. Величини ajk - це ймовірності переходу зі стану j у стан k, а величини {cjk, мjk, Ujk} - параметри k-го компонента суміші для моделі гаусової суміші для стану j. Початкова модель може бути обрана випадковим чином або вибрана на основі апріорного знання параметрів моделі. Ітераційний цикл -- це проста процедура оновлення для обчислення ймовірностей моделі прямого та зворотного на основі бази даних вхідної мови (навчальний набір висловлювань), а потім оптимізація параметрів моделі, щоб отримати набір оновлених HMM, при цьому кожна ітерація збільшує ймовірність журналу моделі. Цей процес повторюється до тих пір, поки не відбудеться істотного збільшення ймовірності журналу з кожною новою ітерацією.

Рис. 4.5 Процедура навчання Баума-Велча на основі заданого навчального набору висловлювань.

Величини ajk - це ймовірності переходу зі стану j у стан k, а величини {cjk, мjk, Ujk} - параметри k-го компонента суміші для моделі гаусової суміші для стану j. Це проста справа, щоб перейти зліва направо ХММ для цілого слова, як показано на малюнку 4.4, до HMM для суб-одиниці слова (наприклад, фонеми). Цей простий HMM є базовою моделлю одиниці підслова з початковим станом, що представляє статистичні характеристики на початку звуку, в середині стан, що представляє основу звуку, і стан закінчення, що представляє спектральні характеристики в кінці звуку. Модель слова реалізується шляхом конкатенації відповідне підслово HMM, як показано на малюнку 14.9, яке об'єднує HMM з 3 станами для звуку /ih/ з 3-х становими HMM для звуку /z/, що дає модель слова для слова /is/ (вимовляється як /ih-z/). Загалом склад моделі слова (з моделей підсловових одиниць) уточнюється в лексиконі або словнику слів; однак, після того, як модель слова була створена, її можна використовувати майже так само, як і моделі цілого слова, для навчання та оцінки рядків слів для максимізації ймовірності в рамках процесу розпізнавання мовлення. Тепер ми готові завершити картину для вирівнювання послідовності M-моделей слів, W1, W2, . . . , WM, з послідовністю векторів ознак, X = {X1, X2, . . . , XT}. Вектори відображаються вздовж горизонтальної осі, а конкатенована послідовність станів слів -- уздовж вертикальної осі. Оптимальна процедура вирівнювання визначає точну послідовність найкращої відповідності (у сенсі максимальної ймовірності) між стани моделі слова та вектори ознак, такі, що перший вектор ознак, X1, вирівнюється з першим станом у моделі першого слова, а останній вектор ознак, XT, вирівнюється з останнім станом у M-й моделі слова. (Для простоти ми показуємо кожну модель слова як Q = 5-стан HMM, але очевидно, що процедура вирівнювання працює для моделі будь-якого розміру для будь-якого слова, за умови обмеження, що загальна кількість векторів ознак T перевищує загальну кількість станів моделі, так що кожен стан має принаймні один вектор ознак, пов'язаний з цим станом.) Процедура отримання найкращого вирівнювання між векторами ознак і станами моделі ґрунтується на використанні процедури статистичного вирівнювання Баума-Велча (у якій ми оцінюємо ймовірність кожного шляху вирівнювання та додаємо їх, щоб визначити ймовірність рядка слів), або процедури вирівнювання Вітербі, для якого ми визначаємо єдиний найкращий шлях вирівнювання та використовуємо оцінку ймовірності на цьому шляху як міру ймовірності для поточного рядка слів. Корисність процедури вирівнювання заснована на простоті оцінки ймовірності будь-якого шляху вирівнювання за допомогою процедур Баума-Велча або Вітербі.

4.6 Проблема пошуку

Ключова проблема полягає в тому, що потенційний розмір простору пошуку може бути астрономічно великим (для великого словникового запасу та високої складності мовних моделей), що вимагає надмірної обчислювальної потужності для вирішення евристичними методами. На щастя, завдяки використанню методів із польової теорії автоматів скінченних станів розвинулися методи мережі кінцевих станів (FSN), які зменшують обчислювальне навантаження на порядки величини, тим самим забезпечуючи точні рішення з максимальною імовірністю в обчислювально здійсненні часи, навіть для дуже великих проблеми розпізнавання мовлення .

Основна концепція датчика FSN проілюстрована на рисунку 4.7, де показано мережу вимови слів для слова /дані/. Кожна дуга на діаграмі стану відповідає фонемі в мережі вимови слів, а вага є оцінкою ймовірності того, що дуга використовується у вимові слова в контексті. Ми бачимо, що для слова /data/ існує чотири варіанти вимови, а саме [разом з їх (оцінюваними) ймовірностями вимови]:

1./D/ /EY/ /D/ /AX/--імовірність 0,32

2./D/ /EY/ /T/ /AX/--імовірність 0,08

3./D/ /AE/ /D/ /AX/--імовірність 0,48

4./D/ /AE/ /T/ /AX/--імовірність 0,12.

Комбінований FSN з чотирьох вимових є набагато ефективнішим, ніж використання чотирьох окремих перерахувань слова, оскільки всі дуги розподіляються між чотирма вимови, а загальне обчислення для повного FSN для слова /дані/ близьке до 1. 4 обчислення чотирьох варіантів одного слова. Ми можемо продовжити процес створення ефективних FSN для кожного слова в словнику завдання (словник мовлення або лексикон), а потім об'єднати слова FSN в речення FSN з використанням відповідної мовної моделі. Крім того, ми можемо перенести процес до рівня телефонів HMM і станів HMM, що робить процес ще ефективнішим. Зрештою, ми можемо скласти дуже велику мережу станів моделей, моделі телефонів, моделі слів і навіть фрази в набагато меншу мережу за допомогою методу зважених перетворювачів кінцевого стану (WFST), які поєднують різні уявлення мови та мови та оптимізують отриману мережу, щоб мінімізувати кількість станів пошуку (і, еквівалентно, тим самим мінімізувати кількість повторюваних обчислень). Простий приклад такої оптимізації мережі WFST наведено на малюнку. Використовуючи методи поєднання мережі (що включає композицію мережі, детермінізацію, мінімізацію та збільшення значення) та оптимізації мережі, WFST використовує уніфіковану

Датчик математичну структуру для ефективного компіляції великої мережі в мінімальне представлення, яке легко шукати за допомогою стандартного Viterbi.

Рис 4.6 Датчик вимови слів для чотирьох слів.

Методи декодування. Використовуючи ці методи, неоптимізовану мережу з 1022 станами (результат перехресного добутку станів моделі, модельних телефонів, модельних слів і модельних фраз) вдалося зібрати до математично еквівалентної моделі з 108 станами, яку можна було легко шукати. оптимальний рядок слів без втрати продуктивність або точність слів.

4.7 Проста система ASR: розпізнавання ізольованих цифр

Щоб проілюструвати ідеї, представлені в цьому розділі, розглянемо реалізацію простої ізольованої системи розпізнавання цифр зі словником з десяти цифр (/від нуля/ до/дев'ять/) плюс альтернатива /oh/ для /нуль/, щоб загалом було розпізнано 11 слів. Першим кроком у реалізації розпізнавання цифр є навчання набору акустичних моделей для цифр. Для цього простого словника ми використовуємо моделі цілих слів, тому нам не потрібен лексикон слів або мовна модель, оскільки під час кожної спроби розпізнавання вимовляється лише одна цифра. Для навчання HMM цілого слова для цифр нам потрібен навчальний набір з a достатньох кількісті повторень кожної вимовної цифри, щоб мати можливість тренувати надійні та стабільні акустичні слова HMM. Як правило, п'яти маркерів кожної цифри достатньо для системи, що навчається оратором (тобто система, яка працює лише для мовлення мовця, який навчав систему). Для незалежних від динаміків розпізнавача значно більше кількість лексем кожної цифри необхідна для повної характеристики змінності наголосів, динаміків, перетворювачів, мовного середовища тощо. Зазвичай для навчання надійних моделей слів використовується від 100 до 500 лексем кожної цифри. Тренування слова HMM для кожної з цифр використовує метод Баума-Велча і дає набір слів HMM, по одному для кожної з 11 цифр, які потрібно розпізнати.

Після того, як мовний сигнал s[n] був ізольований, він перетворюється на послідовність векторів ознак mfcc, X. Потім виконується обчислення ймовірності для кожної з V = 11-значних моделей, (л1) до (лV), що дає оцінки ймовірності цифр P(X|л1) до P(X|лV). Кожен із показників імовірності цифр використовує декодування Вітербі для оптимального вирівнювання функції вектор, X, із станами моделі HMM, а також для обчислення оцінки ймовірності (або еквівалентно логарифмічної ймовірності) для оптимального вирівнювання. Останнім кроком у системі розпізнавання є вибір максимальної оцінки імовірності та пов'язування індексу слова максимальної ймовірності з розпізнаною цифрою. Оцінки ймовірності завжди негативні та зменшуються.

Використовуючи HMM з 5 станами для кожної цифри, ми бачимо що кадри з 1 по b1 ? 1 тестової послідовності узгоджені зі станом моделі 1, тоді як кадри b1 до b2 ? 1 тестової послідовності, узгодженої зі станом моделі 2, тощо. Зрештою, ми бачимо як кожен із п'яти станів моделі узгоджено з кадрами голосового введення, і ми це бачимоми можемо майже ідентифікувати звуки, пов'язані з кожним станом. Наприклад, ми це бачимо стан 5 узгоджено з зупинкою звуку /K/ та кінцевого /S/, тоді як стани 1-3 вирівнюється насамперед з початковим звуком /S/ і, нарешті, стан 4 узгоджується з голосним /IH/ та початкова частина стопового приголосного /К/.

Подібні графіки можна побудувати для тестового висловлювання /шість/ порівняно з Моделі HMM для всіх інших слів у словнику. Правильне розпізнавання відбувається, якщо оцінка імовірності журналу є найбільш негативною для еталонної моделі HMM для слова /шість/ as порівняно з тестовими векторами ознак для усного слова /шість/. Інакше -твердхення виникає помилка.

4.8 Оцінювання роботи розпізначів мовлення

Ключовою проблемою в розробці системи розпізнавання мовлення (і розуміння мови) є eval визначення продуктивності системи. Для простих, ізольованих систем розпізнавання слів, наприклад розпізнавання цифр з попереднього розділу, метою продуктивності є просто частота помилок системи. Для більш складної системи, яку може бути використано для диктантів, є три типи помилок, які необхідно враховувати визначити загальну продуктивність системи. Три типи помилок, які можуть виникнути наведені нижче:

1. Вставлення слів, коли розпізнається більше слів, ніж фактично вимовлено; найпоширеніші вставки слів - короткі, функціональні слова, такі як /a/, /ще/, /ти/ тощо, і найчастіше вони виникають під час пауз чи коливань у мовленні.

2. Заміни слів, де замість слова було розпізнано неправильно сказане слово; найпоширеніші помилки заміни слів є для схожих слів але іноді випадкові слова викликають помилки заміни.

3. Видалення слова, коли вимовлене слово просто не розпізнається і розпізнавання не містить альтернативного слова замість нього. Видалення слів зазвичай відбуваються, коли два вимовлені слова розпізнаються як одне (зазвичай довше за тривалістю) слово,в результаті як помилка заміни слів, так і помилка видалення слова трапляється доволі часто.

Заснована на умові однакового зважування всіх трьох типів помилок у словах (що часто не найкраще робити, оскільки зазвичай помилки у функціональних словах значно менш шкідливі для розуміння речень, ніж помилки у змістовних словах). Загальний коефіцієнт помилок слів для більшості завдань розпізнавання мовлення, WER, формально визначається як:

,

де NI - кількість вставок слів, NS - кількість замін слів,

ND - кількість видалень слів, а W - кількість слів у реченні. Виходячи з наведеного вище визначення частоти помилок слів, продуктивність низка систем розпізнавання мовлення та природної мови (тема ми далі в цій главі) Показники помилок слів були виміряні в ряді дослідницьких сайтів у всьому світі протягом більш ніж десятиліття, з найранішими результатами про розпізнавання рядків цифр, отримане в кінці 1980-х і на початку 1990-х років, і виміряні останні результати розмовного матеріалу природною мовою початку 2000-х років . Видно, що для словникового запасу з 11 цифр слово помилка ставки дуже низькі (0,3% для дуже чистого середовища запису для TI (Техас Instruments) підключені цифри бази даних [204]), але коли рядки цифр промовляються у галасливому середовищі торгового центру частота помилок слів зростає до 2,0%, а коли вбудована в розмовне мовлення (система AT&T HMIHY), помилка слова показник значно зростає до 5,0%, що свідчить про недостатню надійність розпізнавання система на шум та інші фонові збурення. Коефіцієнт помилок для ряду завдань оцінки системи DARPA.

Дослідницька спільнота DARPA працювала над вищевказаним набором завдань більше ніж десятиліття (1988-2004) і прогрес, досягнутий у покращенні рівня помилок слів для кількох завдань розпізнавання мовлення.

Продуктивність людини, як правило, дуже важко виміряти, тому результати, показані на цьому малюнку, є більш спрямованими, ніж точними.

Однак очевидно, що люди перевершують машини для розпізнавання мовлення в 10-50 разів. Отже, має бути зрозуміло, що дослідження розпізнавання мовлення має пройти довгий шлях, перш ніж машини перевершать людей у завданнях розпізнавання мовлення.

Однак слід зазначити, що є багато випадків, коли ASR (і мова розуміння) система може надати кращу послугу, ніж людина. Одним із таких прикладів є розпізнавання 16-значного номера кредитної картки, що вимовляється як безперервний рядок цифр. Людині-слухачеві було б важко відстежити такий довгий (здавалося б випадковий) рядок із 16 цифр, але машина не матиме проблем із відстеженням того, що було сказано, і використання реальних обмежень кредитної картки, щоб забезпечити по суті бездоганна точність розпізнавання цифр.

Висновки до розділу

У цьому розділі ми окреслили основні компоненти сучасного розпізнавання мовлення і система розуміння природної мови, яка використовується в системі голосових діалогів. Ми показали роль обробки сигналів у створенні надійного набору функцій для розпізнавача та роль статистичних методів у наданні можливості розпізнавачу розпізнаватислова вимовленого вхідного висловлювання, а також значення, пов'язане з розпізнаною послідовністю слів. Ми показали, як менеджер діалогів використовує значення накопичені з поточних, а також попередніх голосових введень для створення відповідної реакції (а також потенційно вжиття відповідних дій) на людину запит(и) і, нарешті, як завершуються частини синтезу SLG і TTS діалогу. Після вдосконалення методики, результати розрахунку стали на більш точно збігатися з експериментальними даними, отриманими на основі випробувань зі зв'язними текстами; так по формантній заваді і рожевому шуму вони збіглися на 90%. Розбіжність по білому шуму: 20-30%. Спрощені розрахункові формули, значно зменшилася методична похибка, а W скоротилася до 1%.

Висновки

Системи розпізнавання і розуміння мовлення пройшли свій шлях і знайшли своє застосування в основних програмах та послугах, і вони стали широко використовуватися в суспільстві. Застосування розпізнавання мовлення та природної мови розуміння технології включає наступне:

-Програми для настільних комп'ютерів: включаючи диктант, командування та керування функціональністю робочого столу, контроль властивостей документа (шрифти, стилі, маркери тощо)

-Технологія агентів: включаючи прості завдання, такі як котирування акцій, звіти про дорожній рух, погода, доступ до комунікацій, голосовий набір, голосовий доступ до каталогів, голосовий доступ до повідомлень, календарів, зустрічей тощо.

-Голосові портали: включаючи системи, здатні перетворити будь-яку веб-сторінку на сайт із підтримкою голосової підтримки, де на будь-яке запитання, на яке можна відповісти в режимі онлайн, можна відповісти за допомогою голосового запиту за допомогою таких протоколів, як VXML, SALT, SMIL, SOAP тощо.

-Послуги електронних контактів: у тому числі кол-центри, центри обслуговування клієнтів (наприклад, як я можу вам допомогти) і служби підтримки, де дзвінки сортуються та відповідають належним чином за допомогою голосових діалогів природною мовою.

-Телематика: у тому числі керування та керування автомобільними функціями (системи комфорту, радіо, вікна, люк)

-Малі пристрої: включаючи мобільні телефони для набору номера за іменем або функцією, керування КПК за допомогою голосових команд тощо.

Існують дві широкі області, де системи ASR потребують серйозних удосконалень, перш ніж вони стануть повсюдно поширеними в суспільстві, а саме в системі та операційній продуктивності. У системній сфері нам потрібні значні поліпшення точності, ефективності та надійності, щоб використовувати технологію для широкого кола завдань, на широкому діапазоні процесорів і в широкому діапазоні робочих умов. В операційній сфері нам потрібні кращі методи виявлення, коли людина розмовляє з машиною, і ізоляції голосового введення від фону. Ми також повинні мати можливість обробляти користувачів, які розмовляють через голосові підказки (так звані умови входу). Потрібні більш надійні та точні методи відхилення висловлювання, щоб ми могли бути впевнені, що слово потрібно повторити, коли воно погано розпізнається з першого разу. Нарешті, нам потрібні кращі методи оцінки впевненості слів, фраз і навіть речень, щоб підтримувати розумний діалог з людиною.

Перелік джерел посилань

1. Алдошина И.А. Музыкальная акустика /И. А. Алдошина, Р. Приттс - С-Пб.: Композитор, 2006. - С. 717.

2. Алдошина И. А. Основы психоакустики / И. А. Алдошина - М.: Оборонгиз, 2000. - С. 154.

3. Акустика. Справочник / под ред. М.А. Сапожкова. - М.: Радио и связь, 1989.-С. 336.

4. Кривонос Ю.Г. Структура, свойства, характе- ристики объектов и элементов синтеза речи / Ю.Г. Кривонос, Ю.В. Крак, Н.Н. Шатковский // Компьютерная математика. - К.: Институт киберне- тики им. В.М. Глушкова НАН Украины. - 2006. - №1. - С. 61-69.

5. Шатковський М.М. Об'єктно-елементна мо- дель подання текстової інформації для задачі конка- тенативного сегментивного синтезу української мови / М.М. Шатковський // Штучний інтелект. - Донецьк: ІПШІ МОН і НАН України. - 2008. - № 4. - С. 796-802.

6. Лобанов Б.М. Компьютерный синтез и кло- нирование речи / Б.М. Лобанов, Л.И. Цирульник. - Минск: Білорус. наука. - 2008. - 316 с.

7. Шелепов В.Ю. Структурная классификация слов русского языка. Новые алгоритмы сегментации речевого сигнала, распознавания фонем и их клас- сов / В.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. - Донецк: ИПИИ МОН и НАН Украины. - 2006. - № 4. - С. 679-690.

8. Вінцюк Т.К. Автоматичний озвучувач українських текстів на основі фонемно-трифонної моделі з використанням природного мовного сигна- лу / Т.К. Вінцюк, Т.В. Людовик, М.М. Сажок, Р. Селюх // Пр. 6-ї Всеукр. міжнар. конф. «Оброб- лення сигналів і зображень та розпіз-навання об- разів» (УкрОбраз'2002). - К.: УАсОІРО. - 2002. - C. 79 - 84.

9. Ладошко О. М. Дослідження акустичних особливостей вокалізованих пауз спонтанної мови / О. М. Ладошко // Міжнародна науково-технічна конференція «Штучний інтелект. Інтелектуальні системи ШІ-2011», 19-23 вересня 2011 р.: тези доп., Т. 3. - Донецьк, 2011. - C. 82-86.

10. Ладошко О. М. Дослідження характеристик вокалізованих пауз спонтанної мови / О. М. Ладошко // Акустичний симпозіум «Консонанс-2011», 27-29 вересня 2011 р.: тези доп. - К. - 2011. - C.188-193.

11. Ладошко О. М. Моделювання виділювача частоти основного тону для досліджень спонтанного мовлення / О. М. Ладошко // Міжнародна науково-технічна конференція "Моделювання і комп'ютерна графіка", 5-8 жовтня 2011 р.: тези доп. - Донецьк, 2011. - С. 304-308.

12. Ладошко О. М. Дослідження впливу характеристик телефонного каналу зв'язку на надійність розпізнавання фонем / О. М. Ладошко // III Міжнародна науково-технічна конференція студентів, аспірантів та молодих вчених. Інформаційні управляючі системи та комп'ютерний моніторинг (ІУС і КМ-2012), 16- 18 квітня, 2012р.: тези доп. - Донецьк. - 2012. - С. 143-148.

13. Сравнительный анализ некоторых методов оценки разборчивости речи/[ Гавриленко О.В., Дидковский В.С., Продеус А.Н.] / Акустический симпозиум «КОНСОНАНС - 2007».

14. Гавриленко О.В., Дидковский В.С., Продеус А.Н. Расчет и измерение разборчивости речи при малых отношениях сигнал-шум // Электроника и связь. Тематический выпуск ч 1, 2007.

15. Григорьев С.В. Оптимизированная по спектру шумовая помеха // Защита информации Конфидент. -- № 4. -- 2003.

16. Дворянкин С.В., Макаров Ю.К., Хорев А.А. Обоснование критериев эффективности защиты речевой информации// Защита информации. Инсайд. -- С. Петербург.: 2007. -- № 2 -- С. 18 -- 25.

17. Железняк В.К., Макаров Ю.К., Хорев А.А. Некоторые методические подходы к оценке эффективности защиты речевой информации// Специальная техника. - М.: 2000. - № 4 - С. 39 - 45.

18. Зейдель А. Н. Элементарные оценки ошибок измерения. - М.: Наука. 1967.

19. Иванов В.М., Хорев А.А. Способ и устройство формирования «речеподобных» шумовых помех // Вопросы Защиты информации. -- № 4. -- 1999.

20. Каргашин В.Л. Некоторые особенности реализации пассивных мер защиты в виброакустических каналах утечки речевой информации // Специальная техника. - № 4. -- 2002.

21. Каргашин В.Л. Защита от утечки речевой информации из помещения: практические аспекты реализации // Защита информации Инсайд. - № 2. - 2005.

22. Каргашин В.Л. Совершенствование методических принципов оценки защищенности помещений от утечки речевой информации// Специальная техника. 2001. № 6. С. 11-21.

23. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991.-С. 81-111.

24. Каторин Ю.Ф. Большая энциклопедия промышленного шпионажа. - СПб.: Полигон, 2000.

25. Кученков Е.Б. Оценка эффективности защиты речевой информации по акустическим и виброакусгическим каналам // Специальная техника. - № 1. 2005.

26. Кученков Е. Б. Подходы к разработке методики оценки защищенности ВТСС. - Специальная техника №1. М-2002.

27. Шакаров Ю. К., Хорев А. А. К оценке эффективности защиты акустической(речевой) информации/Специальнал техника №5. - М.: 2000.- С. 46 56.

28. Михайлов В. Г. Аппаратурные методы измерения качества телефонной передачи,- Зарубежная электротехника, №5, 1973.

29. Матушкин Г.Г. Береснев В.К., Каспер А.Э., Власова Т.В. Основы мем- рологии. - Методическое руководство к лабораторным работам, ИГРУ 2005.

30. Осломенко Д.В., Гирин С.Н. Хорошо шумим... // Защита информации Инсайд. - № 2, 3. - 2005.

31. Покровский Н.Б. Расчет и измерение разборчивости речи. - М.: Связьиз- дат, 1962.- С. 390.

32. Продеус А.Н. О некоторых особенностях развития объективных методов измерений разборчивости речи // Электроника и связь 2-й тематический выпучк «Электроника и нанотехнологии», 2010.

33. Рашевский Я. П., Каргашин В. Л. Обзор зарубежных методов определения разборчивости речи.- Специальная техника, № 3, 4, 5, 6 2002 . № 1 за >003.

34. Сапожков М.А. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963.-С. 472.

35. Сапожков М. А. Защита трактов радио и проводной телефонной связи от помех и шумов,- Связьиздат, Москва, 1959.

36. Сапожков М.А. Звукофикация помещений. Проектирование и расчет. - М.: Связь. 1979.-С. 144.

37. Сапожков М.А., Михаилов В.Т. Вокодерная связь. - М: Радио и связь. 1983. - С. 246.

38. Трушин В.А. К вопросу об оценке разборчивости речи // Проблемы информационной безопасности государства, общества, личности: - Материалы 9-й Всероссийской научно-практической конференции. Томск, 2007. С. 115-119.

39. Vintsiuk T.K. The analysis, pattern recognition and semantic interpretation of the speech signals. - Kiev : Naukova Dumka, 1987. - 263 p.

40. M. Gales, S. Young. The Application of Hidden Markov Models in Speech Recognition. // Foundations and Trends in Signal Processing. - 2007. - №1(3).

41. T. Vintsiuk, M. Sazhok. Multi-Level Multi-Decision Models in ASR. // Proc. of the 10th International Workshop “Speech and Computer” (SPECOM'2005). - Patras, 2005. - P. 69-76.

42. http://www.creaceed.com/ceedvocal/about

43. http://www.apple.com/ios/siri/

44. http://www.nuance.com/for-business/by-product/automotive-products- services/vocon-hybrid/

45. Robeiko V.V., Sazhok M.M. Multi-level multi-decision model transformation orthographic text to phonemic// Artificial Intelligence. - № 4'2011.

46. Sazhok N.N. Clustering words for construction of a linguistic model for the automatic recognition of the speech signal // Cybernetics and Computer Science: Interagency collection of scientific papers. - Issue. 170. - Kyiv, 2012.

47. .Lee A. Julius - an open source real-time large vocabulary recognition engine A. Lee, T. Kawahara // Proc. European Conference on Speech Communication and Technology (EUROSPEECH). - 2001.- P. 1691-1694.

48. S. Kumar, M. Rao, Design Of An Automatic Speaker Recognition System Using MFCC, Vector Quantization And LBG Algorithm // International Journal on Computer Science and Engineering, 2011. Vol. 3, No. 8

Додаток

Реферат англійською мовою за темою дипломної роботи

Speech recognition and speech understanding systems have made their way into mainstream applications and services and they have become widely used in society. Among the leading applications of speech recognition and natural language understanding technology include the following:

Desktop Applications: including dictation, command and control of the desktop functionality, control of document properties (fonts, styles, bullets, etc.)

Agent Technology: including simple tasks like stock quotes, traffic reports, weather, access to communications, voice dialing, voice access to directories, voice access to messaging, calendars, appointments, etc.

Voice Portals: including systems capable of converting any web page to a voiceenabled site, where any question that can be answered on-line can be answered via a voice query using protocols like VXML, SALT, SMIL, SOAP, etc.

E-Contact Services: including call centers, customer care centers (such as How May I Help You), and help desks where calls are triaged and answered appropriately using natural language voice dialogs

Telematics: including command and control of automotive features (comfort systems, radio, windows, sunroof)

Small Devices: including cell phones for dialing by name or function, PDA control from voice commands, etc. There are two broad areas where ASR systems need major improvements before they become ubiquitous in society, namely in system and operational performance. In the system area we need large improvements in accuracy, efficiency, and robustness in order to use the technology for a wide range of tasks, on a wide range of processors, and under a wide range of operating conditions. In the operational area we need better methods of detecting when a person is speaking to a machine and isolating the spoken input from the background. We also need to be able to handle users talking over the voice prompts (so-called barge-in conditions). More reliable and accurate utterance rejection methods are needed so that we can be sure that a word needs to be repeated when poorly recognized the first time. Finally, we need better methods of confidence scoring of words, phrases, and even sentences so as to maintain an intelligent dialog with a human. As speech recognition systems and speech understanding systems become more robust to noise, background disturbances, and transmission characteristics of communication systems, they will find their way into more small devices, thereby providing a natural and intuitive way to control the operation of these devices as well as to ubiquitously and easily access and enter information.

Размещено на Allbest.ru


Подобные документы

  • Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.

    реферат [61,7 K], добавлен 23.12.2013

  • Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

    дипломная работа [291,0 K], добавлен 14.10.2010

  • Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.

    дипломная работа [3,4 M], добавлен 15.03.2022

  • Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.

    дипломная работа [182,5 K], добавлен 07.05.2012

  • Елементи прихованої марківської моделі. Матриця ймовірностей переходів (або матриця переходів). Розподіл ймовірностей початкового стану. Розпізнавання мовлення із великих словників для ізольовано вимовлених слів. Попередня обробка мовного сигналу.

    курсовая работа [175,1 K], добавлен 13.04.2009

  • Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.

    курсовая работа [4,5 M], добавлен 29.09.2010

  • Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.

    дипломная работа [1,6 M], добавлен 02.07.2014

  • Навчання штучних нейронних мереж, особливості їх використання для вирішення практичних завдань. Рецепторна структура сприйняття інформації. Перцептрон як модель розпізнавання. Задача моделювання штучної нейронної мережі з розпаралелюванням процесів.

    дипломная работа [2,8 M], добавлен 24.07.2013

  • Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.

    курсовая работа [1,7 M], добавлен 19.05.2014

  • Визначення найкращого режиму роботи системи обробки повідомлень. Представлення моделі у вигляді системи масового обслуговування. Визначення структури моделі. Обмеження на зміну величин. Програмна реалізація імітаційної моделі. Оцінка адекватності.

    курсовая работа [153,9 K], добавлен 29.01.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.