Реч синтез, разпознаване на реч - говор обработка на сигнали

текст-към-говор

Фигура 2.2 - акустична обработка на сигнали

синтезирането на говор технология се използва широко за хора с проблеми със зрението. За всички останали, той създава ново измерение на удобство и технология значително намалява тежестта върху очите, нервната система ви позволява да използвате слухова памет.

Фигура 2.3 - Синтез на реч

Всеки текст се състои от думи, разделени с интервали и препинателни знаци. Казвайки думите зависи от тяхната позиция в изречението и интонационни фрази - от пунктуация. И накрая, изказването зависи от значението на думата! Съответно, за да синтезира речта звучи естествено, трябва да се реши редица проблеми, свързани както с осигуряването на естествен глас на нивото на гладкост на звука и интонацията, както и правилното поставяне на акценти, разгадават акроними, числа, съкращения и специални знаци дадени особености на граматиката български език.

Има няколко подхода за решаване на проблеми:

1) allophone синтез система - осигуряване на стабилна, но не и естествено, роботизирана звук;

2) системи, които се основават на селекцията на отдел подход - да предоставят много по-естествен звук, но може да съдържа фрагменти с остри неуспехи качествени реч, до загубата на разбираемост;

3) хибридна технология на базата на синтеза allophone звено подход за подбор и допълнени единици.

Въз основа на тази технология е създадена VitalVoice система, която осигурява стабилно и естествено звучене акустично ниво.

разпознаване на говор

Реч комуникация е естествено и удобно за хората. задача за разпознаване на реч, е, че за да се отстрани посредник в диалога на човека и компютъра. автомобил контрол глас в реално време, както и въвеждане на информация чрез човешка реч много по-лесно живота на съвременния човек. Научи една машина да се разбере без посредник езика, който се говори от хора помежду си - задачата за разпознаване на реч.

Учените и инженерите в продължение на много години, решаване на проблема с вербална комуникация между човека и машината. Първото устройство за разпознаване на реч дойде през 1952 г., тя може да разпознае човека изрече цифри. Търговска програма за разпознаване на реч започва в началото на деветдесетте години.

Всички системи за разпознаване на реч могат да бъдат разделени в два класа:

1) системи, които са зависими от говорителя - са изложени на въпрос говорителят в процеса на обучение. За да работите с друг оператор, тези системи се нуждаят от пълна реорганизация.

Фигура 2.4 - разпознаване на реч

2) системи, които са независими от говорителя - работата е независима от високоговорителя. Такива системи не изискват предварителна подготовка и са в състояние да разпознава речта на всеки говорител.

Първоначално се появи на пазарната система от първия тип. Те звучат изображение държи отборът под формата на цялостен справка. За сравнение на неизвестен изговор и екипът използва стандартните методи за динамично програмиране. Тези системи работят добре при признаването на малки групи от 10-30 команди и разбира само един говорител. За да работите с друг оператор, тези системи се нуждаят от цялостна реорганизация.

За да се реализира съвместно реч, че е необходимо да се отиде към речника много по-голяма, от няколко десетки до стотици хиляди думи. Използваните в системите от първия тип методи не са подходящи за тази задача, защото това е просто невъзможно да се установи стандарти за такъв голям брой думи.

В допълнение, има желание да се направи системата, независимо от високоговорителя. Това е много трудна задача, защото всеки човек има индивидуален стил на изказване: скоростта на речта, тон на гласа, особено произношение. Такива разлики се наричат променливостта на словото. За да го вземе под внимание, са предложени нови статистически методи, основани главно на математически апарат Скрити Марков модели (HMM) и изкуствени невронни мрежи. Вместо да създаде стандарти за всяка дума, за да създадете майстор на отделните звуци, които съставят думи, така наречените звукови модели. Акустични модели, генерирани от статистическата обработка на големи бази данни, съдържащи реч гласови записи на стотици хора.

Съществуващите системи за разпознаване на реч използват два коренно различни подхода:

- Признаване на гласови маркери

Трябва да се отбележи, че създаването на системи за разпознаване на реч е изключително трудна задача.