Дигитално процесирање на говор

Предмет: Дигитално процесирање на говор

Код: 3ФЕИТ05005

Број на ЕКТС кредити: 6 ЕКТС

Неделен фонд на часови:3+0+0+3

Наставник: Доц. д-р Бранислав Геразов

Цели на предметната програма (компетенции): Целта на програмата е да им овозможи на студентите да се стекнат со проширени знаења за техниките за анализа, синтеза и препознавање на дигиталните говорни сигнали. Истата е дизајнирана да им ги доближи најразличните пристапи и апликации во дигиталното процесирање на говорот, преку разгледување на најновите достигнувања.

Содржина на предметната програма: 1. Основи на дигитално аудио, принципи на дигитализација на звукот, фреквенција на семплирање, надсемплирање, џитер. 2. Работа со аудиосигналите во дигитален домен; квантизација, резолуција и шум на квантизација, дитер, обликување на шумот. 3. Фуриеова трансформација, Z-трансформација, амплитуден и фазен спектар на аудиосигналите. 4. Метода на прозорци, принцип на квазистационарност, Фуриеова трансформација на временски отсечоци (STFT), типови на прозорци и нивни карактеристики, спектрограм. 5. Основи на дигиталните филтри, филтрирање на аудиосигналите, филтри со конечен импулсен одѕив (FIR), филтри со бесконечен импулсен одѕив (IIR), типови на филтри со линеарна фазна карактеристика, дизајн на FIR филтри. 6. Ниско-пропусни (НП), високо-пропусни (ВП), филтри пропусници на опсег (ПО), филтри непропусници на опсег (НО), Notch филтри. Банки на филтри, еквализација. 7. Вокодер, основи на создавање на говорот, моделирање на говорниот сигнал преку моделот извор-филтер, LP анализа на спектарот. Компресија на говор: LP10, CELP, VOCODER. 8. Основи на препознавање на говор, примена на машинско учење за процесирање на говор, екстракција на обележја за тренинг на алгоритми за машинско учење, аудиторен спектрограм, мел-фреквенциски кепстрални коефициенти (MFCC). 9. Препознавање на говор со динамичко вообличување на времето (DTW), скриени модели на Марков (HMM), Гаусови мешавински модели (GММ). 10. Употреба на длабоко учење во препознавањето на говор, невронски мрежи (NN, DNN), рекурентни невронски мрежи (RNN, LSTM), конволуциски невронски мрежи (CNN). 11. Препознавање на говорник со GММ, тренирање со максимизација на очекувањето (ЕМ), универзален позадински модел (UBM), адаптација на UBM моделот, пресметка на логаритамот од односот на веројатности (LLRM). 12. Синтеза на говор, синтеза со конкатенација, артикулаторна синтеза, синтеза со форманти, параметарска синтеза со HMM и NN. 13. Синтеза на говор со Wave-Net.

Литература:

Задолжителна литература
Бр.	Автор	Наслов	Издавач	Година
1	Lawrence Rabiner,‎ Ronald Schafer	Theory and Applications of Digital Speech Processing	Pearson	2010
Дополнителна литература
Бр.	Автор	Наслов	Издавач	Година
1	Lawrence Rabiner,‎ Biing-Hwang Juang	Fundamentals of Speech Recognition	Prentice Hall	1993
2	Dong Yu,‎ Li Deng	Automatic Speech Recognition: A Deep Learning Approach	Springer	2015
3	by Xuedong Huang,‎ Alex Acero, Hsiao-Wuen Hon	Spoken Language Processing: A Guide to Theory, Algorithm and System Development	Prentice Hall	2001

П	В	С	Ч	П	С	Н
« Јун
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Колаче	Траење	Опис
_ga	2 years	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.
_gid	1 day	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.

Колаче	Траење	Опис
_gat_gtag_UA_51862298_5	1 minute	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.
CONSENT	16 years 7 months 14 days 11 hours	Памтење на изборот за колачиња.
cookielawinfo-checkbox-others	1 year	Ова колаче се користи за да се запамти вашиот избор за категоријата Други колачиња.
YSC	session	Ова колаче е поставено од Youtube и се користи за следење на прегледи на видеата.