Дигитално процесирање на говор

Наслов на наставниот предмет

Код

4ФЕИТ05010

Студиска програма

9-ВМС, 10-ДПСМ, 21-ПНМИ, 22-БЕ

Организатор на студиската програма

(единица, односно институт, катедра, оддел)

Факултет за електротехника и информациски технологии

Степен (прв, втор, трет циклус)

Втор циклус студии

Академска година/семестар

I/1

Број на ЕКТС кредити

6.00

Наставник

Д-р Бранислав Геразов

Предуслов за запишување на предметот

10.

Цели на предметната програма (компетенции):

Целта на програмата е да им овозможи на студентите да се стекнат со проширени знаења за техниките за анализа, синтеза и препознавање на дигиталните говорни сигнали. Истата е дизајнирана да им ги доближи најразличните пристапи и апликации во дигиталното процесирање на говорот, преку разгледување на најновите достигнувања.

11.

Содржина на програмата:

1. Основи на дигитално аудио, принципи на дигитализација на звукот, фреквенција на семплирање, надсемплирање, џитер. 2. Работа со аудиосигналите во дигитален домен; квантизација, резолуција и шум на квантизација, дитер, обликување на шумот. 3. Фуриеова трансформација, Z-трансформација, амплитуден и фазен спектар на аудиосигналите. 4. Метода на прозорци, принцип на квазистационарност, Фуриеова трансформација на временски отсечоци (STFT), типови на прозорци и нивни карактеристики, спектрограм. 5. Основи на дигиталните филтри, филтрирање на аудиосигналите, филтри со конечен импулсен одѕив (FIR), филтри со бесконечен импулсен одѕив (IIR), типови на филтри со линеарна фазна карактеристика, дизајн на FIR филтри. 6. Ниско-пропусни (НП), високо-пропусни (ВП), филтри пропусници на опсег (ПО), филтри непропусници на опсег (НО), Notch филтри. Банки на филтри, еквализација. 7. Вокодер, основи на создавање на говорот, моделирање на говорниот сигнал преку моделот извор-филтер, LP анализа на спектарот. Компресија на говор: LP10, CELP, VOCODER. 8. Основи на препознавање на говор, примена на машинско учење за процесирање на говор, екстракција на обележја за тренинг на алгоритми за машинско учење, аудиторен спектрограм, мел-фреквенциски кепстрални коефициенти (MFCC). 9. Препознавање на говор со динамичко вообличување на времето (DTW), скриени модели на Марков (HMM), Гаусови мешавински модели (GММ). 10. Препознавање на говор со длабоко учење, невронски мрежи (NN, DNN), рекурентни невронски мрежи (RNN, LSTM), конволуциски невронски мрежи (CNN), трансформери, системи од крај до крај. 11. Препознавање на говорник со GММ, тренирање со максимизација на очекувањето (ЕМ), универзален позадински модел (UBM), адаптација на UBM моделот, пресметка на логаритамот од односот на веројатности (LLRM). 12. Синтеза на говор, синтеза со конкатенација, артикулаторна синтеза, синтеза со форманти, параметарска синтеза со HMM и NN. 13. Синтеза на говор со длабоко учење.

12.

Методи на учење:

Комбиниран начин на учење: предавања, поддржани со презентации и визуелизација на концептите, и самостојни проектни задачи.

13.

Вкупен расположив фонд на време

180

14.

Распределба на расположивото време

3 + 3

15.

Форми на наставните активности

15.1

Предавања – теоретска настава

45 часови

15.2

Вежби (лабораториски, аудиториски), семинари, тимска работа

45 часови

16.

Други форми на активности

16.1

Проектни задачи

30 часови

16.2

Самостојни задачи

30 часови

16.3

Домашно учење

30 часови

17.

Начин на оценување

17.1

Тестови

0 бодови

17.2

Семинарска работа/проект (презентација: писмена и усна)

50 бодови

17.3.

Активност и учење

20 бодови

17.4.

Завршен испит

30 бодови

18.

Критериуми за оценување (бодови/оценка)

до 50 бода

5 (пет) (F)

од 51 до 60 бода

6 (шест) (E)

од 61 до 70 бода

7 (седум) (D)

од 71 до 80 бода

8 (осум) (C)

од 81 до 90 бода

9 (девет) (B)

од 91 до 100 бода

10 (десет) (A)

19.

Услов за потпис и полагање на завршен испит

Ислушани предавања.

20.

Начин на полагање на испитот

Проектна задача и завршен испит.

21.

Јазик на кој се изведува наставата

Македонски и Англиски

22.

Метод на следење на квалитетот на наставата

Анкети, интервјуа и самоевалуација.

23.

Литература

23.1.

Задолжителна литература

Ред.

број

Автор

Наслов

Издавач

Година

Lawrence R. Rabiner, Ronald W. Schafer

Theory and Applications of Digital Speech Processing

Pearson

2010

Dan Jurafsky and James H. Martin

Speech and Language Processing

Pearson Education

2014

23.2.

Дополнителна литература

Ред.

број

Автор

Наслов

Издавач

Година

Ian Goodfellow, Yoshua Bengio and Aaron Courville

Deep Learning

MIT Press

2016

Lawrence Rabiner, Biing-Hwang Juang

Fundamentals of Speech Recognition

Prentice Hall

1993

Uday Kamath, John Liu, James Whitaker

Deep Learning for NLP andSpeech Recognition

Springer

2019

Колаче	Траење	Опис
_ga	2 years	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.
_gid	1 day	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.

Колаче	Траење	Опис
_gat_gtag_UA_51862298_5	1 minute	Колаче за Google Analytics кое се користи за следење на интеракциите на корисниците со веб страницата.
CONSENT	16 years 7 months 14 days 11 hours	Памтење на изборот за колачиња.
cookielawinfo-checkbox-others	1 year	Ова колаче се користи за да се запамти вашиот избор за категоријата Други колачиња.
YSC	session	Ова колаче е поставено од Youtube и се користи за следење на прегледи на видеата.

јули 2026
П	В	С	Ч	П	С	Н
« Јун
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31