Technologia Mowy

Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Sylabus

Informacje i materiały dostępne w Moodle (po zalogowaniu):

Wykłady

  • Organizacyjny i wprowadzenie do technologii mowy (B)
  • Fonetyka. Dialekty. Zasoby mowy i języka. (B)
  • Fizjologia mowy. Właściwości sygnału mowy. Przetwarzanie wstępne sygnału (J) PDF
  • Metody parametryzacji i segmentacji sygnału (J) PDF
  • Korpusy. Słowniki komputerowe. HTK. (B)
  • Kodowanie, kompresja i transmisja mowy (J) PDF
  • Metody rozpoznawania wzorców. DTW. Bayes Rule, Maximum A-posteriori Probability (J) PDFPDF
  • Ukryte modele Markowa. Rozpoznawanie słów izolowanych (J) PDF
  • Analiza skupień. Redukcja zakłóceń (w tym wielomikrofonowe systemy). (J) PDF
  • ANN, SVM. Rozpoznawanie mowy ciągłej (B)
  • Syntaktyczne modelowanie języka, ngramy, POS tagery, parsery, filtr Blooma (B)

Demonstracje powodu dla którego można stosować modele językowe i prawa Zipfa:

Random Word Generator from the Wolfram Demonstrations Project by Margarita Zeitlin
Zipf's Law for Natural Languages from the Wolfram Demonstrations Project by Giovanna Roda
  • Rozpoznawanie mówcy. Fonoskopia. (B)
  • Semantyczne modelowanie języka (B)
  • Ontologie, interfejs głosowy i systemy dialogowe (B)
  • Synteza mowy. Wykrywanie emocji w głosie. Komercyjne i akademickie systemy rozpoznawania mowy, standardy, narzędzia, trendy rozwoju ASR (B)

Laboratoria

  • Analiza i synteza mowy - ton krtaniowy, formanty, synteza formantowa/wokoder (1,2 spotkania)
  • Miniprojekt (3 spotkania) - rozpoznawanie samogłosek: instrukcja.
  • Rozpoczęcie pracy z HTK Poradnik
    • rejestracja w HTK (http://htk.eng.cam.ac.uk/),
    • ściągnięcie dokumentacji (HTK Book),
    • zaznajomienie się z dokumentacją i zapisanie się na listę użytkowników,
    • ustalenie zadania ASR na kolejne tygodnie laboratoriów (około 30 słów, np. zestaw krótkich komend takich jak zamawianie pizzy),
    • sporządzenie plików gramatyk i słownika (patrz HTK Book).
    • Nagrania (3 minuty różnorodnych nagrań realizujących ustaloną gramatykę)
  • Anotowanie nagrań (1 lub 2 zajęcia) "Artykuł o anotatorze". Program do ściągnięcia na UPEL wyłącznie na potrzeby przedmiotu TMo
  • Opracowanie ASR z wykorzystaniem HTK (około 3 zajęć) na podstawie tutorialu z HTK book i uwag z wykładu.
  • Całokształt wyników pracy z HTK należy wysłać emailem lub udostępnić na serwerze wraz ze sprawozdaniem.
  • Projekt końcowy instrukcja (PDF).

Ćwiczenia

Edit Distance from the Wolfram Demonstrations Project by Rickey Bowers Jr.
  • Prezentacje studentów (B) Propozycje tematów (omówienie narzędzi programistycznych: Praat, Sphinx, NXT, ELAN, ESPS, ANVIL, Emu, WaveSurfer, Audacity, EXMARaLDA, MAUS; omówienie istniejących wybranych zastosowań komercyjnych technologii mowy, recenzja artykułów na temat technologii mowy, analiza wybranych języków z punktu widzenia przetwarzania ich mowy, „Kapitalny Pomysł” - pomysł na biznes związany z technologiami mowy)

8.00
Adaptive stream fusion in multistream recognition of speech
Efekt Lombarda (Antoni)
Perceptual linear predictive (PLP) analysis of speech (Krzysztof i …)
Problemy i wyzwania w systemach rozpoznawania języków semickich (Magdalena)
Metody porównywania modeli statystycznych (Monika i Katarzyna)
Zastosowania komercyjne technologii mowy do konwersji mowy na tekst pisany (przede wszystkim aplikacje używane w telefonach), wybieranie głosowe, sterowanie pracą maszyn, mechanizmy bezpieczeństwa w systemach firm (Tytus i Mateusz)
9.30
Parametry biometryczne - ogólny opis i zastosowanie w przetwarzaniu sygnału mowy (Marcin i Adrian)
Historia języka polskiego (Piotr i Małgorzata)
Fonoskopia (Paweł)
Technologia mowy w grach komputerowych (Wit)

  • Klasyfikator Bayesa i GMM (J),
    • Najczęściej popełniane błędy w zadaniach z klasyfikatorów:
    • Niekonieczne i często nieprawidłowe wykorzystywanie wzoru na wielowymiarowy rozkład Gaussa (wielka Sigma) w przypadkach jednowymiarowych lub w naiwnym klasyfikatorze.
    • Wielka Sigma to macierz kowariancji, mała sigma to odchylenie standardowe. Wariancja to mała sigma w kwadracie, i to wariancja znajduje się na diagonali macierzy kowariancji a nie odchylenie standardowe.
    • W estymacji p(x|ci)=k/(K*V(x)) metodą kNN małe k oznacza liczbę elementów klasy ci, które wpadły do V(x), a wielkie K oznacza liczbę wszystkich elementów klasy ci, czyli elementów klasy, dla której wyznaczamy p(x|ci) !
    • W klasyfikacji kNN (bez wyznaczania p(x|ci)), wybieramy klasę, która najliczniej pojawiła się w objętości V(x). Prawdopodobieństwo klasyfikacji x do klasy ci, czyli p(ci|x) (nie p(x|ci)), wynosi wówczas p(ci|x)=ki/k, czyli jest to proporcja liczby ki elementów klasy ci, które wpadły do objętości V(x), do liczby wszystkich elementów wszystkich klas, które wpadły do objętości V(x).
    • Estymacja gęstości p(x|ci) metodą kNN oraz klasyfikacja metodą kNN to dwa różne zagadnienia , chociaż są do siebie bardzo podobne.
    • Objętość V(x) w przestrzeni euklidesowej 1D to długość odcinka (2*r), w 2D to pole koła (pi*r^2), w 3D to objętość kuli (4/3 *pi*r^3), itd… Przy zmianie metryki (np. na taksówkową) wzory się zmienią bo zmienia się przestrzeń metryczna.
  • Kolokwium (B).
  • HMM bez komputera - alg. Brute Force, alg. Forward-Backward. (J)
  • DTW, HMM bez komputera - Algorytm Viterbiego, reg. optymalności Bellmana. (J)
  • Algorytmu Dijkstry i model n-gramowy. (B)
  • Prezentacje studentów
    Modele Markova - konstrukcja i zastosowanie poza zagadnieniami Technologii Mowy (Sebastian),
  • Kolokwium (także z wykładów)(J).

Rekomendowane dodatkowe materiały

Rekomendowane filmy

  • Odyseja Kosmiczna 2001
  • Bladerunner (Łowca androidów)
  • Cherry 2000

Oceny

  • Laboratorium
    • Wykonanie zadań laboratoryjnych, ich staranność i jakość
    • Obecność na zajęciach
  • Ćwiczenia
    • 3 kolokwia z ćwiczeń i wykładów (60%)
    • Prezentacja (10%)
    • Wykonanie ćwiczeń w trakcie zajęć i aktywność (30%)
 
tm/start.txt · ostatnio zmienione: 2014/10/23 07:44 przez Jakub Gałka
 
Powered by Monster; Copyright © 2010, Bartosz Ziółko; Driven by Driven by DokuWiki