New theses – kwant

Proposal of engineering and master’s degree projects.

VRLAB (web/adm): przygotowanie labolatorium VR, strona WWW, integracja libre booking, monitoringu (frigate), opisanie procedur rezerwacji sprzętu, przetestowanie procedur instalowania oprogramowania, backup, automatyzacja niektórych procedur (skrypty Python), etc… Większość tych procedur jest już opisana a oprogramowanie wdrożone. Główną częścia pracy będzie scalenie tych procedur i przetestowanie ich pracy przed komercyjnym wdrożeniem laboratorium.
Next day PV output prediction (ML/AI): przewidywanie wyprodukowanej mocy z instalacji PV w następnym dniu na podstawie prognozy pogody (zachmurzenia). Danymi wejściowymi powinny być publicznie dostępne prognozy pogody (np. windy.com). Danymi do treningu powinny być historyczne mapy pogody oraz publicznie dostępne dane produkcji instalacji PV (np. pvmonitor.pl/). Prawdopodobna architektura to sieć splotowa.
Speech enhancer (ML/AI): poprawa jakości dźwięku (mowy) podczas telekonferencji. Motywacja: jakość mowy jeżeli jest używany mikrofon laptopa lub smartfona w trybie głośnomówiącym jest słaba. Praca polega na zbudowaniu modelu rekonstrukcji mowy (najprawdopodobniej w architekturze autoenkodera). Dane wejściowe to zepsuty dźwięk, dane wyjściowe to dźwięk zarejestrowany dobrym mikrofonem. Tak wytrenowany model powinien poprawić (po stronie mówcy) jakość mowy. Założeniem jest czas rzeczywisty (opóźnienia max 20-50 ms). Model dotrenowany do konkretnego mówcy, musi działać w czasie rzeczywistym.
Superresolution vehicle registration plate (ML/AI): poprawa jakości (ostrości/czytelności) tablic rejestracyjnych na podstawie SEKWENCJI zdjęć. Często nie da się poprawnie odczytać tablic rejestracyjnych zarejestrowanych słabej jakości kamerą (np. rejestratorem w samochodzie). Z pojedynczej ramki to nie jest możliwe ale zazwyczaj mamy do dyspozycji sekwencję obrazów. W sekwencji obrazów, nawet słabej jakości jest zazwyczaj wystarczająco dużo informacji potrzebnej do odczytania danych z pojedynczej ramki nie. Należy wytrenować model, który na wejściu będzie miał znormalizowaną sekwencję obrazów tablic, na wyjściu tylko jeden obraz ale wysokiej rozdzielczości. Potencjalna architektura to splotowy autoenkoder z wielokanałowym wejściem.
Gesture recognition (ML/AI): Rozpoznawanie gestów wykonywanych dłońmi/rękami na podstawie sekwnecji (ważne!) wideo. Rozpoznawanie gestu z jednego obrazka jest zawsze niedokładne ponieważ: poza, okluzje, niedokładny gest, szum/zakłócenia, etc… ale rozpoznawanie z sekwencji kilku kolejnych ramek wideo powinno być o wiele dokładniejsze. Potencjalne zastosowania to “czytanie” języka miganego (do tego jest potencjalnie dużo danych surowych i opisanych), automatyzacja czynności gestami. Oczekiwana architektura sieci to sieć splotowa, może skojarzony z vision transformers.
GPS jamming detection (DSP): Obecnie doświadczamy celowego zakłócania sygnału GPS przez Rosję. Celem projektu jest triangulacja sygnału zakłócającego, czyli pokazanie w czasie rzeczywistym położenia nadajnika/nadajników zakłócających. Częstotliwość Sygału GPS jest w zakresie odbioru tanich urządzeń RTL-SDR, można je podłączyć do RaspberryPI i kilka takich (tanich) odbiorników rozmieścić w Polsce, podłączyć do sieci i użyć do triangulacji zakłóceń. Projekt jest inspirowany https://www.blitzortung.org/
Object tracking in EgoMotion mode (ML/AI): Śledzenie obiektu (detekcja z sekwencji zdjęć) obiektu typu człowiek, pies/kot, pojazd, etc… Zakładając że mamy do dyspozycji sekwencję video z drona lecącego w kierunku celu albo podążającego za celem, chcemy oznaczyć cel i nadal automatycznie podążać za takim celem. Przykład zastosowania to dron automatycznie podążający za użytkownikiem (rower, narty, etc.). Ograniczenia to niska moc przetwarzania na urządzeniu węc w grę wchodzą niewielkie modele. Założenie, że model będzie działał w real-time (5-10 fps) na urządzeniach typu RPI/smartfon/TFCoral.
rolling shutter compensation (MI/AI): Dynamiczny ruch rejestrowany za pomcą typowych kamer posiadających tzw. “rolling shutter“ jest zakłócony – poszczególne poziome linie rejestrowane w obrazie są przesunięte. Należy zbudować model, który zrobi rekonstrukcję albo poda jak “przesunąć” te linie tak żeby uzyskać poprawną, nie wykrzywioną (nie zniekstałconą) sekwencję obrazu. Dane można po części wygenerować samemu (wprowadzić rolling shutter sztucznie) albo spróbować nagrać taką sekwencję w sprytny sposób (np. dwie kamery prostopadle do siebie, będą miał rolling shutter w innym kierunku). Prawdopodobnie jakiś wariant sieci splotowej powinien wystarczyć ale największym problem będzie sprytne przygotowanie danych.
inter frames interpolation (MI/AI): Zrobienie slow-motion, model ma interpolować ramki pomiędzy istniejącymi. Najprawdopodobniej wystarczy autoenkoder splotowy, który na wejściu będzie miał powiedzmy 4 – 10 kolejnych ramek wideo i ma wyprodukować jedną-kilka ramek pomiędzy dwoma środkowymi. Dane mogą pochodzić z filmów slow-motion z publicznie dostępnych źródeł.
LLM tuned to publicly available documents (AI/LLM): AGH publikuje dużo wewnętrznych dokumentów związanych z organizacją instytucji (akty prawne, regulaminy, etc…). Praca polega na napisaniu scraperów do akwizycji tych dokumentów, przekonwertowniu do tekstu (zazwyczaj to są skany pdf), otagowaniu i przetrenowaniu “jakiegoś” małego modelu dobrze rozumiejącego język polski w ten sposób, żeby podawał podstawy prawne (linki do dokumentów) na zadane pytanie. Większość pracy będzie w obrębie metod przygotowywania danych i ewaluacji wyników. Fine tuning modelu najprawdopodbniej metodami typu QLoRA.
Podcast optimization (AI/ML/DSP): wycinanie z podcastów niemerytorycznych “dłużyzn” – np. przerw pomiędzy zdaniami/wyrazami (zastanawianie się prowadzącego), artefakty typu eeeeee/iiiiiiiii/mmmm.
Grammar Guide (Android/Front/Back/OpenAI): Aplikacja mobilna mająca na celu poprawienie gramatyki EN wykładowcy którego jest to drugi język. Aplikacja działa podczas wykładu (~90 minut) rejestruje audio, wysyła na serwer, robi transkrypcję (np.Whisper), następnie dzieli na fragmenty i za pomocą GPT/LLaMA wyszukuje błędów (np. gramatycznych) lub usterek (powtarzanie słów, etc…) i wykonuje zestawienie. Od strony AI praca polega wyłącznie na “prompt engeeneringu” i ewentualnie instalowanie modeli z huggingface.co lokalnie.