Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
tematy_prac_magisterskich [2018/09/15 00:33]
pszwed [Tematy do realizacji 2018/2019]
tematy_prac_magisterskich [2023/09/14 15:32] (current)
pszwed [2023]
Line 1: Line 1:
 ====== Tematy prac magisterskich ====== ====== Tematy prac magisterskich ======
  
 +===== 2023 =====
 +Na razie szkic
 +  - [Zarezerwowane A.P] Budowa i uczenie ChatBota [[https://chatterbot.readthedocs.io/en/stable/index.html]]. Uczenie na podstawie plików z napisami do filmów. Web scraping plików z napisami. Prosta aplikacja, np. Dash demonstrująca jego działanie
 +  - [Zarezerwowane B.B.] Uczenie zespołowe z wykorzystaniem platformy ray.io. Np. dla zagadnienia klasyfikacji. Budujemy zbiór równolegle uczonych klasyfikatorów C, a następnie podczas predykcji agregujemy wyniki (głosowanie). W pracy należy przetworzyć kilka zbiorów danych. Należy porównać działanie dla wybranych podzbiorów zbioru C. Dany klasyfikator "widzi" tylko części zbioru. Przetestujemy różne podziały - zachowujące częstości wystąpienia klas i ukierunkowane na wybieranie części klas. Testujemy także podział: klasa A i inne. Sklasyfikowane jako "inne" trafiają do kolejnego klasyfikatora. Kontynuujemy tworząc łańcuch...    
 +  - Zastosowanie algorytmu XYZ [PSO-roju cząstek lub ACO - mrówkowy lub ABC - pszczeli] w procesie wyboru cech opartym na metodzie zbiorów przybliżonych. Praca powinna zawierać przegląd zagadnień związanych ze zbiorami przybliżonymi (rough sets) i ich zastosowaniem do wyboru cech. RS dzielą przestrzeń na 3 podzbiory - elementów które należą do zbioru, te które nie należą i podzbiór brzegowy - elementów co do których nie ma pewności. W procesie wyboru cech usuwane są te atrybuty, które nie modyfikują tego podziału. Zazwyczaj potrzebny jest algorytm optymalizacyjny, które sprawdzi różne kombinacje. A więc z XYZ należy podstawić jakiś znany algorytm (metaheurystykę) dla zagadnień dyskretnych. Klasycznym rozwiązaniem jest alg. genetyczny. Dodatkową modyfikacją ma być zmiana w relacji nierozróżnialności. Zamiast równości atrybutu, spełnienie predykatu.
 +  - [Zarezerwowane M.M.] Ustalanie autorstwa/stylu obrazów. W pracy należy zgromadzić przykłady obrazów różnych artystów reprezentujących różne style. Stosujemy dwie etykiety - autor i styl. Następnie generujemy wycinki obrazów i trenujemy klasyfikator z funkcją straty agregującą autora i styl. Klasyfikator jest uczony na wycinkach obrazów (mniej więcej w stylu laboratorium dotyczącego augmentacji danych z Comp Intelligence). Zastosujemy transfer learning (z douczaniem i bez).
 +  - [Zarezerwowane P.W.] Autorstwo utworów muzycznych. Przygotowujemy kilka zestawów danych wewnątrz gatunków, np. muzyka klasyczna, pop, rock, klubowa, disco-polo, k-pop, itp. W ramach tch gatunków należy rozpoznać autora (zespół). Ponieważ współczesne utwory muzyczne są produktem poddanym mocnej obróbce dźwiękowej, można przypuszczać, że nowsze gatunki będą słabiej rozróżnialne. Do ekstrakcji cech wykorzystywana jest librosa. Na ten temat było laboratorium z Eksploracji danych dla specjalności IO. 
 +  - Zastosowanie rozmytych map kognitywnych do klasyfikacji szeregów czasowych. Rozmyte mapy kognitywne są porównywalne z rekurencyjnymi sieciami neuronowymi [[https://en.wikipedia.org/wiki/Fuzzy_cognitive_map]]. Użyjemy mapy kognitywnej wyższego stopnia, która będzie pamiętała k poprzednich wartości. Liczba węzłów wyjściowych odpowiada liczbie klas. Mapa ma przetwarzać ciągi róznej długości (bez wyrównania). Należy przetestować kilkanąscie jedno i wielowymiarowych zbiorów danych dla różnych stopni mapy. Platforma TensorFlow i zastosowanie gradientowego algorytmu uczenia mapy.  
 +===== 2022 =====
 +
 +
 +==== 1. Detekcja anomalii na nagraniach z rejestratorów lotniczych (MP ?) ====
 +
 +==== 2. Klasyfikacja szeregów czasowych (MW ?) ====
 +
 +
 +==== 3. Zastosowanie rozmytych map kognitywnych do predykcji natężenia ruchu drogowego ====
 +
 +//Zarezerwowane MO//
 +
 +Rozmyte mapy kognitywne (ang. Fuzzy Cognitive Maps - FCM) są bliskie rekurencyjnym sieciom neuronowym. Celem pracy jest opracowanie i przebadanie algorytmu, który będzie automatycznie budował model dla wielowymiarowych danych z pomiarami natężenia ruchu drogowego w sieci autostrad. Źródłem danych będzie system PEMS.
 +
 +==== 4. Estymacja gęstości prawdopodobieństwa dla danych komunikacyjnych ====
 +
 +//Zarezerwowane K.P.//
 +
 +Standardowe metody estymacji prawdopodobieństwa (ang. Kernel Density Estimation) opisane są w Wikipedii. Implementowane są przez wiele pakietów do wizualizacji map, np.. https://geopandas.org/en/stable/gallery/plotting_with_geoplot.html
 +Są to na ogół estymacje na podstawie odległości euklidesowej od punktów w przestrzeni R2. Celem pracy będzie opracowanie oprogramowania, który będzie estymowało gęstość w sieci drogowej - z uwzględnieniem rzeczywistej odległości pomiędzy odcinkami dróg. Źródłem danych mapy ma być OSM. Do ewentualnego wykorzystania moduł pgRouting lub własna implementacja algorytmu typu A*.
 +
 +==== 5. Grupowanie i predykcja dla danych komunikacyjnych z systemu Car Sharing ====
 +
 +//Zarezerwowane KR//
 +
 +Podstawowe dane systemu to miejsca parkowania samochodów, interakcje użytkowników z systemem oraz przejazdy. Dane te są  rejestrowane w pewnym obszarze (np.. granice miasta Krakowa). Celem pracy jest dobór lub opracowanie algorytmu grupowania hierarchicznego, który zapewni podział wyjściowego obszaru na podobszary odpowiadające grupom blisko położonych danych. Kryterium walidacyjnym ma być maksymalizacji efektywności predykcji wartości wyjściowych (podział jest lepszy, jeżeli uśrednione współczynniki predykcji są lepsze).    
 +
 +Predykcja działa zupełnie nieźle dla dzielnic, ale duże dzielnice są dość niejednorodne. 
 + 
 +==== 6. Optymalizacja miejsc parkowania pojazdów w systemie Car Sharing ====
 +
 +Celem pracy jest opracowanie i przebadanie algorytmu, który będzie podpowiadał decyzje o relokacji zaparkowanych pojazdów w celu lepszego zaspokojenia zapotrzebowania na pojazdy.
 +
 +==== 7. Hybrydowe metoda optymalizacji ciągłej ====
 +
 +//Zarezerwowane MS//
 +
 +Celem pracy jest opracowanie i przebadanie hybrydowego populacyjnego algorytmu optymalizacji.  Jego ideą jest podział procesu optymalizacji na epoki, podczas których nieprzerwanie wykonywana jest określona liczba iteracji algorytmu o pewnej konfiguracji.  Po zakończeniu epoki jej populacja przechodzi do następnej epoki, w której następuje wybór innego  algorytmu/konfiguracji. Wybór następuje z pewnym prawdopodobieństwem, które zmienia się w zależności od oceny algorytmu/konfiguracji w poprzedniej epoce. 
 +
 +==== 8. Agentowa/inspirowane biologicznie metoda poprawy efektywności optymalizacji (lokalnej) ====
 +
 +// Rezerwacja A.Z.//
 +
 +Celem pracy jest opracowanie metody optymalizacji lokalnej (np. dla algorytmu pszczelego) zainspirowanej zachowaniem organizmów. Atrybutem agenta jest rozwiązanie. Agenci przeszukują swoją przestrzeń lokalną wykonując  kilkanaście zakodowanych podstawowych operacji. Na przykład dla optymalizacji ciągłej może być to losowy skok na pewną odległość, ruch naprzód, cofnięcie się, itp. Wybór operacji dokonywany jest losowo i zależy od genotypu. Blisko położone osobniki mogą się rozmnażać - tworzony jest nowy i następuje losowe krzyżowanie genów.
 +
 +
 +==== 9. Algorytm rekomendacji filmów (?) ==== 
 +
 +//Zarezerwowane PT//
 +
 +Na podstawie danych z MovieLens rozszerzonych o dane zawarte w TMDB: 
 +plakat, opis fabuły, informacje o obsadzie, itp. Wykorzystanie sieci konwolucyjnych do przetwarzania posteru oraz LSTM (lub podobnych) do opisu fabuły. Do rozważenia warstwy embedding.
 +
 +==== 10. Klasteryzacja danych z TMDB ====
 +
 +//Zarezerwowane BK//
 +
 +Należy je pobrać - sortując według popularności. Liczba filmów do ustalenia
 +Wykorzystać dane tekstowe, plakat, informacje o obsadzie, gatunkach.
 +Zdefiniować (stratny) autoenkoder, który pozwoli zredukować wymiar wektora cech. Plakatu oczywiście nie odtwarzamy.
 +Przeprowadzić grupowanie w zredukowanej przestrzeni (k-means lub inne algorytmy, do rozważenia fuzzy c-means )
 +Zweryfikować jakość grupowania, stosując metrykę typu Vmeasure z użyciem informacji o gatunkach.
 +
 +==== 11. Przewidywanie cen nieruchomości (?) ====
 +
 +//Zarezerwowane KŻ//
 +
 +  - Web scraping danych z serwisu (gratka/otodom?). 
 +  - Próba odrzucenia duplikatów
 +  - Próba ustalenia przybliżonej lokalizacji (np. na podstawie pojawiających się w opisach nazw ulic - mapa OSM)
 +  - budowa cech (dane strukturalne i niestrukturalne na podstawie opisu)
 +  - sieć konwolucyjna dla zdjęć
 +
 +
 +==== 12. Ostatni slot ====
 +
 +
 +  - Przewidywanie sposobu wykorzystania terenu (ang. landuse) na podstawie zdjęć satelitarnych i danych OSM. Pobieranie zdjęć satelitarnych (Google?). Etykietowanie za pomocą danych OSM. Nanoszenie na obraz maski (obszarów ze znanymi etykietami). Zastosowanie algorytmów segmentacji opartych na sieciach neuronowych.
 +  - Przygotowanie zbioru danych do rozpoznawania twarzy (na podstawie sekwencji wideo). Następnie użycie / dotrenowanie sieci typu OpenFace. Rozpoznawanie na klatkach wideo z wieloma twarzami.
 +  - Symulacja deepfake. Celem jest zamiana twarzy na sekwencji wideo. (1) Rozpoznawanie punktów charakterystycznych - landmarków na dwóch zdjeciach A - oryginalnym i B - fałszywym (2) transformacja zdjęcia B zgodnie ze przesunięciami na A (3) Wygładzanie B - filtry i sieć GAN (4) Nałozenie B na oryginalne zdjęcie w miejsce A    
 +  - Ekstrakcja relacji z tekstów. Relacje pomiędzy zidentyfikowanymi terminami (ang. Named entity). 
 +
 +===== 2021 =====
 +
 +**Generacja widoków ontologii**
 +Ontologie przechowują informacje o klasach relacjach pomiędzy klasami, atrybutach oraz instancjach klas. Można w dużym uproszczeniu traktować je jako połączenie diagramu klas i obiektów UML. 
 +
 +Widok ontologii jest jej podzbiorem zachowującym relacje (oryginalne lub //wywiedzione// - ang. inferred). Czyli, jeżeli np. mamy dziedziczenie A<-B<-C, a z widoku usuwamy B, to powinniśmy otrzymać A<-C. Podobne zależności dotyczą asocjacji.
 +
 +**System rekomendacji**
 +
 +  * Przetwarzanie zbioru danych MovieLens, w którym rekomendacje użytkownika mają pieczątki czasowe 
 +  * Rekomendacje są traktowane jak sekwencje - analogiczne do sekwencji słów w tekście
 +  * Zastosowanie opublikowanych/dostępnych w postaci kodu algorytmów generacji tekstu wykorzystujących sieci neuronowe typu LSTM lub Transformer
 +  * Ocena trafności przewidywań  
 +
 +**Federacyjne uczenie maszynowe**
 +Teoretycznie wygląda tak[[https://ai.googleblog.com/2017/04/federated-learning-collaborative.html]] lub [[https://en.wikipedia.org/wiki/Federated_learning]] ale raczej chodzi tu o 
 +przeprowadzenie eksperymentów symulujących FL
 +
 +  - Wybieramy obszerny zbiór danych, np. ImageNet z obrazkami psów, kotów, fok i niedźwiedzi polarnych
 +  - Dzielimy na grupy użytkowników/agentów - jedni widzą psy i koty, drudzy foki i niedźwiedzie polarne
 +  - Dla każdego użytkownika losujemy część danych i uczymy - np. sieć neuronową
 +  - Użytkownicy "przesyłają" modele na serwer - tak naprawdę oznacza to etap agregacji 
 +  -  - Agregujemy modele w jeden
 +  - Odsyłamy do użytkowników
 +  - Oni uczą się dalej na nowych przykładach
 +  - I w zasadzie nie powinniśmy przerywać....
 +
 +Interesujące są następujące kwestie:
 +  *Czy jest szansa na agregację (psów,kotów) oraz (fok,niedźwiedzi), czy może potrzebne są także modele (kot,foka)?
 +  *Czy taki model z czasem poprawia się, wchodzi w overfitting?
 +  *Czy jest potrzebny kompromis pomiędzy wielkością modelu (wielkość danych przesyłanych w systemie) a dokładnością
 +  *Jak często należy modele agregować? Co ile epok/iteracji/itd.
 +
 +**Predykcja szeregów czasowych na przykładzie danych ruchu drogowego PEMS**
 +
 +
 +**Metryki podobieństwa symulacji**
 +
 +
 +
 +===== 2020 =====
 +
 +**1. Generacja widoków ontologii**
 +Ontologie przechowują informacje o klasach relacjach pomiędzy klasami, atrybutach oraz instancjach klas. Można w dużym uproszczeniu traktować je jako połączenie diagramu klas i obiektów UML. 
 +
 +Widok ontologii jest jej podzbiorem zachowującym relacje (oryginalne lub //wywiedzione// - ang. inferred). Czyli, jeżeli np. mamy dziedziczenie A<-B<-C, a z widoku usuwamy B, to powinniśmy otrzymać A<-C. Podobne zależności dotyczą asocjacji.
 +
 +**2. Ustalanie autorstwa tekstów** :!: Zarezerwowane J.R.
 +Celem pracy jest zastosowanie sieci neuronowych do ustalania autorstwa tekstów. Problem należy traktować jako zagadnienie klasyfikacji. Mamy próbki tekstu różnych autorów i budujemy klasyfikator potrafiący odróżnić je od siebie. 
 +
 +Przewiduje się ekstrakcję klasycznych cech stosowanych przy określaniu autorstwa:
 +  * częstych słów
 +  * statystyk znaków
 +  * tagowania części mowy
 +  * n-gramów znakowych
 +  * ale także bezpośrednie wyodrębnianie cech przez zastosowanie sieci konwolucyjnych.
 +
 +[[https://www.researchgate.net/publication/317617809_Stylometric_Features_for_Authorship_Attribution_of_Polish_Texts]]
 +
 +
 +**3. Analiza danych geograficznych - grupowanie** :!: Zarezerwowane A.D.
 +Celem pracy jest przeprowadzenie grupowania obszarów geograficznych na podstawie takich cech, jak gęstość dróg, obecność obiektów określonego typu (budynki, instytucje, infrastruktura, zakłady pracy, rzeki, jeziora, itp). 
 +  *źródło danych: mapa OSM dla Polski zaimportowana do PostgreSQL 
 +  *ekstrakcja cech (raczej za pomocą procedur składowanych wykorzystujących PostGIS)
 +  *przygotowanie plików CSV 
 +  *zastosowanie bibliotecznych algorytmów grupowania (platforma Python/scikit-learn)
 +
 +[[https://www.researchgate.net/publication/333406466_Speed_Limits_Can_Be_Determined_from_Geospatial_Data_with_Machine_Learning_Methods]]
 +
 +**4. Analiza obrazów zastosowana do map** :!: zarezerwowane 
 +
 +
 +Do rozwinięcia: 
 +  * Użycie konwolucyjnych sieci neuronwuych (TensorFlow i keras)
 +  * Analiza map (obrazów) z serwera OSM lub wygenerowanych lokalnie o wybranej skali
 +  * Próba oszacowania ograniczeń prędkości (klasyfikacja) 
 +
 +[[https://www.researchgate.net/publication/333406466_Speed_Limits_Can_Be_Determined_from_Geospatial_Data_with_Machine_Learning_Methods]]
 +
 +:!: W odrożnieniu od poprzedniego tematu przetwarzana jest grafika. 
 +
 +
 +**5. Analiza danych z web scrapingu ** :!: zarezerwowane P.B.
 +
 +Do rozwinięcia. Np. web scraping ofert sprzedaży mieszkań i zastosowanie regresji do porównywania cen w danej miejscowości. Zastosowanie kilku metod regeresji z biblioteki scikit-learn oraz sieci neuronowych. Także analiza zdjęć towarzyszących ofercie.
 +
 +
 + 
 +**6. System rekomendacji**
 +
 +  * Przetwarzanie zbioru danych MovieLens, w którym rekomendacje użytkownika mają pieczątki czasowe 
 +  * Rekomendacje są traktowane jak sekwencje - analogiczne do sekwencji słów w tekście
 +  * Zastosowanie opublikowanych/dostępnych w postaci kodu algorytmów generacji tekstu wykorzystujących sieci neuronowe typu LSTM lub Transformer
 +  * Ocena trafności przewidywań  
 +
 +
 +
 + 
 +
 +
 +===== 2019 =====
 +Ze względu na możliwość przekroczenia limitów godzin dydaktycznych do ustalenia zajęć około 25 września tematy nie będą proponowane (poza osobami, które już je uzgodniły).  
 ===== Tematy do realizacji 2018/2019 ===== ===== Tematy do realizacji 2018/2019 =====
  
tematy_prac_magisterskich.1536964395.txt.gz · Last modified: 2018/09/15 00:33 by pszwed
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0