Differences

This shows you the differences between two versions of the page.

--- tematy_prac_inzynierskich [2020/06/28 03:10]
pszwed [4. Generacja i testy Negatywnych Baz Danych]
+++ tematy_prac_inzynierskich [2021/07/10 03:36]
pszwed [2021]
@@ Line 9: / Line 9: @@
 ====== Tematy prac inżynierskich ======
+===== 2021 =====
+Możliwe jest zgłaszanie własnych tematów. Jednak, nie chcę prowadzić prac polegających na implementacji aplikacji webowej/mobilnej
+z użyciem typowego stosu technologicznego, do której dorobiona jest specyfikacja w stylu [[http://home.agh.edu.pl/~pszwed/wiki/doku.php?id=amo:projekt_tematy|Analizy i Modelowania Oprogramowania]]. Na ogół bardzo trudno taką aplikację wypełnić danymi i później porządnie przetestować.
+=== 1. Optymalizacja ciągła: PyTorch + algorytm pszczeli===
+[zajęte, MW]
+=== 2. Optymalizacja ciągła - algorytm mrówkowy===
+Obejmuje opracowanie algorytmu (specyficzna implementacja). Platforma TensorFlow lub PyTorch lub CUDA
+Testy z użyciem funkcji testowych z konferencji CEC
+=== 3. Inne algorytmy optymalizacji ciągłej ===
+Do ustalenia.
+=== 4. Baza wiedzy z rozmytymi relacjami===
+Na przykładzie rekomendacji dietetycznych dla różnych typów schorzeń.
+Obejmuje: bazę, interfejs dostępu REST do odczytu i zapisu, aplikację webową. Należy wypełnić bazę przykładowymi danymi, np dla 2-3 schorzeń i produktów spozywczych.
+=== 5. Repozytorium danych tekstowych na potrzeby NLP ===
+Obejmuje projekt i implementację bazy danych + web scraping artykułów z wybranych 2-3 źródeł (np. PubMed), indeksowanie według wybranych terminów.
+=== 6. Rozpoznawanie aktywności użytkownika na podstawie odczytów czujników urządzenia mobilnego ===
+Aplikacja mobilna zbierająca i interpretująca dane. Należy zarejestrować przykłady odczytów (bieg, chód,  jazda samochodem, rowerem). Następnie przeprowadzić ekstrakcję cech (widmo częstotliwości, zero-crossing rate, itp) i przeprowadzić klasyfikację.
+=== 7. Predykcja szeregów czasowych z użyciem Rozmytych Map Kognitywnych ===
+Implementacja na platformie TensorFlow lub PyTorch. Najchętniej na (części) danych typu PEMS https://dot.ca.gov/programs/traffic-operations/mpr/pems-source
+=== 8. Projekt i implementacja wybranych algorytmów grupowania dla PostgreSQL===
+Przykładowe algorytmy to k-means, db-scan, ward.  Implementacja w języku PL/pgSQL. Projekt obejmuje generację danych syntetycznych różnych rozmiarów i testy algorytmów.
+=== 9. Rozpoznawanie emocji w głosie===
+W ramach pracy należy zdefiniować kilka kategorii emocji (spokojna rozmowa, uprzejma rozmowa z klientem, kłótnia, program informacyjny, itp.) Dla każdej kategorii należy wyekstrahować około 100 kilkunastosekundowych przykładów z różnych źródeł (filmy, podcasty). Następnie korzystając z biblioteki librosa wyekstrahować cechy i przeprowadzić klasyfikację. Patrz [[http://home.agh.edu.pl/~pszwed/wiki/doku.php?id=med:start]]
+=== 10. Generacja informacji o ruchu w grafie ===
+Graf sieci drogowej na podstawie mapy OSM. Rozmiar - co najmniej aglomeracja. W sieci porusza się duża liczba obiektów, dla każdego obiektu losowany jest punkt startowy i końcowy i wyznaczana droga (np. algorytmem A-star). Oprogramowanie ma zbierać informacje o koncentracji obiektów w danym miejscu i przedziale czasu (natężeniu ruchu).
+=== 11. Grupowanie obiektów na mapie===
+Implementacja algorytmu, który będzie łączył w grupy blisko położone obiekty. Odległość musi uwzględniać rzeczywistą odległość w sieci drogowej (długość drogi wyznaczonej np. algorytmem A-star).
+<!--
+**Na razie nie mam propozycji tematów **
+Generalnie, nie chcę prowadzić tematów polegających na implementacji aplikacji webowej/mobilnej z użyciem typowego stosu technologicznego, do której dorobiona jest specyfikacja w stylu [[http://home.agh.edu.pl/~pszwed/wiki/doku.php?id=amo:projekt_tematy|Analizy i Modelowania Oprogramowania]]. Na ogół bardzo trudno taką aplikację wypełnić danymi i później porządnie przetestować.
+Typowy zakres prac
+  * eksploracji danych/uczenie maszynowego - tu można wybrać kilka obszarów - obrazy, muzyka, NLP, szeregi czasowe, np. dane o natężeniu ruchu drogowego, notowania giełdowe
+  * algorytmy optymalizacji ciagłej (ale na platformie typu TensorFlow lub PyTorch)
+  * może to być implementacja systemu, który będzie miał jakiś inteligentny komponent albo będzie przydatne w tej dziedzinie - jak narzędzie do etykietowania
+-->
 ===== 2020 =====
-  *Map matching
+  -Map matching :!: Zajęte
-  *Algorytmy optymalizacji
+  -Algorytmy optymalizacji (możliwych jest kilka tematów) :!: Jeden temat zajęty
-  *Grupowanie grawitacyjne
+  -Grupowanie grawitacyjne :!: Zajęte
-  *Generacja i testy Negatywnych Baz Danych
+  -Generacja i testy Negatywnych Baz Danych :!: Zajęte
+  -Analiza antyplagiatowa kodu :!: Zajęte
 ==== 1. Map matching ====
 Zarezerwowane jako implementacja w Pythonie? :?:
@@ Line 44: / Line 100: @@
 To jest temat, który można rozszerzyć na kilka algorytmów. Wspólną cechą ma być:
-  * wykorzystanie operacji biblioteki numpy. Mimo, że są funkcjami Pythona, sa zaimplementowane w C i działają wydajnie
+  * wykorzystanie operacji biblioteki **numpy** lub **tensorflow**. Mimo, że są funkcjami Pythona, sa zaimplementowane w C i działają wydajnie
   * Zamiast wykonywac operacje na pojedynczych osobnikach (wektorach w R^n), maja być przeprowadzane operacje na całych macierzach (w których wiersz odpowiada osobnikowi)
   * uzycie do testów funkcji z konferencji CEC [[http://www.tflsgo.org/special_sessions/cec2019]]. Konieczna jest ich reimplementacja. Funkcje CEC wykorzystują kilkanascie funkcji bazowych, które następnie są zniekształcane przez przesuniecia i rotacje. W przypadku kilku prac można zestw funkcji opracować wspólnie.
@@ Line 70: / Line 126: @@
 Inne do przedyskutowania..., np [[https://troja.uksw.edu.pl/zasoby/SL2014-ZhangSanderson2009.pdf]]
-==== 3. Grupowanie grawitacyjne ====
+==== 3. Grupowanie grawitacyjne (CUDA)====
+:!: Zajete
 Grupowanie (klasteryzacja) to proces łączenia danych w grupy. Przez dane rozumiane są tu wektory w R^n. Zazwyczaj oczekuje się, że grupy będą od siebie oddalone, natomiast dane należące do jednej grupy położone blisko siebie. Przy grupowaniu grawitacyjnym wykorzystuje się model sił grawitacji - blisko położone punkty przyciągają się mocniej i skupiają w grupy.
 Celem pracy jest implementacja kilku znanych wersji algorytmu grupowania grawitacyjnego i przetestowanie ich działania.  Testy mają obejmować  [[https://scikit-learn.org/stable/modules/clustering.html|typowe przykłady 2D]] oraz kilkanaście zbiorów danych z repozytorium UCI.
-Język implementacji Python.
+Platforma implementacji CUDA (NVidia). Ewentulnie porównanie z czystym C.
 ==== 4. Generacja i testy Negatywnych Baz Danych ====
+:!: Zajete
 Negatywne Bazy Danych (NDB) przechowują w jawnej postaci negatywną informację. Można to przeanalizować na przykładzie łańcucha bitów 101. Negatywna reprezentacja to oczywiście wyliczenie innych wariacji: 001,010, itd. Stosując symbole wieloznaczne może to być również
@@ Line 82: / Line 143: @@
 Te dwie ostatnie specyfikacje są równoważne formule logicznej
-$b_0\wedge \neg b_2 \lor \not b_0$.
+$f=b_0\wedge \neg b_2 \lor \neg b_0$.
+Znalezienie ciągu zdań (bitów), dla których formuła jest prawdziwa to zagadnienie  [[https://pl.wikipedia.org/wiki/Problem_spe%C5%82nialno%C5%9Bci|SAT]], które jest problemem o złożoności NP. Jest to problem łatwy, dla 1-20 bitów (zastosowanie brute force), ale dla  64 trudny. Celem pracy jest implementacja algorytmów generacji NDB oraz przeprowadzenie testów, czy możliwe jest złamanie wygenerowanych NDB z użyciem wybranych solwerów SAT (np. [[http://minisat.se/|Mini SAT]] i  [[https://www.princeton.edu/~chaff/zchaff.html|zChaff]]).
-Znalezienie ciągu zdań (bitów) to zagadnienie SAT [[https://pl.wikipedia.org/wiki/Problem_spe%C5%82nialno%C5%9Bci]], które jest problemem o złożoności NP. Celem pracy jest implementacja algorytmów generacji NDB oraz przeprowadzenie testów, czy możliwe jest złamanie wygenerowanych NDB z użyciem wybranych solwerów SAT (np. [[http://minisat.se/|Mini SAT]] i  [[https://www.princeton.edu/~chaff/zchaff.html|zChaff]]).
+==== 5. Analiza antyplagiatowa kodu ====
+:!: Zarezerwowany
+Celem pracy jest implementacja systemu, który będzie umożliwiał przesłanie plików źródłowych w wybranym języku programowania przez zalogowanych użytkowników, a następnie określał stopień podobieństwa kodu. Podstawowym narzędziem do wykorzystania jest znany algorytm określania najdłuższego wspólnego podciągu. Można zajrzeć tu [[http://home.agh.edu.pl/~pszwed/wiki/lib/exe/fetch.php?media=07-imperatywne-jezyk-c-lancuchy-znakow.pdf|str 27]]. Podobieństwo powinno być określane: na poziomie znaków oraz na poziomie symboli. Szczególnie interesująca jest modyfikacja algorytmu tak, aby uwzględnić substytucję symboli, tzn. jeżeli napotkany zostanie identyfikator x12 oraz odpowiadający mu identyfikator y10, wówczas obliczony zostanie także stopień dopasowania po zamianie x12 na y10.
 ===== 2019 =====