====== Eksploracja danych ====== ===== Laboratoria ===== * **Grupa I** Implementacja programów w języku Java lub Python na na platformie [[https://spark.apache.org/|Apache Spark]] * [[ed:lab_01|Laboratorium 1+2 - Przetwarzanie danych na platformie Spark]] * [[ed:lab_03|Laboratorium 3 - Regresja liniowa (Spark)]] * [[ed:lab_04|Laboratorium 4 - Cechy wielomianowe (Spark)]] * [[ed:lab_05|Laboratorium 5 - Klaster Sparka - Docker]] * [[ed:lab_06|Laboratorium 6 - Regresja - przewidywanie cen sprzedaży domów]] * [[ed:lab_07|Laboratorium 7 - Regresja - wypożyczenia rowerów]] * [[ed:lab_08|Laboratorium 8 - Regresja logistyczna]] * [[ed:lab_09|Laboratorium 9 - Klasyfikacja dokumentów tekstowych]] * **Grupa II** * [[ed:lab_10|Laboratorium 10+11 - Platforma Ray]] * [[ed:lab_12|Laboratorium 12 - Ekstrakcja cech z utworów muzycznych, librosa]] * [[ed:lab_13|Laboratorium 13 - Klasyfikacja utworów muzycznych]] ==== Sprawozdania ==== Przesyłamy na UPEL. Zazwyczaj w postaci: * Pliku PDF ze sprawozdaniem * Pliku ZIP z kodem * Zawartością notatnika Jupyter (PDF lub html) Link do kursu [[https://upel.agh.edu.pl/course/view.php?id=6581]] Kod do zapisu: Zostanie przekazany na zajęciach ===== Wykłady ===== Wykłady odbywają się zdalnie na platformie MS Teams we wtorki o 16:45 [[https://teams.microsoft.com/l/team/19%3AmG5NFlAVeb4OYwQdeiCneOHljKFhsGS4RhALnnIlCtU1%40thread.tacv2/conversations?groupId=7cf57630-9108-4e5b-b3a0-c3d9ee1f67dc&tenantId=80b1033f-21e0-4a82-bbc0-f05fdccd3bc8 |Link do zespołu]] Kod do zespołu ''hdgaxph'' ---- -{{:med:med-w01.pdf|Wykład 1}} Wprowadzenie, zagadnienia regresji, klasyfikacji i grupowania -{{:med:med-w02.pdf|Wykład 2}} Regresja -{{:med:med-w03.pdf|Wykład 3}} Ocena modeli (na przykładzie regresji) -{{:med:med-w04.pdf|Wykład 4}} Klasyfikacja (wstęp), ocena klasyfikacji, regresja logistyczna, przekształcanie danych -{{:med:med-w05.pdf|Wykład 5}} Klasyfikacja (kontynuacja), naiwny model Bayesa, drzewa decyzyjne -{{:med:med-w06.pdf|Wykład 6}} Klasyfikacja (kontynuacja), Support Vector Machines, k-NN -{{:med:med-w07.pdf|Wykład 7}} Grupowanie (klasteryzacja), hierarchiczne, k-means, mieszanina rozkładów Gaussa i EM, DBSCAN, metody oceny ===== Zbiory danych ===== ==== Movielens ==== * {{ :ed:users.csv | Users}} * {{ :ed:movies.csv | Movies}} * {{ :ed:tags.csv | Tags}} * {{ :ed:ratings.csv | Ratings}} ==== Regresja ==== * {{ :ed:xy-001.csv | xy-001}} $f_{true}=2.37x+7$ * {{ :ed:xy-002.csv |xy-002}} $f_{true}=-1.5x^2+3x+4$ * {{ :ed:xy-003.csv | xy-003}} $f_{true}=-1.5x^2+3x+4$ * {{ :ed:xy-004.csv |xy-004}} $f_{true}=-10x^2+500x-25$ * {{ :ed:xy-005.csv |xy-005}} $f_{true}=(x+4)(x+1)(x-3)$ * {{ :ed:xy-006.csv | xy-006}} box * {{ :ed:xy-007.csv | xy-007}} circle * {{ :ed:xy-008.csv |xy-008}} fat-ellipse * {{ :ed:xy-009.csv | xy-009}} ellipse * {{ :ed:xy-010.csv | xy-010}} ellipse-outliers * {{ :ed:spark-jdk17.zip |}} - dane na Laboratorium 5 * {{ :med:kc_house_data.csv.zip |kc_house_data.csv.zip}} - dane na Laboratorium 6 ==== Regresja logistyczna ==== * {{ :ed:egzamin-cpp.csv |egzamin-cpp.csv}} - zanonimizowane wyniki zaliczeń/egzaminu z C i C++ w 2016 roku * {{ :ed:grid.csv |grid.csv}} - kombinacje ocen ==== Klasyfikacja dokumentów tekstowych ==== * {{ :ed:books.zip | Archiwum ZIP zawierające zbiory danych}}