====== Eksploracja danych ======

===== Laboratoria =====

  * **Grupa I** Implementacja programów w języku Java lub Python na na platformie [[https://spark.apache.org/|Apache Spark]]
    * [[ed:lab_01|Laboratorium 1+2 - Przetwarzanie danych na platformie Spark]]
    * [[ed:lab_03|Laboratorium 3 - Regresja liniowa (Spark)]]
    * [[ed:lab_04|Laboratorium 4 - Cechy wielomianowe (Spark)]]
    * [[ed:lab_05|Laboratorium 5 - Klaster Sparka - Docker]]
    * [[ed:lab_06|Laboratorium 6 - Regresja - przewidywanie cen sprzedaży domów]]
    * [[ed:lab_07|Laboratorium 7 - Regresja - wypożyczenia rowerów]]
    * [[ed:lab_08|Laboratorium 8 - Regresja logistyczna]]
    * [[ed:lab_09|Laboratorium 9 - Klasyfikacja dokumentów tekstowych]]
  * **Grupa II**  
    * [[ed:lab_10|Laboratorium 10+11 - Platforma Ray]]
    * [[ed:lab_12|Laboratorium 12 - Ekstrakcja cech z utworów muzycznych, librosa]]
    * [[ed:lab_13|Laboratorium 13 - Klasyfikacja utworów muzycznych]] 

    
==== Sprawozdania ====
Przesyłamy na UPEL. Zazwyczaj w postaci: 
  * Pliku PDF ze sprawozdaniem 
  * Pliku ZIP z kodem
  * Zawartością notatnika Jupyter (PDF lub html)

Link do kursu [[https://upel.agh.edu.pl/course/view.php?id=6581]]

Kod do zapisu: <!-- isi_ed_2024 --> Zostanie przekazany na zajęciach
===== Wykłady =====

Wykłady odbywają się zdalnie na platformie MS Teams we wtorki o 16:45

[[https://teams.microsoft.com/l/team/19%3AmG5NFlAVeb4OYwQdeiCneOHljKFhsGS4RhALnnIlCtU1%40thread.tacv2/conversations?groupId=7cf57630-9108-4e5b-b3a0-c3d9ee1f67dc&tenantId=80b1033f-21e0-4a82-bbc0-f05fdccd3bc8
|Link do zespołu]]

Kod do zespołu ''hdgaxph''

----


  -{{:med:med-w01.pdf|Wykład 1}} Wprowadzenie, zagadnienia regresji, klasyfikacji i grupowania
  -{{:med:med-w02.pdf|Wykład 2}} Regresja
  -{{:med:med-w03.pdf|Wykład 3}} Ocena modeli (na przykładzie regresji)
  -{{:med:med-w04.pdf|Wykład 4}} Klasyfikacja (wstęp), ocena klasyfikacji, regresja logistyczna, przekształcanie danych
  -{{:med:med-w05.pdf|Wykład 5}} Klasyfikacja (kontynuacja), naiwny model Bayesa, drzewa decyzyjne
  -{{:med:med-w06.pdf|Wykład 6}} Klasyfikacja (kontynuacja), Support Vector Machines, k-NN
  -{{:med:med-w07.pdf|Wykład 7}} Grupowanie (klasteryzacja), hierarchiczne, k-means, mieszanina rozkładów Gaussa i EM, DBSCAN, metody oceny


===== Zbiory danych =====

==== Movielens ====

  * {{ :ed:users.csv | Users}}
  * {{ :ed:movies.csv | Movies}}
  * {{ :ed:tags.csv | Tags}}
  * {{ :ed:ratings.csv | Ratings}}

==== Regresja ====

  * {{ :ed:xy-001.csv | xy-001}} $f_{true}=2.37x+7$
  * {{ :ed:xy-002.csv |xy-002}} $f_{true}=-1.5x^2+3x+4$
  * {{ :ed:xy-003.csv | xy-003}} $f_{true}=-1.5x^2+3x+4$
  * {{ :ed:xy-004.csv |xy-004}}  $f_{true}=-10x^2+500x-25$
  * {{ :ed:xy-005.csv |xy-005}}  $f_{true}=(x+4)(x+1)(x-3)$    
  * {{ :ed:xy-006.csv | xy-006}} box
  * {{ :ed:xy-007.csv | xy-007}} circle
  * {{ :ed:xy-008.csv |xy-008}} fat-ellipse
  * {{ :ed:xy-009.csv | xy-009}} ellipse
  * {{ :ed:xy-010.csv | xy-010}} ellipse-outliers

  * {{ :ed:spark-jdk17.zip |}} - dane na Laboratorium 5
  * {{ :med:kc_house_data.csv.zip |kc_house_data.csv.zip}} - dane na Laboratorium 6

==== Regresja logistyczna ====

  * {{ :ed:egzamin-cpp.csv |egzamin-cpp.csv}} - zanonimizowane wyniki zaliczeń/egzaminu z C i C++ w 2016 roku 
  * {{ :ed:grid.csv |grid.csv}} - kombinacje ocen 

==== Klasyfikacja dokumentów tekstowych ====
  * {{ :ed:books.zip | Archiwum ZIP zawierające zbiory danych}}