Table of Contents
Eksploracja danych
Laboratoria
- Grupa I Implementacja programów w języku Java lub Python na na platformie Apache Spark
- Grupa II
Sprawozdania
Przesyłamy na UPEL. Zazwyczaj w postaci:
- Pliku PDF ze sprawozdaniem
- Pliku ZIP z kodem
- Zawartością notatnika Jupyter (PDF lub html)
Link do kursu https://upel.agh.edu.pl/course/view.php?id=6581
Kod do zapisu: Zostanie przekazany na zajęciach
Wykłady
Wykłady odbywają się zdalnie na platformie MS Teams we wtorki o 16:45
Kod do zespołu hdgaxph
- Wykład 1 Wprowadzenie, zagadnienia regresji, klasyfikacji i grupowania
- Wykład 2 Regresja
- Wykład 3 Ocena modeli (na przykładzie regresji)
- Wykład 4 Klasyfikacja (wstęp), ocena klasyfikacji, regresja logistyczna, przekształcanie danych
- Wykład 5 Klasyfikacja (kontynuacja), naiwny model Bayesa, drzewa decyzyjne
- Wykład 6 Klasyfikacja (kontynuacja), Support Vector Machines, k-NN
- Wykład 7 Grupowanie (klasteryzacja), hierarchiczne, k-means, mieszanina rozkładów Gaussa i EM, DBSCAN, metody oceny
Zbiory danych
Movielens
Regresja
- xy-001 $f_{true}=2.37x+7$
- xy-002 $f_{true}=-1.5x^2+3x+4$
- xy-003 $f_{true}=-1.5x^2+3x+4$
- xy-004 $f_{true}=-10x^2+500x-25$
- xy-005 $f_{true}=(x+4)(x+1)(x-3)$
- xy-006 box
- xy-007 circle
- xy-008 fat-ellipse
- xy-009 ellipse
- xy-010 ellipse-outliers
- spark-jdk17.zip - dane na Laboratorium 5
- kc_house_data.csv.zip - dane na Laboratorium 6
Regresja logistyczna
- egzamin-cpp.csv - zanonimizowane wyniki zaliczeń/egzaminu z C i C++ w 2016 roku
- grid.csv - kombinacje ocen