Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
ed:lab_04 [2024/03/10 21:59] pszwed [3.Pipeline] |
ed:lab_04 [2024/03/21 02:25] (current) pszwed [Funkcja do rysowania wykresów] |
||
---|---|---|---|
Line 104: | Line 104: | ||
- | Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: | + | Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: |
+ | |||
+ | Rozszerzenie cech o cechy wielomianowe jest dokonywane za pomocą odpowiedniej funkcji transformującej dane tablicowe : '' | ||
==== Budowa ciągu przetwarzania | ==== Budowa ciągu przetwarzania | ||
Line 177: | Line 179: | ||
**2.** Zamiana wartości double na '' | **2.** Zamiana wartości double na '' | ||
- | Przeiteruj przez elementy fx i dla każdego z nich utwórz obiekt '' | + | Przeiteruj przez elementy fx i dla każdego z nich utwórz obiekt '' |
**3.** Zdefiniuj schemat i utwórz zbiór danych: | **3.** Zdefiniuj schemat i utwórz zbiór danych: | ||
Line 286: | Line 288: | ||
* '' | * '' | ||
- | Zapisz rysunki, zbierz | + | Zapisz rysunki |
==== Rozwiązanie 2 ==== | ==== Rozwiązanie 2 ==== | ||
Line 303: | Line 305: | ||
Można oczywiście ustawić seed i otrzymać powtarzalne wyniki (np. seed =3 wydaje się całkiem dobry). | Można oczywiście ustawić seed i otrzymać powtarzalne wyniki (np. seed =3 wydaje się całkiem dobry). | ||
- | **2.** Zbierz w tabelce metryki dla obu sposobów ustalania podziału | + | **2.** Wróć do poprzedniego rozwiązania |
- | + | ||
- | **3.** Wróć do poprzedniego rozwiązania | + | |
Stały podział może być całkiem dobry, jeżeli wcześniej dane zostały losowo pomieszane. Jest to częste podejście przy publikacji zbiorów testowych. | Stały podział może być całkiem dobry, jeżeli wcześniej dane zostały losowo pomieszane. Jest to częste podejście przy publikacji zbiorów testowych. | ||
Line 313: | Line 313: | ||
df = df.orderBy(org.apache.spark.sql.functions.rand(3)); | df = df.orderBy(org.apache.spark.sql.functions.rand(3)); | ||
</ | </ | ||
+ | |||
+ | **3.** Zbierz w tabelce metryki dla wszystkich sposobów ustalania podziału | ||
+ | |||