Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
ed:lab_04 [2024/03/10 21:59] pszwed [3.Pipeline] |
ed:lab_04 [2024/03/10 22:04] pszwed [Rozwiązanie 1] |
||
---|---|---|---|
Line 104: | Line 104: | ||
- | Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: | + | Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: |
+ | |||
+ | Rozszerzenie cech o cechy wielomianowe jest dokonywane za pomocą odpowiedniej funkcji transformującej dane tablicowe : '' | ||
==== Budowa ciągu przetwarzania | ==== Budowa ciągu przetwarzania | ||
Line 286: | Line 288: | ||
* '' | * '' | ||
- | Zapisz rysunki, zbierz | + | Zapisz rysunki |
==== Rozwiązanie 2 ==== | ==== Rozwiązanie 2 ==== | ||
Line 303: | Line 305: | ||
Można oczywiście ustawić seed i otrzymać powtarzalne wyniki (np. seed =3 wydaje się całkiem dobry). | Można oczywiście ustawić seed i otrzymać powtarzalne wyniki (np. seed =3 wydaje się całkiem dobry). | ||
- | **2.** Zbierz w tabelce metryki dla obu sposobów ustalania podziału | + | **2.** Wróć do poprzedniego rozwiązania |
- | + | ||
- | **3.** Wróć do poprzedniego rozwiązania | + | |
Stały podział może być całkiem dobry, jeżeli wcześniej dane zostały losowo pomieszane. Jest to częste podejście przy publikacji zbiorów testowych. | Stały podział może być całkiem dobry, jeżeli wcześniej dane zostały losowo pomieszane. Jest to częste podejście przy publikacji zbiorów testowych. | ||
Line 313: | Line 313: | ||
df = df.orderBy(org.apache.spark.sql.functions.rand(3)); | df = df.orderBy(org.apache.spark.sql.functions.rand(3)); | ||
</ | </ | ||
+ | |||
+ | **3.** Zbierz w tabelce metryki dla wszystkich sposobów ustalania podziału | ||
+ | |||