Differences

This shows you the differences between two versions of the page.

--- ed:lab_04 [2024/03/10 21:59]
pszwed [3.Pipeline]
+++ ed:lab_04 [2024/03/21 02:25] (current)
pszwed [Funkcja do rysowania wykresów]
@@ Line 104: / Line 104: @@
-Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: ''Pipeline'', którego elementami są wstępne przetwarzanie danych i budowa modelu estymatora. Rozszerzenie cech o cechy wielomianowe jest dokonywane za pomocą odpowiedniej funkcji transformującej dane tablicowe :  ''PolynomialExpansion''.
+Dodawanie manualne cech jako kolumn zbioru danych jest zbyt żmudne - zachodzi konieczność nazywania tych kolumn, później modyfikacji kodu w kilku miejscach. Raczej buduje się ciąg przetwarzania: ''Pipeline'', którego elementami są wstępne przetwarzanie danych i budowa modelu estymatora.
+Rozszerzenie cech o cechy wielomianowe jest dokonywane za pomocą odpowiedniej funkcji transformującej dane tablicowe :  ''PolynomialExpansion''.
 ==== Budowa ciągu przetwarzania  ====
@@ Line 177: / Line 179: @@
 **2.** Zamiana wartości double na ''Row''
-Przeiteruj przez elementy fx i dla każdego z nich utwórz obiekt ''Row'', np. wołając ''Row r = RowFactory.create(d);'' lub odpowiednią funkcje strumienia. Zbierz wynik w ''List<Row> rows''
+Przeiteruj przez elementy fx i dla każdego z nich utwórz obiekt ''Row'', np. wołając ''Row r = RowFactory.create(d);'' lub umieść takie odwzorowanie w odpowiedniej funkcji strumienia. Zbierz wynik w ''List<Row> rows''
 **3.** Zdefiniuj schemat i utwórz zbiór danych:
@@ Line 286: / Line 288: @@
   * ''xy-005.csv'' dla cech wielomianowych 2 stopnia
-Zapisz rysunki, zbierz metryki.
+Zapisz rysunki i metryki.
 ==== Rozwiązanie 2 ====
@@ Line 303: / Line 305: @@
 Można oczywiście ustawić seed i otrzymać powtarzalne wyniki (np. seed =3 wydaje się całkiem dobry).
-**2.** Zbierz w tabelce metryki dla obu sposobów ustalania podziału
+**2.** Wróć do poprzedniego rozwiązania
-**3.** Wróć do poprzedniego rozwiązania
 Stały podział może być całkiem dobry, jeżeli wcześniej dane zostały losowo pomieszane. Jest to częste podejście przy publikacji zbiorów testowych.
@@ Line 313: / Line 313: @@
 df = df.orderBy(org.apache.spark.sql.functions.rand(3));
 </code>
+**3.** Zbierz w tabelce metryki dla wszystkich sposobów ustalania podziału