====== Wdrożenie aplikacji Apache Spark na platformie Docker   ======


===== 1. Pobierz obraz spark =====

<code>
docker pull spark
</code>


===== 2. Utwórz sieć typu bridge =====

Za pomocą tej sieci program driver łączył się będzie z klastrem Sparka 

<code>
docker network create -d bridge --subnet=172.22.0.0/16  spark-network
</code>


===== 3. Utwórz klaster Spark =====

Utwórz plik ''docker-compose.yml''. Definiuje on trzy węzły obliczeniowe
  *spark-master (o adresie 172.22.0.2:7077)
  *spark-worker-1
  *spark-worker-2

Interfejs użytkownika węzła master będzie dostępny pod adresem ''http://localhost:9090/''

<code>
services:
 spark-master:
  image: spark
  command: /opt/spark/bin/spark-class org.apache.spark.deploy.master.Master
  networks:
    spark-network:
      ipv4_address: 172.22.0.2
  ports:
  - "9090:8080"
  - "7077:7077"


 spark-worker-1:
  image: spark
  command: /opt/spark/bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077
  depends_on:
  - spark-master
  networks:
    spark-network:
      ipv4_address: 172.22.0.3
  environment:
   SPARK_MODE: worker
   SPARK_WORKER_CORES: 2
   #SPARK_WORKER_MEMORY: 4g
   SPARK_MASTER_URL: spark://spark-master:7077
 
 spark-worker-2:
  image: spark
  command: /opt/spark/bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077
  depends_on:
  - spark-master
  networks:
    spark-network:
      ipv4_address: 172.22.0.4
  environment:
   SPARK_MODE: worker
   SPARK_WORKER_CORES: 2
   #SPARK_WORKER_MEMORY: 4g
   SPARK_MASTER_URL: spark://spark-master:7077

networks:
  spark-network:
   external: true
   ipam:
     config:
     - subnet: 172.22.0.0/16
</code>

W tym samym katalogu wydaj komendę

<code>
docker-compose up
</code>

===== 4. Przygotuj plik JAR  =====

[2023/24] Obraz apache/spark zawiera kod:
  *w wersji 3.5.0
  *napisany w języku Scala 2.12
  *skompilowany dla maszyny wirtualnej w wersji JDK 11

Alternatywne kompilacje można pobrać ze strony [[https://hub.docker.com/_/spark]]. Dostępne są wersje dla JDK 17

  *Skompiluj plik stosując odpowiednią wersję kompliatora
  *Przygotuj plik JAR (Artifact w Intellij) nie dołączając bibliotek - które i tak są obecne w węzłach obliczeniowych 
 

===== 5. Uruchom kontener Spark =====

Przejdź do katalogu, w którym jest zapisany plik JAR.

  *Bieżący katalog zostanie zmapowany na katalog roboczy kontenera ''/opt/spark/work-dir''
  *Udostępniony zostanie port 4040 (interfejs webowy)
  *Kontener zostanie dołączony do sieci spark-network 

<code>
docker run -it --rm -v ".:/opt/spark/work-dir" -p 4040:4040  --network spark-network spark /bin/bash
</code>

===== 6. Prześlij program do węzła master =====

Parametrami komendy ''spark-submit'' są:
  *adres węzła ''spark:////172.22.0.2:7077''
  *nazwa klasy z funkcją ''main()'' która ma zostać uruchomiona
  *nazwa pliku JAR
  *Dodatkowe opcje to rozmiar pamięci programu driver oraz węzła obliczeniowego


<code>
/opt/spark/bin/spark-submit --driver-memory 4g --executor-memory 4g --class org.example.Main --master spark://172.22.0.2:7077 pi_application.jar
</code>