Optimizing Apache Spark & Tuning Best Practices
25 april, 2024 – Amsterdam, The Netherlands
Naarmate datasets groter worden, wordt het efficiënter verwerken van gegevens steeds belangrijker. Voortbouwend op onze ervaring als een van ’s werelds meest significante gebruikers van Apache Spark, biedt deze 2-daagse cursus een diepgaand overzicht van de do’s en don’ts van een van de meest populaire analyse-engines op de markt.
Wil je je team(s) of organisatie bijscholen?
Nico helpt je graag verder met trainingsoplossingen op maat.
Neem contact opDuur
2 days
Tijd
09:00 – 17:00
Taal
English
Lunch
Included
Certificering
No
Level
Professional
Wat ga je leren?
Na de training ben je in staat om
Te begrijpen wat Apache Spark onder de motorkap doet.
Best practices om krachtige code te schrijven.
Spark-toepassingen te tweaken en te debuggen.
Uitleg te geven over de fundamenten van Spark, inclusief het executiemodel: Driver/Executors
Te werken met caching, shuffle-service en eerlijk plannen .
Problemen met optimalisatie op te lossen
Overzicht
Fundamentals
- Spark execution model: Driver/Executors.
- Spark gebruikersinterface voor het monitoren van applicaties.
- Inzicht in RDDs/DataFrames API’s en bindingen.
- Verschil tussen acties en transformaties
- Het Queryplan lezen (Fysiek/Logisch)
Spark Internals
- Spark Geheugenmodel
- Persistentie (caching) begrijpen
- Catalyst optimizer, Tungsten project, and Adaptive Query Execution
- Shuffle-service en hoe wordt shuffle uitgevoerd
- Concept of fair scheduling and pools
Spark-optimalisatie: belangrijkste problemen en kwesties
- De meest voorkomende geheugenproblemen
- Het voordeel van vroegtijdig filteren
- Partition en predicate filtering begrijpen
- Optimalisatie
- Omgaan met de scheefheid van gegevens (voorbewerken, uitzenden, zouten)
- Inzicht in shuffle-partities: hoe geheugen/morst aan te pakken
- De keerzijde van het gebruik van UDF’s
- Time-out inactieve uitvoerder
- Voorbeelden van gegevensindelingen met een inleiding tot Delta-bestandsindeling
Naar productie
- Debuggen / problemen oplossen
- Je Spark-applicatie produceren
- Dynamische toewijzing en dynamische partitionering
- JVM profiler
Programma
De trainer faciliteert de inhoud met behulp van notitieblokken die in een cloudomgeving worden gehost. Elke deelnemer krijgt een Spark-cluster om mee te experimenteren.
- Theorie over verschillende basisprincipes van vonken en geavanceerde onderwerpen
- Optimalisaties in de praktijk toepassen
- Doorgaan met theorie
- Gegevensverzameling begrijpen
- Hackathon
Voor wie is deze training?
Deze training is voor jou geschikt als je een data of machine learning engineer bent die grote hoeveelheden data transformeert, code van productiekwaliteit nodig heeft en je Spark applicaties wilt optimaliseren. De cursus is ook zeer geschikt voor ervaren data scientist die eenvoudige aanpassingen willen leren om de prestaties van Spark drastisch te verhogen.
Requirements
Algemene kennis van en ervaring met Python met Spark (PySpark) is noodzakelijk.
Waarom zou je deze training volgen?
Leer meer over Apache Spark, het gebruik van best practices om krachtige code te schrijven en het tweaken en debuggen van Spark-applicaties.
Begrijp de basisprincipes van Spark, inclusief het executiemodel: Driver/Executors, caching, shuffle service en eerlijk plannen.
Leer van en netwerk met Apache Spark data experts.
Wat moet je nog meer weten?
Na registratie voor deze training ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar eventuele dieetwensen en delen we literatuur uit als je je moet voorbereiden.
We kijken uit naar jouw deelname!
Training informatie
Alle literatuur en cursusmaterialen zijn bij de prijs inbegrepen.
Nadat je je hebt ingeschreven voor deze cursus, ontvang je een bevestigingsmail met praktische informatie.