Algemene omschrijving
PySpark is de python-library om Apach Spark te kunnen gebruiken binnen python. Apache Spark is speciaal ontwikkeld om grote hoeveelheden data efficiënt te verwerken en transformeren. In deze training duiken we dieper in hoe je met Spark notebooks – dé standaard binnen Microsoft Fabric en andere tools zoals Databricks – jouw data transformatie naar een hoger niveau tilt.
Tijdens deze training word je stap voor stap begeleid in het inladen, transformeren en opslaan van data. Daarnaast behandelen we de essentiële Python code standaarden en wordt er gewerkt aan hoe je de hoeveelheid code kan beperken, code kan hergebruiken en optimaliseren. Zo ben je niet alleen efficiënter in het programmeren, maar zorg je er ook voor dat je code helder en onderhoudbaar blijft.
Voorkennis op de volgende gebieden is gewenst:
- Python
- Data transformaties
De training bestaat in hoofdlijnen uit de volgende onderwerpen:
- Python basics
- Spark architectuur
- Data inladen
- Data transformeren
- Data opslaan
- Python code standaard
- Gebruikers gedefinieerde functies
- Code optimaliseren