Academy: Data Engineer

Als data engineer ben je verantwoordelijk voor het ontsluiten, transformeren, en laden/opslaan van data. Ook ontwerp en ontwikkel je de benodigde infrastructuur om dit alles mogelijk te maken. Deze data is van cruciaal belang voor jouw BI en Data Science collega’s.

Hieronder vind je de onderwerpen die onderdeel uitmaken van de Data Engineer traineeship.

Bootcamp

Elke traineeship start met de Bootcamp waar de basis wordt gelegd voor een succesvolle carrière als data-specialist. Generieke vaardigheden die elke data-specialist moet beheersen worden hier verworven:

  • Use case ontwikkelen
  • Agile Scrum
  • Tooling

Na dit deel is de trainee in staat om zelfstandig een use case te ontwikkelen en tot een succes te brengen. Plannen en goede keuzes maken staan centraal. Hierna volgen de specialisatie-onderdelen.

Datavisualisatie

Het doel van datavisualisatie is informatie op eenvoudige en ondubbelzinnige wijze over te brengen. Bijvoorbeeld door middel van grafieken of diagrammen. Tijdens de training wordt ingegaan op verschillende technieken en worden handvatten gegeven om elk moment de juiste visualisaties te kiezen. Na de cursus is de cursist op de hoogte van het belang van het visueel presenteren van de informatie en in staat dit op een juiste manier te presenteren in een dashboard.

SQL Server

SQL Server, het relationele databasesysteem van Microsoft, staat centraal in deze training. Gedurende de SQL Server training zal de trainee leren werken met de uitgebreide mogelijkheden die de querytaal T-SQL te bieden heeft. Zo leert men onder andere complexe selecties te maken en verschillende manieren om gegevens te bewerken. Daarnaast wordt geleerd hoe views en transacties kunnen worden opgezet. Tot slot wordt uitgebreid ingegaan op T-SQL stored procedures, functions, triggers en programmeerstructuren.

Big Data Tools

Extreem grote datasets vragen om specifieke kennis en tools. Als we het hebben over extreem groot dan bedoelen we minimaal terabytes aan data. Daar gaat deze training over. Hoe zorg je ervoor dat jouw end-2-end oplossingen geen bottleneck worden? Nu en in de toekomst? Dat zijn centrale vragen die behandeld worden en tijdens deze training krijg je een overzicht van welke tools beschikbaar zijn en hoe deze het beste ingezet kunnen worden. Theorie en praktijk worden afgewisseld voor voldoende kennis en tegelijkertijd hands-on ervaring. Onder andere de volgende tools komen aan bod:

  • Hadoop
  • Apache Spark
  • Kafka
  • Airflow

Data essentials

Drie essentiële tools in de toolbox van een data engineer zijn:

  • Command Line
  • Git
  • Docker
  • Kubernetes

De filosofieën achter deze tools en praktische toepassingen komen aan bod en worden eigen gemaakt.

Command Line vormt een belangrijke basis voor elke data professional. Met eenvoudige en krachtige commando’s kunnen basale taken snel en efficiënt worden uitgevoerd.

Git is een versiebeheersysteem waarbij gedistribueerd kan worden samengewerkt aan dezelfde applicatie. Je bent als ontwikkelaar dus niet tijd- of locatie gebonden.

Docker is een synchronisatietechniek waarbij applicaties in lichtgewicht en makkelijk verplaatsbare ‘containers’ worden geplaatst die vervolgens weer eenvoudig geïsoleerd uitgerold kunnen worden. Zo kunnen meer applicaties worden uitgerold op dezelfde hardware. Dit maakt migraties een stuk eenvoudiger en updates zijn sneller uit te voeren.

Cloud oplossingen

In deze training staan cloudoplossingen in het algemeen en specifiek Microsoft Azure centraal. Dit platform vormt een interactieve werkruimte waarin verschillende disciplines samen kunnen werken. Er wordt nader ingegaan op de migratie van bestaande databases naar Azure en synchronisatie van data. De volgende Azure data essentials worden behandeld:

  • Data Bricks: het op Apache Spark gebaseerde analyseplatform
  • Azure Data Lake: flexibele en schaalbare opslag
  • Azure SQL Server: de cloud versie van de vermaarde database
  • Data Factory: de Azure ETL tool voor ontwikkelen en automatiseren van data pipelines

Datamodellering

Voordat data kan worden opgeslagen moeten een aantal belangrijke keuzes gemaakt worden zodat met zo min mogelijk inspanning informatie kan worden onttrokken. Dat is exact wat je leert tijdens deze training: waar je rekening mee moet houden bij het ontwerpen van een relationele database. Verschillende technieken van datamodellering worden behandeld en in welke situatie een bepaalde techniek het best kan worden toegepast.

Data security & awareness

De volgende thema’s komen aan bod tijdens deze training:

Informatiebeveiliging: Iedereen die dagelijks met persoonlijke data werkt moet goed op de hoogte zijn van de risico’s hiervan. Om deze risico’s te beperken is een goede informatiebeveiliging nodig. Er is sprake van voldoende beveiliging als beschikbaarheid, integriteit en vertrouwelijkheid op orde zijn. Tijdens deze training wordt uitgelegd wat er nodig is om deze zaken op orde te hebben.

Secure software development: Data beveiliging meenemen tijdens het ontwerpen en ontwikkelen van data-applicaties is de manier om te voorkomen dat data in verkeerde handen terechtkomt. De technieken die hierin ondersteunen worden uitgelegd en hoe deze toegepast moeten worden.

AVG: Nu steeds meer data wordt gegenereerd en opgeslagen neemt het risico op misbruik ook toe. Daarom is de AVG (Algemene Verordening Gegevensbescherming) in het leven geroepen. Gedegen kennis hiervan is noodzakelijk om data veilig te houden en om zeker te zijn dat je de data ook daadwerkelijk mag gebruiken voor de specifieke toepassing.