Academy: Data Scientist

Als Data scientist zet je jouw statistische kennis in voor het analyseren en ontsluiten van gestructureerde én ongestructureerde data. Daarnaast bouw je modellen door middel van algoritmen met diverse softwareoplossingen als bijvoorbeeld Python. Met deze modellen analyseer je niet alleen gegevens uit het verleden maar kun je op basis van grote datasets met de juiste (machine learning) modellen, toekomstige ontwikkelingen in kaart brengen die bijdragen aan het maken van de juiste strategische, tactische maar ook operationele keuzes.

Hieronder kan je alle onderwerpen en trainingen vinden die we aanbieden:

Bootcamp

Elke traineeship start met de Bootcamp waar de basis wordt gelegd voor een succesvolle carrière als data-specialist. Generieke vaardigheden die elke data-specialist moet beheersen worden hier verworven:

  • Use case ontwikkelen
  • Agile Scrum
  • Tooling

Na dit deel is de trainee in staat om zelfstandig een use case te ontwikkelen en tot een succes te brengen. Plannen en goede keuzes maken staan centraal. Hierna volgen de specialisatie-onderdelen.

Data essentials

Drie essentiële tools in de toolbox van een data engineer zijn:

  • Command Line
  • Git
  • Docker
  • Kubernetes

De filosofieën achter deze tools en praktische toepassingen komen aan bod en worden eigen gemaakt.

Command Line vormt een belangrijke basis voor elke data professional. Met eenvoudige en krachtige commando’s kunnen basale taken snel en efficiënt worden uitgevoerd.

Git is een versiebeheersysteem waarbij gedistribueerd kan worden samengewerkt aan dezelfde applicatie. Je bent als ontwikkelaar dus niet tijd- of locatie gebonden.

Docker is een synchronisatietechniek waarbij applicaties in lichtgewicht en makkelijk verplaatsbare ‘containers’ worden geplaatst die vervolgens weer eenvoudig geïsoleerd uitgerold kunnen worden. Zo kunnen meer applicaties worden uitgerold op dezelfde hardware. Dit maakt migraties een stuk eenvoudiger en updates zijn sneller uit te voeren.

Machine Learning

De trainee krijgt inzicht in verschillende machine learning technologieën en hoe deze ingezet kunnen worden. Machine learning wordt bijvoorbeeld gebruikt bij beeldherkenning en fraudedetectie. Zowel unsupervised als supervised machine learning algoritmen komen aan bod zoals:

  • Deep learning
  • Tree-based modellen
  • Lineaire en logistische regressie

De theoretische achtergrond wordt uitvoerig behandeld zodat men vertrouwd raakt met hyperparameters en manieren om een model robuust te maken. Ook worden modellen daadwerkelijk getraind en getest tijdens de cursus. De trainee kan na de training zelfstandig machine learning modellen operationaliseren.

Programmeertalen (Python)

Python is een gemakkelijk te leren en lezen open-source programmeertaal. Daarbij zijn er vele krachtige modules ontwikkeld zodat de beginnende programmeur een heel arsenaal aan functies beschikbaar heeft. Niet voor niets dat Python een van de meest populaire programmeertalen is. De modules zijn ook nog eens heel divers zodat Python voor nagenoeg elk automatiseringsvraagstuk kan worden ingezet: onder andere machine learning, RESTful API’s en webservices.

Ook op het gebied van data science is Python een veelgebruikte tool en een essentiële vaardigheid van elke data scientist en data-analist. Deze training is toegespitst op data science projecten.

Cloud oplossingen

In deze training staan cloudoplossingen in het algemeen en specifiek Microsoft Azure centraal. Dit platform vormt een interactieve werkruimte waarin verschillende disciplines samen kunnen werken. Er wordt nader ingegaan op de migratie van bestaande databases naar Azure en synchronisatie van data. De volgende Azure data essentials worden behandeld:

  • Data Bricks: het op Apache Spark gebaseerde analyseplatform
  • Azure Data Lake: flexibele en schaalbare opslag
  • Azure SQL Server: de cloud versie van de vermaarde database
  • Data Factory: de Azure ETL tool voor ontwikkelen en automatiseren van data pipelines

Datavisualisatie

Het doel van datavisualisatie is informatie op eenvoudige en ondubbelzinnige wijze over te brengen. Bijvoorbeeld door middel van grafieken of diagrammen. Tijdens de training wordt ingegaan op verschillende technieken en worden handvatten gegeven om elk moment de juiste visualisaties te kiezen. Na de cursus is de cursist op de hoogte van het belang van het visueel presenteren van de informatie en in staat dit op een juiste manier te presenteren in een dashboard.

Big Data Tools

Extreem grote datasets vragen om specifieke kennis en tools. Als we het hebben over extreem groot dan bedoelen we minimaal terabytes aan data. Daar gaat deze training over. Hoe zorg je ervoor dat jouw end-2-end oplossingen geen bottleneck worden? Nu en in de toekomst? Dat zijn centrale vragen die behandeld worden en tijdens deze training krijg je een overzicht van welke tools beschikbaar zijn en hoe deze het beste ingezet kunnen worden. Theorie en praktijk worden afgewisseld voor voldoende kennis en tegelijkertijd hands-on ervaring. Onder andere de volgende tools komen aan bod:

  • Hadoop
  • Apache Spark
  • Kafka
  • Airflow

Data security & awareness

De volgende thema’s komen aan bod tijdens deze training:

Informatiebeveiliging: Iedereen die dagelijks met persoonlijke data werkt moet goed op de hoogte zijn van de risico’s hiervan. Om deze risico’s te beperken is een goede informatiebeveiliging nodig. Er is sprake van voldoende beveiliging als beschikbaarheid, integriteit en vertrouwelijkheid op orde zijn. Tijdens deze training wordt uitgelegd wat er nodig is om deze zaken op orde te hebben.

Secure software development: Data beveiliging meenemen tijdens het ontwerpen en ontwikkelen van data-applicaties is de manier om te voorkomen dat data in verkeerde handen terechtkomt. De technieken die hierin ondersteunen worden uitgelegd en hoe deze toegepast moeten worden.

AVG: Nu steeds meer data wordt gegenereerd en opgeslagen neemt het risico op misbruik ook toe. Daarom is de AVG (Algemene Verordening Gegevensbescherming) in het leven geroepen. Gedegen kennis hiervan is noodzakelijk om data veilig te houden en om zeker te zijn dat je de data ook daadwerkelijk mag gebruiken voor de specifieke toepassing.