ANWB - Solution Architect DataHub

ANWB - Solution Architect DataHub

Introductie van een nieuw data integratie concept en realisatie van het self-service platform om alle data initiatieven binnen de ANWB te ondersteunen

March 2019 - September 2023

Technologies:

AWS DataHub Platform Architecture Serverless IoT Python Streaming

ANWB - AWS Solution Architect DataHub

Project Overview

Begin 2019 heb ik het concept DataHub geïntroduceerd bij de ANWB. Als Solution Architect heb ik technisch leiding gegeven aan een nieuw opgericht team van cloud en data engineers om dit concept als een self-service platform te realiseren.

Dit data integratie concept brengt de van oorsprong, helaas, gescheiden werelden van ETL, Data Warehouses en Business Intelligence en transactionele en operationele systemen bij elkaar. Tevens kunnen we de opkomende disciplines van Machine Learning, Data Science en AI bedienen. Data wordt voor allerlei toepassingen meermaals geexporteerd, beschikbaar gesteld en gerepliceerd, zonder dat er echt overzicht is van waar de data naartoe gaat en waar het voor gebruikt wordt. Dit platform maakt de integratie eenvoudiger en geeft hier direct inzicht in en ondersteunt data governance discipline.

Het platform is begonnen als een proof-of-concept door 4 use cases te realiseren als bewijs dat we op eenvoudige wijze met AWS Serverless technologie hoogwaardige data integratie oplossingen konden maken. Dit als alternatief op de krakende infrastructuur van de enterprise service bus (ESB) en het ETL platform.

Het platform bestond grotendeels uit twee frameworks, een streaming framework en een file/batch framework. Data dat via streaming processen geimporteerd werd, kon via file processing weer geëxporteerd worden mocht dat nodig zijn voor de ontvangende partij. Alle import en export processen bestonden en draaiden los van elkaar. Omdat we enkel serverless technologie gebruikt hebben, waren schalings issues nooit een probleem. Transactionele databases kunnen via Change Data Capture gerepliceerd worden en als streaming data of als files verder verwerkt worden.

Self Service Platform

Alle componenten waren dusdanig opgezet dat ze door de data leveranciers en gebruikers zelf gerealiseerd en aangepast worden. 75% was configuratie, de rest waren ofwel SQL queries om jouw selectie van data te maken, ofwel het invullen van een framework lambda functie om transformaties te doen op streaming events.

Het platform is volledig gedocumenteerd vanaf eerste stappen en tutorials, tot een beschijving van alle beschikbare componenten om koppelingen te maken met allerlei data technologieën. OData, CDC, FTP, SMB, Kinesis, S3, Kafka, Snowflake, SQL. Daarnaast kon men ook zelf custom koppelingen maken met API’s van leveranciers bijvoorbeeld.

AWS Autonomie

Het gebruik van AWS stond aan het begin van dit traject bij ANWB nog in de kinderschoenen. Tijdens de voorbreidende fase heb ik een start gemaakt met Guardrails en het automatisch “hardenen” van nieuwe AWS accounts. Op die manier kon ik met mijn team zelf volledig eigenaarsschap nemen over de technologische stack van onze oplossingen, zonder bij elke release allerlei change requests te moeten indienen bij centrale infra teams.

Uiteindelijk is deze basis uitgegroeid binnen ANWB tot een volwaardige Cloud Platform team die via AWS best practises zoals Control Tower accounts uit kan rollen voor nieuwe teams of projecten.

Technologie stack

We gebruikten een geweldige set van serverless componenten van AWS om dit platform te bouwen.

Python, CDK, API Gateway, Lambda, S3, Glue, Athena, DynamoDB, Step Functions, Kinesis, SNS, SQS

Cloudcrafter

© 2025 Dennis Noordzij

Neem direct contact op LinkedIn Bekijk mijn LinkedIn profiel