De hoeveelheid data op aarde groeit explosief, en die groei stopt voorlopig niet [1]. Die enorme hoeveelheid beschikbare data vraagt om goed beheer, zodat het ook bruikbaar blijft. Om dat mogelijk te maken is de FAIR opgesteld. Deze bestaat uit een reeks principes en richtlijnen om data te beheren, uit te wisselen en (her) te gebruiken. FAIR is in 2016 specifiek opgesteld voor wetenschappelijke data, maar de principes worden tegenwoordig ook in domeinen buiten de wetenschap gebruikt als richtlijn. Naast dat adequaat beheer nodig is voor de groeiende hoeveelheid beschikbare data, vraagt de groeiende hoeveelheid ook om duurzaam databeheer. Het opslaan en beschikbaar stellen van data kost namelijk veel grondstoffen en energie [2]. Kijk maar naar de datacenters die de laatste jaren zijn gebouwd en de energie die nodig is om de datacenters te laten draaien.
In hoeverre draagt FAIR bij aan duurzaam databeheer? En kan het beheren en gebruiken van data nóg duurzamer dan enkel het toepassen van de FAIR-principes? In dit artikel zoeken we dat uit aan de hand van de circulariteitsladder, een veelgebruikte tool in de duurzaamheidssector.
Waarom dataspecialisten en architecten elkaar beter moeten vinden om ongelukken te voorkomen
Data krijgt een steeds belangrijkere plek in de informatievoorziening van organisaties. Onder impuls van het streven naar datagedreven werken, formuleren organisaties fikse ambities en worden initiatieven opgestart om data-sciencetoepassingen en specialistische voorzieningen (zoals een datalake) in te richten. Veel energie en beweging. Maar wie neemt de regie? De specifieke kennis van dataspecialisten én de brede blik van architecten op de werking en kwaliteit van de informatievoorziening als geheel zijn allebei nodig. Nog te weinig organisaties besteden expliciet aandacht aan het samenbrengen van beide werelden. Gevolg is dat veel data-initiatieven blijven hangen in de experimenteerfase en dat implementatie en inproductiename achterblijven. Ook is het risico groot dat datavoorzieningen niet aan de hoge verwachtingen zullen voldoen.
Vroeger
Vroeger, toen het nog ging over een datawarehouse en management- of stuurrapportages, was data bijna letterlijk een randgebied in het applicatielandschap. Met eigen specialisten, die in relatieve afzondering hun eigen stukje informatievoorziening konden vormgeven. Data werd afgetapt uit allerlei applicaties die zelf gericht waren op directe, operationele ondersteuning van de bedrijfsprocessen. Wel even oppassen dat dat niet die applicaties onderuit trok, maar verder: zie maar. De opzet en technologie van het datawarehouse? En van de rapportages en geavanceerde toepassingen? Interessant en belangrijk, maar niet van invloed op de rest van de informatievoorziening en grotendeels buiten het blikveld van (enterprise) architectuur. Andersom hoefden dataspecialisten zich niet al te druk te maken over allerlei zaken die in de operationele informatievoorziening van cruciaal belang zijn, zoals de beschikbaarheid, tijdigheid of performance.
In veel organisaties zijn dan ook twee verschillende communities te herkennen, met een eigen taal. Enerzijds de architectuurcommunity, met aandacht voor het landschap als geheel en gefocust op de kwaliteit van dat geheel. Data is gewoon één van de te beschouwen perspectieven – en dan nog meestal met een nadruk op gegevensuitwisseling tussen applicaties. Een architectuurmethode als Togaf beschouwt data-architectuur dan ook als één van de architectuurtypes. Anderzijds is er datacommunity, specifiek gericht op data en specifieke datatoepassingen zoals het datawarehouse, rapportages en, recenter, data science en AI. Een datamanagementmodel als DMBOK besteed aandacht aan data-architectuur, maar zonder expliciet de relatie leggen naar de informatievoorziening als geheel.
Kortom: twee communities, twee modellen en twee keer data-architectuur – maar weinig of geen samenhang. En soms maakt een strikte scheiding tussen verschillende domeinen (zoals tussen zorg en onderzoek, met eigen architecten en dataspecialisten) de situatie zelfs nog complexer.
Midden in de informatievoorziening
Inmiddels is data niet langer een randgebied. Voor de AVG maakt het niet zoveel uit of data nu in operationele systemen of in rapportages gebruikt wordt: er zijn organisatie-brede afspraken en voorzieningen nodig voor het vastleggen van zaken als toestemming, autorisatie en logging van gebruik. Maar wellicht nog meer impact heeft het feit dat de ambities van datagedreven werken veel verder gaan dan de traditionele en dagelijks ververste management- en stuurrapportages. Wat nu als applicaties de resultaten van data science of AI-toepassingen gaan gebruiken bij de afhandeling van operationele processen? Als er dus een “route terug” moet gaan ontstaan van het randgebied naar het hart van het applicatielandschap? En dan zijn er ook nog organisaties die hun nieuw ingerichte datalake willen gaan gebruiken als een centraal data-ontkoppelpunt waar álle applicaties uit het landschap, liefst real-time, hun gegevens vandaan kunnen halen.
Dan komen data en datagerelateerde voorzieningen dus midden in de informatievoorziening te staan. De vraag is wie ervoor gaat zorgen dat de transitie die hiervoor nodig is goed en beheerst plaats gaat vinden – en dat alle nieuwe technologie en toepassingen de ambities waar gaan maken. Wie gaat ervoor zorgen dat we niet verdrinken in ons nieuwe datalake?
Dataspecialisten noch architecten
Dataspecialisten, vaak de drijvende kracht achter alle nieuwe initiatieven, lijken zich nog niet altijd goed te beseffen dat in de rest van de informatievoorziening andere eisen gelden dan ze gewend waren voor hun eigen datarandgebied. Hoe moet een datalake werken in de context van hoog beschikbare, transactieverwerkende systemen? Hoe verhoudt een data-ontkoppelpunt zich ten opzichte van integratietechnologieën zoals een ESB? Wat vraagt het om een op de laptop van een data scientist ontwikkeld R-model door de afdeling beheer als applicatie in productie te laten nemen? Hoe passen de eigen opslagtechnologieën binnen de infrastructuurkeuzes van de organisatie?
Architecten van de andere kant, hebben zich altijd een beetje afzijdig gehouden van datatechnologie. En moeten nu dus ineens mening hebben over hoe deze nieuwe toepassingen een centralere plek in het applicatielandschap moeten krijgen. En dat is niet gemakkelijk met al die zeer specialistische datatechnologie die zich heel snel ontwikkelt en zich nog niet altijd bewezen heeft buiten het datadomein.
Beide perspectieven zijn nodig
Beide perspectieven zijn nodig: de specialistische datakennis én de brede blik op de werking en kwaliteit van de informatievoorziening als geheel. Nog maar weinig organisaties besteden echter expliciet aandacht aan het samenbrengen van beide werelden. Gevolg is dat veel data-initiatieven blijven hangen in de experimenteerfase en dat implementatie en inproductiename achterblijven. Ook is het risico groot dat voorzieningen zoals een datalake niet aan de hoge verwachtingen zullen voldoen.
Meer dan het datameer
De stap naar meer datagedreven werken vraagt dus meer dan het realiseren van voorzieningen zoals een datalake. Organisaties zullen actief werk moeten gaan maken van het bij elkaar brengen van de tot nu toe twee relatief gescheiden werelden van architectuur en data. Wat soms zelfs bewust apart georganiseerd is, bijvoorbeeld om innovatiekracht te bevorderen, moet nu juist weer op allerlei vlakken onderdeel gemaakt worden van één en dezelfde informatievoorziening.
Dat raakt aan het datamanagementvraagstuk – hoe maken we van data een beheerst en waardevol bedrijfsmiddel – maar is niet hetzelfde. Eerst en vooral is nodig dat architecten en dataspecialisten samen zich een beeld vormen van wat datagedreven werken betekent voor de organisatie, hoe de totale informatievoorziening die hiervoor nodig is er uit zou moeten zien én in welke realistische stappen het huidige landschap zich in die richting kan ontwikkelen. Een data-architectuur zeg maar, maar dan wel graag over de grenzen van de huidige hokjes heen.
Terug naar het overzicht
Maak kennis met
Gerelateerde publicaties
Nieuwe inzichten en een betere zorg. Dat waren de belangrijkste resultaten van het Big Data jubileumonderzoek dat M&I/Partners ter gelegenheid van het 30-jarig bestaan kosteloos uitvoerde bij het UMC Utrecht. 'Onze data-analyse bracht zaken aan het licht die voor iedereen een aangename verrassing waren'.
Lees verder