“Let the data speak? Zo gemakkelijk is het niet”

We meten steeds meer en we weten steeds meer. “De exponentiële groei van de rekenkracht van computers heeft een ‘tipping point’ bereikt”, zegt prof. dr. ir. Wil van der Aalst, wetenschappelijk directeur van Data Science Center Eindhoven. “Met de hoeveelheid data die we tot onze beschikking hebben, kunnen we grenzen verleggen.”

“In de dagelijkse praktijk zien we steeds meer voorbeelden van nieuwe ontwikkelingen die zijn ontstaan door gebruik van big data. We zijn op een punt aangekomen dat organisaties wel gebruik moeten maken van de nieuwe mogelijkheden die deze ontwikkeling met zich meebrengt. Anders ben je er straks niet meer. Daarbij zit de uitdaging niet in het binnenhalen van voldoende computerpower. Het gaat erom dat je de immense hoeveelheid data die je verzamelt goed kunt interpreteren en er slim en verantwoord mee omgaat.”

“De ontwikkelingen die we zien op het gebied van data science kunnen we verklaren met de Wet van Moore”, vertelt Wil van der Aalst. “Gordon Moore, een van de oprichters van Intel, voorspelde al in 1965 dat de hoeveelheid beschikbare data exponentieel zou toenemen. Zo’n ontwikkeling creëert op een gegeven moment een omslagpunt. Je kunt het vergelijken met de opkomst van de computer. Computers waren er al veel langer. Toen het gebruik van computers het omslagpunt bereikte, nam ook het aantal toepassingen toe. Als we de groei die Moore in 1965 voorspelde zouden toepassen op vervoer, wordt duidelijk wat de impact van die exponentiële groei is. We zouden dan met een milliliter benzine de wereld rond kunnen rijden en in een milliseconde naar New York kunnen reizen.”

“Ook bestaande diensten kunnen sneller, beter en efficiënter dankzij data science.”

Grote veranderingen

“We zijn op een punt beland dat de ontwikkelingen op datagebied relevant zijn geworden voor alle sectoren. Dat leidt tot grote veranderingen. Bijvoorbeeld bij de Belastingdienst, waar vijfduizend administratieve krachten moeten afvloeien, terwijl er tegelijkertijd vijftienhonderd datawetenschappers worden aangenomen. Slim gebruik van data leidt tot nieuwe diensten die eerder niet mogelijk waren. Taxidienst Uber is daar een voorbeeld van. Ook bestaande diensten kunnen sneller, beter en efficiënter dankzij data science. Er ontstaat als het ware een wapenwedloop in snelheid, kostenbeperking en efficiency om consumenten beter te behagen. Ook doordat dienstverlening steeds fijnmaziger kan plaatsvinden. In ziekenhuizen leidt data science ertoe dat er steeds meer evidence based kan worden gewerkt. Data-analyse leidt ertoe dat de behandeling persoonlijk wordt en meer rekening houdt met geslacht, persoonlijke kenmerken en historie. De veranderingen doen zich overigens het sterkst voor in sectoren waar het product digitaal is, zoals de financiële wereld. Je ziet nu al de grote bankkantoren uit het straatbeeld verdwijnen. Welke sector is de volgende die door digitalisering opgeschud wordt?”

Competitie

“Er ontstaat een competitie tussen mens en machine. Een machine kan beter schaken en beter bank spelen dan een mens. Maar in het café waar je een kopje koffie wilt drinken, wint de mens. En tussen die uitersten zie je mengvormen ontstaan, waarbij de machine informatie toevoegt en de mens die informatie analyseert. De mens heeft nu nog vaak de overhand in het analyseren en interpreteren van informatie. Maar dat schuift steeds verder op. Wie had bij de uitvinding van de digitale camera kunnen denken dat zo’n zelfde camera gebruikt zou gaan worden om huidkanker te detecteren via een gratis app? De machine neemt het over van de mens. Dit soort ontwikkelingen zullen we steeds vaker zien.”

The Internet of Events

In juni verschijnt het nieuwste boek van Wil van der Aalst: Process Mining – Data Science in Action. Daarin noemt hij The Internet of Events (IoE) als term voor alle beschikbare data. IoE is opgebouwd uit:

  • The Internet of Content, alle informatie die mensen hebben gegenereerd om de kennis over specifieke onderwerpen te vergroten;
  • The Internet of People, alle data die te maken hebben met sociale interactie (o.a. social media);
  • The Internet of Things, data van fysieke objecten die zijn verbonden aan het internet;
  • The Internet of Locations, alle data met betrekking tot geografische locaties.

Autonoom gedrag

“Er zullen steeds meer producten op de markt komen die in hoge mate autonoom zijn. Het is een interessante uitdaging om ervoor te zorgen dat (deels) autonome producten, zoals auto’s, zich goed gedragen en blijven functioneren, ook als het internet uitvalt. Die uitdaging ligt er ook voor het omgaan met de wensen die zich op orkestratieniveau aandienen. Om te komen tot slimme logistiek wil je de data van auto’s en infrastructuur zoals tunnels, aan elkaar kunnen koppelen. Dan moet je goed nadenken over welke functies zijn gekoppeld aan fysieke constructies en welke aan software. Een tunnel is hardware in zijn ultieme vorm. Die kun je lastig aanpassen. Software is wel heel flexibel en ontwikkelt snel. Er zijn al verhalen over zogeheten smart dust. Sensoren die je uitstrooit en vervolgens gebruikt om data te verzamelen. Er zullen nog heel wat toepassingen ontstaan die we nu nog niet kunnen bedenken. Dat geldt ook voor ondergronds bouwen.”

Smart cities

“Ondergronds bouwen heeft veel raakvlakken met de ontwikkeling van smart cities. Je ziet dat alle universiteiten daarmee bezig zijn. In een smart city heb je allerlei objecten die data verzamelen. Met data-analyse kun je patronen herkennen en die gebruiken om energie te besparen of dienstverlening te verbeteren. Analyse van leefpatronen geeft bijvoorbeeld inzicht in de relatie tussen mobiliteit en energieverbruik.”

“Onderzoek op het gebied van smart homes gebeurt al op uitgebreide schaal. De Technische Universiteit Eindhoven en Philips werken samen in het Data Science Flagship. Daar doen achttien promovendi onderzoek. Producten worden steeds vaker met sensoren uitgerust. De informatie die je uit sensoren in producten haalt, kun je voor allerlei doeleinden gebruiken. Maar het is nog moeilijk te voorspelen welke toepassingen in de praktijk ook echt waarde toevoegen. Als een scheerapparaat informatie vergaart over de conditie van de huid van de gebruiker, kun je dat dan gebruiken om verzorgingsproducten aan te bieden? En flesjes voor babyvoeding met sensoren? Wat kun je met de data die daaruit beschikbaar komen?”

Acceptatie

“Een van de interessante thema’s binnen het vakgebied data science is de mate waarin mensen bereid zijn de invloed van data in hun dagelijks leven te accepteren. Dan hebben we het over responsible data science: hoe beschermen we de burger? Mensen moeten de uitkomst van data-analyse kunnen vertrouwen. Er is meer geautomatiseerde data beschikbaar dan dat er voldoende onderlegde mensen zijn die de uitkomsten kunnen interpreteren. Er wordt vaak gezegd: ‘Let the data speak’, maar zo gemakkelijk is het niet. Een bekend fenomeen is dat als je maar genoeg hypotheses onderzoekt je er altijd wel een vindt die bij toeval waar is. Als je naar data kijkt, kun je een sterke correlatie ontdekken tussen het bezitten van een smartphone en van de trap vallen. Maar dat wil nog niet zeggen dat er een oorzakelijk verband is. Het is niet voor niets dat bijna een kwart van de vragen die door burgers zijn gesteld in het kader van de Nationale Wetenschapsagenda gerelateerd zijn aan data science. In die vragen zie je dat mensen bezorgd zijn over privacy en transparantie.”

Opleiden

“Het opleiden van gekwalificeerde datawetenschappers is cruciaal. De tijd dringt. Vanuit de Technische Universiteit Eindhoven werken we samen met de Tilburg University aan grootschalig data science-onderwijs. We hebben al twee masteropleidingen. In september 2016 beginnen we met een brede bacheloropleiding en er komt een tweede fase-opleiding voor studenten die na hun master een opleiding data science willen volgen. Daarvoor wordt voormalig nonnenklooster Mariënburg in Den Bosch omgebouwd tot Jheronimus Academy of Data Science. Bij dit initiatief zijn ook bedrijven, de stad Den Bosch en de provincie Noord-Brabant betrokken.”