Datamining

Datamining (gegevensdelving, datadelving) is het gericht zoeken naar (statistische) verbanden tussen verschillende gegevensverzamelingen met als doel profielen op te stellen voor wetenschappelijk, journalistiek of commercieel gebruik. Zo'n verzameling gegevens kan gevormd worden door gebeurtenissen in een praktijksituatie te registreren (aankoopgedrag van consumenten, symptomen bij patiënten, et cetera) of door de resultaten van eerder uitgevoerde wetenschappelijke onderzoeken met elkaar te vergelijken en te herinterpreteren.

De naam komt voort uit de overeenkomsten tussen het zoeken naar statistische verbanden en het graven (mining) naar iets waardevols in een grote berg gegevens (big data). Datamining helpt bedrijven en wetenschappers de essentiële informatie te selecteren. Er kan een model mee gecreëerd worden dat het gedrag van mensen of systemen kan voorspellen.

Misbruik van statistische gegevens

Een valkuil die bij datamining op de loer ligt, is de drogreden Cum hoc ergo propter hoc: als je maar genoeg gegevens analyseert, zal je vroeg of laat ongetwijfeld een statistische correlatie tussen twee variabelen vinden, maar dat hoeft niet te betekenen dat er ook een oorzakelijk verband bestaat tussen de twee betreffende variabelen.

Datamining zou bijvoorbeeld kunnen aantonen dat er een correlatie bestaat tussen het aantal ooievaars en geboorten in een bepaald land, maar de conclusie dat ooievaars dus iets met de geboorte van baby's te maken hebben, is uiteraard voorbarig. Er wordt immers niet gecorrigeerd voor de grootte van een land of voor andere effecten die niet worden meegenomen in de statistiek.

De kans dat datamining onjuiste conclusies oplevert, kan verkleind worden door bij het toepassen altijd te werken volgens de wetenschappelijke methode, die voorschrijft dat er eerst een falsifieerbare hypothese opgesteld moet worden en dat vervolgens uitsluitend die hypothese getoetst dient te worden.

Algoritmes en technieken

Datamining maakt gebruik van verscheidene technieken. In deze sectie zullen enkele van deze technieken behandeld worden. Een bekend algoritme voor datamining is het a-priorialgoritme van Rakesh Agrawal et al.

Beslissingsbomen

Een beslissingsboom is een voorspellend model dat een voorspelling doet op basis van een reeks beslissingen. Elke tak van de boom is een classificatievraag en de bladeren van de boom stellen partities van de gegevensverzameling met hun respectievelijke classificaties voor.

Een van de grote voordelen van een beslissingsboom is dat het model eenvoudig wordt opgebouwd en het zeer gemakkelijk te begrijpen is. Vanwege dit voordeel, zijn beslissingsbomen in de bedrijfssector de meest gebruikte dataminingtechniek. Beslissingsbomen blinken namelijk uit in complexe algoritmes die in praktijk gebracht moeten worden. Een nadeel is dat ze niet toepasbaar zijn op simpele problemen of algoritmes en dat er soms storende gegevens worden gebruikt, waardoor dit tot een onjuist antwoord kan leiden.

Een beslissingsboom is voor datamining geen nieuw begrip. Het bestaat namelijk al zo'n 20 jaar. Het eerste beslissingsboomalgoritme werd geïntroduceerd door J. Ross Quinlan onder de naam van ID3. Sindsdien is ID3 meermaals aangepast en verbeterd. Het is ook grootschaliger geworden. Binnen ID3 zijn er twee belangrijke technologieën, namelijk CART en CHAID.

Neurale netwerken

Een neuraal netwerk is enigermate gebaseerd op de organisatie van het menselijke brein en de manier waarop de hersenen leren. Er zijn twee belangrijke structuurelementen in het neurale netwerk:

het knooppunt: Te vergelijken met het neuron in een menselijk brein.
de koppeling: Te vergelijken met de verbindingen tussen deze neuronen.

Neurale netwerken zijn belangrijk geweest in de beginfase van de dataminingtechnologie. Een belangrijk voordeel van neurale netwerken is dat ze zeer nauwkeurig te werk gaan binnen hun voorspellingen en dat ze op een groot aantal verschillende problemen toegepast kunnen worden. Ze hebben een aantal belangrijke beperkingen op het vlak van de trainingstijd, duidelijkheid en dimensionaliteit. Ze bieden ook geen korte en snelle oplossingen. De eerste ideeën over neurale netwerken werden gevormd tijdens de Tweede Wereldoorlog door McCulloch en Pitts. Tegenwoordig nemen neurale netwerken belangrijke taken op zich binnen de bedrijfswereld. Er wordt namelijk heel veel in deze dataminingtechniek geïnvesteerd.

Er zijn verschillende soorten neurale netwerken. Enkele belangrijke soorten zijn: backpropagation, Kohonen feature maps, netwerken met radiale basisfuncties.

Rule induction

Rule induction is een vorm van datamining die het meest overeenkomt met het proces van datamining. Via rule induction worden er interessante vaststellingen blootgesteld uit grote databases die voordien nog niet bekend waren. Zo worden er voorspellende patronen teruggevonden in bijvoorbeeld het koopgedrag van onze samenleving. Door rule induction kunnen bedrijven hierop inspelen. Via rule induction kunnen we informatie weergeven in een eenvoudige regel, zoals: 'Als dit, dan dit'. Enkele voorbeelden: 'Als brood, dan kaas'; 'Als koffie, dan melk'; enz..

Rule induction biedt dus tal van voordelen. Het proces kent namelijk een automatische werkwijze, het vindt patronen terug die belangrijk kunnen zijn voor voorspellingen, het haalt alle patronen uit de inhoud van databases. Dit laatste vormt meteen een van de grootste nadelen van rule induction: doordat alle patronen uit de gegevens worden gehaald, moet men daarna nog een tweede dataminingronde uitvoeren om uit de lijst van patronen de belangrijkste ondervindingen te halen. Hierdoor kunnen simpele voorspellingen heel complex worden.

Case Based Redeneren

Deze benadering gebruikt cases uit het verleden om er bepaalde patronen in te herkennen.

Intelligente Agenten

Hierbij wordt informatie van het internet gehaald en van databases die op intranet gebaseerd zijn.

Toepassingen

Wetenschappelijk onderzoek

In de wetenschap kan men via datamining onderzoeken of kleine kwantitatieve verschillen tussen waarnemingen die "op het oog" niet significant lijken te zijn ook daadwerkelijk niet significant zijn. Als de hoeveelheid te analyseren data zeer groot is kan er capaciteit gehuurd worden op een supercomputer of er kan gebruikgemaakt worden van distributed computing.

Een voorbeeld van een geneesmiddel waarvan men de mogelijk dodelijke bijwerking heeft kunnen ontdekken door datamining is Vioxx, een ontstekingsremmer die om die reden in 2004 van de markt gehaald is.

Bio-informatica

De bio-informatica is een subdomein van de biologie waarin men de kennis van informatica probeert toe te passen op biologie. Een bio-informaticus plaatst de gegevens die hij verkregen heeft van een moleculaire bioloog in een database. In deze database worden dan relaties gezocht door middel van datamining. Enkele voorbeelden hiervan zijn:

Het vergelijken van het DNA van verschillende individuen om een eventueel verband met ziektes zoals kanker op te sporen. Zo wil men te weten komen welke delen van het DNA een bepaalde ziekte een grotere kans geven om toe te slaan. Als men deze gegevens heeft, kan men het DNA eventueel aanpassen om de ziektes tegen te gaan.
Het vergelijken van het DNA van verschillende organismen om overeenkomsten en verschillen te vinden. Zo kan men onder andere de evolutietheorie aantonen door middel van datamining.

Detailhandel

Datamining maakt onder meer deel uit van een meer omvattend proces dat doorgaans wordt aangeduid als business intelligence.

Datamining wordt vaak toegepast in supermarktketens. In de winkel scant de kassier(ster) je artikels in. De prijs van het artikel wordt dan via de barcode opgehaald en de producten worden opgeslagen in een database voor latere analyse.^[1]

Door middel van het analyseren van aankoopgegevens kunnen niet alleen verwantschappen in aankopen (bijvoorbeeld hamburgers en broodjes) vastgesteld worden waar rekening mee gehouden kan worden bij de indeling van winkels^[2] maar kan men ook een redelijk nauwkeurige inschatting maken van het inkomen, de sociale klasse en de gezinssituatie van een klant. Ook kunnen belangrijke gebeurtenissen in het leven van klanten zoals huwelijk, zwangerschap en echtscheiding met vrij grote nauwkeurigheid gedetecteerd en zelfs voorspeld worden^[3].

Er wordt ook onderzocht waarom klanten naar de winkel komen (zoals wekelijkse aankopen en speciale gelegenheid) en wanneer welke producten het meest verkocht worden (bier wordt bijvoorbeeld meer verkocht aan het einde van de week). Daarnaast wordt datamining gebruikt om te onderzoeken voor welke producten een klant speciaal naar de winkel komt (driver items). Als dit artikel er niet meer is, dan is de klant geneigd onmiddellijk de winkel te verlaten en misschien zelfs niet meer terug te komen. Men kan ook het rendement van de winkels vergelijken aan de hand van datamining.

Datamining stelt eindgebruikers in staat bruikbare zakelijke informatie uit grote databases te halen.
— Alex Berson and Stephen J. Smiths. Datawarehousing, datamining en OLAP. Computing Mcgraw-Hill, 1997, (quote1: p.333, quote2: p.351, quote3: p.380 ; afbeelding1: p. 351, afbeelding2: p.380, afbeelding3: p.475)

Financiële sector

In de financiële sector is het erg belangrijk dat men inzicht heeft in de markt zodat men hierop kan inspelen. Dit inzicht kan verkregen worden door gegevens uit het verleden en het heden te analyseren. In de financiële sector stijgt de hoeveelheid aan data echter exponentieel. Datamining biedt hier een antwoord op. Datamining heeft zowel een voorspellende als een beschrijvende waarde in deze sector. De voorspellende waarde zit hem in het feit dat bepaalde trends zichtbaar worden gemaakt. De beschrijvende waarde zit hem in het feit dat profielen van klantengroepen kunnen worden opgesteld.

Datajournalistiek

Onderzoeksjournalisten gebruiken datamining om feiten en verbanden op te sporen die uit journalistiek oogpunt relevant kunnen zijn voor een publicatie. Zo'n researchjournalist doorzoekt - veelal via het internet - digitale archieven, op zoek naar nieuws, verklaringen en achtergronden. Bij zijn of haar digitale zoektocht naar feiten en verbanden probeert de journalist bijvoorbeeld het waarheidsgehalte van een uitspraak te onderzoeken, een gebeurtenis te reconstrueren, vermeende desinformatie te weerspreken of om tot dusver verborgen verbanden bloot te leggen. Het gaat bij het beoefenen van datajournalistiek veelal om informatie die met de traditionele journalistieke onderzoekstechnieken onder de oppervlakte zouden zijn gebleven. Een datajournalist doorzoekt bestanden die vele terabytes aan gegevens kunnen omvatten: op zoek naar beeld of bewijs van bijvoorbeeld transacties of vergunningen. Ook de sociale media, Wikipedia en websites van internationale instellingen, overheden en bedrijven kunnen hierbij helpen. In een kort filmpje legt VPRO-regisseur Shuchen Tan uit hoe researchers van Tegenlicht als een "bijna detective" in de big data over Shell op zoek gingen naar nog niet onthulde verbanden tussen Nederland, deze oliemaatschappij en Iran (Zie onderaan bij Externe link).

Politie

Ook de politie^[4] beschikt over steeds meer (digitale) gegevens. Deze gegevens worden in een datawarehouse bewaard en men gebruikt datamining software om deze gegevens te analyseren.

Productie

Bij productie wordt datamining gebruikt voor het voorspellen van machinedefecten en het vinden van factoren die de optimalisatie van productiecapaciteit beheersen.

Privacy en ethiek

Al deze toepassingen hebben een debat ^[5] op gang gebracht omtrent privacy. In de databases die onderzocht worden bevindt zich vaak vertrouwelijke informatie. Vooral wanneer deze databases van de overheid of de medische sector afkomstig zijn. Vaak worden er verschillende databases tegelijk onderzocht bij datamining. Zo kan het gebeuren dat persoon A anoniem in database A staat en niet-anoniem in database B. Door datamining zouden de gegevens van persoon A uit database A en database B toch aan elkaar gekoppeld kunnen worden. Zo verkrijgt men dus gegevens waar men aanvankelijk geen toegang toe had en wordt het privacyrecht geschonden.

Ook omtrent de ethiek is er een discussie op gang gebracht. In het algemeen wordt het verboden om mensen te beoordelen op basis van ras, geslacht en andere kenmerken. Dit is echter net wat er bij datamining gebeurt.

Wetgeving

De Europese Unie heeft in 2019 wetgeving geïntroduceerd die tekst- en datamining reguleert. Met de richtlijn inzake auteursrechten in de digitale eengemaakte markt is een algemene auteursrechtelijke uitzondering ingevoerd voor tekst- en dataminig voor onderwijs- en onderzoekinstellingen. Hiervan kan niet bij overeenkomst van worden afgeweken.

Daarnaast is tekst- en datamining voor commerciële partijen en andere partijen alleen toegestaan indien er geen (machine leesbare) voorbehoud is gemaakt door de rechthebbende.

In de Nederlandse auteurswet is dit geïmplementeerd in artikelen 15o en 15n.

De toekomst van datamining

De belangrijkste uitdaging naar de toekomst toe is om de kwaliteit van de databases te verbeteren. In de huidige databases ontbreekt heel wat data en datamining heeft net die data nodig. "Door de kwaliteit van data te verbeteren, kunnen we betere dataminingmodellen gaan ontwikkelen." ^[6] In de toekomst zouden dataminingmodellen ook beter begrijpbaar en transparanter ontwikkeld moeten worden.

Zie ook

Bibliografie

Dimitri Tokmetzis. De digitale schaduw. Hoe het verlies van privacy en de opkomst van digitale profielen uw leven beïnvloeden, Spectrum, Antwerpen, 2012, p. 17, p. 55-56.

Bronnen, noten en/of referenties

↑ Prudent Press Agency. Pos systems are more than just a cash register 2009
↑ N.A. Gutierrez. Demystifying market basket analysis. 2006
↑ How Companies Learn Your Secrets, NYTimes.com 16 februari 2012
↑ Manuel J.J. Lõpez. De mogelijkheden van data mining voor de Nederlandse politie. Het Tijdschrift voor de Politie, 6:26 29, juni 2000.
↑ J.W. Pitts The end of illegal domestic spying? Don't count on it. The Washington Spectator, 2007.
↑ Dominique Deckmyn. Data mining moet realistischer worden. 2008

[1] Prudent Press Agency. Pos systems are more than just a cash register 2009

[2] N.A. Gutierrez. Demystifying market basket analysis. 2006

[3] How Companies Learn Your Secrets, NYTimes.com 16 februari 2012

[4] Manuel J.J. Lõpez. De mogelijkheden van data mining voor de Nederlandse politie. Het Tijdschrift voor de Politie, 6:26 29, juni 2000.

[5] J.W. Pitts The end of illegal domestic spying? Don't count on it. The Washington Spectator, 2007.

[6] Dominique Deckmyn. Data mining moet realistischer worden. 2008

[1]

[2]

[3]

[4]

[5]

[6]