Contact

Nieuws

Goede kwaliteit data: praktische tips voor Data Analisten

Garbage in, garbage out

Data analisten krijgen naast het zoeken in data, het visualiseren hiervan en het daadwerkelijk analyseren van de data ook te maken met het opschonen en schoon houden van de data waarmee ze werken. De betrouwbaarheid van data analyses is namelijk ook afhankelijk van de betrouwbaarheid van de gebruikte data, dit staat ook wel bekend als het ‘garbage in, garbage out’-principe. De kwaliteit van de output van analyses kan niet goed zijn als de kwaliteit van de data dat niet is (Kilkenny & Robinson, 2018).

Wat het verschil maakt tussen kwalitatief goede en slechte data zit in een aantal factoren (Teslow, 2016) waarin dit artikel ingaat op de volgende:

  • Consistentie (en volledigheid)
  • Nauwkeurigheid (en precisie)
  • Actualiteit

 

Consistentie (en volledigheid)

Aangezien veel analisten data gebruiken afkomstig uit verschillende bronnen is er een grote kans dat de data net anders is geformatteerd afhankelijk van de bron. Dit kan leiden tot data duplicatie, waarbij dezelfde gegevens meerdere keren in een dataset verschijnen. Dergelijke duplicatie leidt tot vertekende analyses en zaken die over het hoofd worden gezien (Rahm & Do, 2000). Consistentie van data houdt in dat de gegevens overeenstemmen en niet tegenstrijdig zijn. In het geval van data duplicatie is er sprake van te weinig consistentie in de data. Dit gaat ook samen met volledigheid waarbij het belangrijk is dat geen belangrijke gegevens ontbreken. Wanneer er data duplicatie is en de data niet allemaal op de juiste plaats staat zal de data ook onvolledig worden. Als een persoon bijvoorbeeld twee keer in een database voorkomt en bij de ene versie van deze persoon worden telefoongegevens en adresgegevens toegevoegd en bij de andere versie bankgegevens, dan zijn beide versies van deze persoon niet volledig als gevolg van de data duplicatie.

Praktische tip 1: Standaardiseer datavelden en -formaten voordat u data uit verschillende bronnen samenvoegt. Dit minimaliseert compatibiliteitsproblemen en verzekert de consistentie van de resulterende dataset.

Praktische tip 2: In i2 iBase is het instellen van de juiste (combinatie van) velden als discriminatorvelden ontzettend belangrijk voor het voorkomen van data duplicatie bij het importeren en handmatig aanmaken van nieuwe data in de database. Deze velden zorgen ervoor dat dubbelingen worden opgespoord, maar dat voorkomt nog niet dat deze toch dubbel worden opgeslagen wanneer degene die de data invoert daarvoor kiest.

Praktische tip 3: Dubbelingen kunnen ondanks de discriminatorvelden nog steeds voorkomen in een database. Daarom is het belangrijk om hier ook regelmatig op te controleren. Dit kan in i2 iBase met de Duplicate Records Checker. Hiermee kan op basis van de inhoud van de zelf-aangegeven velden worden gezocht naar dubbele records binnen een database.                                                                                                                                    

Nauwkeurigheid (en precisie)

Nauwkeurige data houdt in dat de gegevens geen fouten bevatten en overeenkomen met de werkelijkheid. Nauwkeurigheid gaat daarbij samen met precisie, wat inhoudt dat de data exact is en geen onnodige afwijkingen bevat. Het verifiëren en valideren van zowel de bronnen als de data voor het invoeren van de data is hiervoor uiteraard van uiterst belang. In het geval van data met mogelijk verminderde betrouwbaarheid is het belangrijk dat dit op een consistente manier wordt gecommuniceerd.

Het regelmatig controleren van de kwaliteit van de data, onder andere ook de consistentie hiervan, kan ook bijdragen aan de nauwkeurigheid en precisie. Ook hierbij is het hebben van duidelijke interne afspraken over hoe data wordt opgeslagen en geformatteerd van uiterst belang.

Praktische tip 1:In i2 iBase kunnen betrouwbaarheidsvelden worden toegevoegd aan records waarin zowel de betrouwbaarheid van de bron als van de data kan worden aangegeven. In databases waar deze velden niet in staan kan gebruik worden gemaakt van bronvelden waarbij wordt verwezen naar de bron van de informatie en dan kan in de opmerkingen worden benoemd dat er mogelijk twijfels zijn bij de betrouwbaarheid hiervan.

Praktische tip 2: In i2 Analyst’s Notebook kunnen gradaties van zekerheid worden toegevoegd aan zowel entiteiten als koppelingen hiertussen. Deze gradaties worden analysis attributes die kunnen worden meegenomen in bijvoorbeeld het zoeken in of sorteren van de gegevens.                                                                                                               

Actualiteit

Data moet niet alleen up-to-date zijn om een zo realistisch en compleet mogelijk beeld te geven, het moet ook in lijn zijn met de bewaringstermijn van gegevens om aan de AVG-wetgeving te voldoen. Volgens Artikel 5(1)(e) van de AVG moeten persoonsgegevens worden bewaard zolang ze noodzakelijk zijn voor het oorspronkelijke doel. Dit betekent dat data analisten moeten begrijpen hoe lang bepaalde gegevens moeten worden bewaard om zowel te voldoen aan de wetgeving als aan de behoeften van hun analyses. Volgens de Wet Politiegegevens (Wpg) mogen politiegegevens echter niet onbeperkt worden gebruikt en bewaard. Er zijn termijnen vastgelegd voor specifieke omstandigheden. Ook andere instanties hebben te maken met bewaartermijnen van data. Overtredingen hiervan kunnen consequenties hebben voor onder andere de rechtsgeldigheid van de data.

Praktische tip: i2 heeft speciaal hiervoor een tool ontwikkeld genaamd de i2 iBase Weeder. Deze tool houdt de bewaartermijnen van data bij en zorgt dat de data wordt verwijderd wanneer de bewaartermijn is bereikt. Hiermee worden deze termijnen altijd gehanteerd zonder dat hier handmatig naar moet worden gekeken.

Referenties

Algemene Verordening Gegevensbescherming [AVG] (2016), Artikel 5(1)(e) en Artikelen 13-14.

Geiger, R. S., Yu, K., Yang, Y., Dai, M., Qiu, J., Tang, R., & Huang, J. (2020). Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From? In Conference on Fairness, Accountability, and Transparency (FAT '20),* January 27–30, 2020, Barcelona, Spain (pp. 18 pages). ACM, New York, NY, USA. [Online]. Beschikbaar via: https://stuartgeiger.com/papers/gigo-fat2020.pdf [Geraadpleegd op 27 augustus 2023]. DOI: https://doi.org/10.1145/3351095.3372862

Kilkenny, M. F., & Robinson, K. M. (2018). Data quality: "Garbage in – garbage out." Health Information Management Journal, 47(3), 103-105. DOI: 10.1177/1833358318774357

Pressman, R. (2014). Software Engineering: A Practitioner's Approach. McGraw-Hill Education.

Rahm, E., & Do, H. H. (2000). Data Cleaning: Problems and Current Approaches. IEEE Data Engineering Bulletin, 23(4), 3-13. Wet Politiegegevens (Wpg).

Teslow M (2016) Health data concepts and information governance. In: Abdelhak M, Hanken MA (eds) Health Information: Management of a Strategic Resource, 5th ed, pp. 88–144. St Louis, Missouri: Elsevier Saunders.

Wet Politiegegevens [Wpg] (2018).