Naar boven
Patiëntgegevens anonimiseren en pseudonimiseren met HiXPort

Patiëntgegevens anonimiseren en pseudonimiseren met HiXPort

10 augustus 2017

Het testen van ChipSoft HiX is cruciaal. Door snel veranderende eisen en wensen van onder andere patiënten, wordt er regelmatig nieuwe functionaliteit toegevoegd aan ChipSoft HiX. Gevolg hiervan is dat goed en betrouwbaar testen steeds belangrijker wordt. Dat gebeurt geregeld met echte patiëntgegevens, omdat die de betrouwbaarste testresultaten geven.

Hier komt de wetgeving om de hoek kijken: privacywetgeving verbiedt het gebruik van echte persoonsgegevens voor testdoeleinden.

Voor ziekenhuizen die ChipSoft HiX gebruiken, ontbrak tot nu toe een gemakkelijke en eenvoudige manier om patiëntgegevens te anonimiseren. Met de introductie van Datafactory HiXPort is dit veranderd!

Hieronder leggen we uitgebreid uit hoe HiXPort werkt, ondersteund met beeldmateriaal. Een korte introductie download je hier.

Herkenbaar dilemma? 

Zorginstellingen worden in toenemende mate geconfronteerd met het data dilemma: om goede zorg te kunnen verlenen, hebben ze betrouwbare software nodig (lees betrouwbare EPD’s). Daar komen vaak nieuwe versies van, die getest moeten worden. Om zinvol te kunnen testen, heb je betrouwbare data nodig, maar de echte patiëntgegevens mag (en wil) je niet gebruiken. De spagaat tussen moeten en willen wordt steeds groter. Onder de huidige privacy wetgeving, de Wbp (Wet bescherming persoonsgegevens), is gebruik van echte patiëntgegevens al verboden. Tevens staan er boetes op een datalek (maximaal € 820.000). Maar vanaf 25 mei 2018 wordt de GDPR (General Data Protection Regulation) in de hele EU van kracht. Deze wetgeving vervangt de Nederlandse wetgeving en verbiedt nog steeds het gebruik van echte patiëntgegevens voor testdoeleinden (maar ook voor analyse, demo opleiding etc.). Groot verschil met de Wbp is dat de boetes omhoog gaan naar 4% van de groepsomzet of 20 miljoen euro (afhankelijk van wat het hoogste is). Daarbij komt nog dat bestuurders in bepaalde gevallen persoonlijk aansprakelijk gesteld kunnen worden. Alle reden voor ziekenhuizen om te zoeken naar alternatieven. Maar waarom is data zo belangrijk?

Datamanagement is de sleutel!

Betrouwbare data staat aan de basis van alle test- en onderzoeksactiviteiten die een ziekenhuis uitvoert. Zonder betrouwbare data is een test of een onderzoek waardeloos. Daarom is zelf anonimiseren ook zo lastig: het is niet moeilijk om alle patiëntgegevens te vervangen door bijvoorbeeld ‘xxx’, maar dan ben je alle betrouwbaarheid kwijt.

Data moet betrouwbaar en onherleidbaar zijn!

De eisen die aan gebruikte data gesteld worden zijn dus tweeledig: de wetgever eist dat data onherleidbaar is (niet terug te brengen naar een uniek individu). Terwijl zorginstellingen willen dat de data betrouwbaar is. In bovenstaande afbeelding zie je de verschillende mogelijkheden geplot op deze twee assen:

  • Originele dataset: erg betrouwbaar maar ook erg herleidbaar, dus niet bruikbaar
  • Random data: absoluut onherleidbaar maar ook absoluut onbetrouwbaar, dus niet bruikbaar
  • Gegeneerde data: dit is data die wij kunnen aanmaken o.b.v. specificaties van de zorginstelling. Omdat je zelf bedenkt welke data je aan laat maken is dit minder betrouwbaar dan anonimiseren of pseudonimiseren: je maakt geen data aan voor gevallen die je niet verwacht. Bovendien kun je alleen maar gegeneerde data aanmaken die bestaat vanaf het moment van aanmaken. Je kunt geen historische data aanmaken. Toch is gegeneerde data soms heel bruikbaar. Bijvoorbeeld voor gebruik in een demo of opleidingsomgeving waar je wel wilt dat de data er ‘echt’ uit ziet, maar je wil daar geen echte patiëntgegevens (ook niet geanonimiseerd) hebben staan.
  • Anonieme dataset: dit zijn echte patiëntgegevens die onomkeerbaar onherleidbaar gemaakt zijn. Anonieme data is door hoe HiXPort werkt nog steeds erg betrouwbaar (en dus bruikbaar voor test), maar tegelijkertijd wel onherleidbaar (en daarmee ‘veilig’). Een anonieme dataset wordt vaak in test- en acceptatie omgevingen gebruikt
  • Gepseudonimiseerde dataset:  Het verschil tussen een anonieme en een gepseudonimiseerde dataset is dat in het laatste geval data omkeerbaar onherleidbaar gemaakt wordt. Door bijvoorbeeld een patiëntennummer niet te veranderen, kan een onderzoeker zonder toegang tot productie niet zien naar welke patiënt hij kijkt, terwijl de behandelend arts die wel toegang heeft tot productie, dit wel kan zien. Dit is belangrijk als de onderzoeker bijvoorbeeld iets ontdekt heeft waarbij het van belang is dat de patiënt naar het ziekenhuis komt voor vervolgonderzoek, in dat geval moet de arts wel in staat zijn te achterhalen om welke patiënt het gaat.

Bovenstaande afbeelding laat zien hoe het huidige proces er vaak uit ziet: data uit productie wordt 1-op-1 overgehaald en zo in test-, onderzoeks- en opleidingsomgevingen geplaatst. Resultaat: heel veel mensen hebben opeens toegang tot privacygevoelige patiëntgegevens. Doordat medewerkers in testomgevingen vaak ook nog eens veel meer rechten hebben en doordat monitoring op afwijkend gedrag lastig is (want wat is afwijkend gedrag in een testomgeving?), vergroot dit de kans op een datalek enorm. Het is geen toeval dat veel datalekken daarom ook ontstaan vanuit testomgevingen. 

Uitspraak Autoriteit Persoonsgegevens 

Tot voor kort was er nog veel onduidelijkheid over het gebruik van patiëntgegevens buiten de productie omgeving. De autoriteit persoonsgegevens heeft ongeveer een jaar geleden een einde gemaakt aan deze onzekerheid door op haar website de volgende veel gestelde vraag op te nemen:

Mag een organisatie mijn persoonsgegevens gebruiken om mee te testen?

Nee dat mag niet!

Hiermee is duidelijk dat gebruik van patiëntgegevens in niet-productie omgevingen dus niet mag!

Als je dit plot op de huidige manier van werken in veel zorginstellingen, dan mag wat zij doen dus niet. Maar wat dan wel?

Datafactory HiXPort

Om een snel inzetbaar alternatief te kunnen bieden dat zorgt dat patiëntgegevens onherleidbaar gemaakt worden, maar wel betrouwbaar blijven, hebben Zapphire (de makers van Supportbook) en EntrD het product HiXPort ontwikkeld. HiXPort is gebaseerd op de bewezen technologie van de Datafactory en is specifiek bedoelt voor het gebruik in combinatie met ChipSoft HiX.

HiXPort werkt als volgt:

  • Net als nu wordt er een kopie Productie gemaakt door de zorginstelling.
  • Op een afgesloten server binnen de zorginstelling wordt een instantie van HiXPort geplaatst.
    • HiXPort haalt uit de kopie van Productie de privacygevoelige gegevens en maakt deze onherleidbaar.
    • De onherleidbaar gemaakte gegevens worden teruggeplaatst in de kopie van HiX en kunnen gebruikt worden om andere systemen in de keten bij te werken.

In onderstaande afbeelding wordt de werking in meer detail toegelicht.

HiXPort bestaat uit twee onderdelen, een instantie van de Datafactory en een specifieke configuratie voor gebruik in combinatie met HiX. Deze configuratie is al beschikbaar en hoeft dus niet apart voor een zorginstelling gemaakt te worden. Dit versnelt de implementatie enorm!

Hoe ziet het implementatietraject er uit?

Scope HiXPort

HiXPort neemt standaard bovengenoemde tabellen mee. Deze lijst zal in de loop der tijd waarschijnlijk uitgebreid worden met nieuwe ‘standaard’ tabellen. Als gebruik van HiXPort beschik je standaard altijd over de laatste versie!

Op basis van bevindingen van klanten en op basis van de releasenotes van nieuwe versies van HiX bepalen EntrD en Zapphire of er aanpassingen nodig zijn en die voeren we dan door.

Standaard configuratie

Hierboven staan de acties die toegepast worden op de verschillende attributen die geanonimiseerd worden:

  • Namen worden vervangen door andere namen (dit kunnen echte namen zijn, maar ook namen van een door de zorginstelling zelf gemaakte lijst). Smart shuffling betekent dat relaties intact gehouden worden (meisjesnaam wordt apart van de getrouwde naam onherleidbaar gemaakt terwijl de getrouwde naam ook onherleidbaar gemaakt wordt maar wel gelijk blijft voor de hele familie). Daarnaast zorgt smart shuffling er voor dat gegevens over tijd elke keer op dezelfde manier onherleidbaar gemaakt worden (‘Jansen’ wordt vandaag ‘Pietersen’ en morgen weer).
    • geboortedatum: dit attribuut wordt aangepast waarbij de leeftijd gelijk blijft (dus minderjarigen blijven minderjarig)
    • BSN: we genereren een nieuw elfproef BSN nummer. Klopt het BSN nummer voor die tijd niet, dan klopt het daarna ook niet. De data kwaliteit blijft dus gelijk!
    • Adres: patiënten verhuizen naar een nieuw adres in dezelfde regio (o.b.v. de eerste 2 cijfers van de postcode)
    • Contactinformatie: er wordt nieuwe contactinformatie aangemaakt waarbij telefoonnummers vervangen worden door een nieuw nummer van dezelfde lengte
    • Overige velden: vrije tekstvelden etc, hier worden de gegevens karakter voor karakter vervangen.

Configuratie (1)

Elke zorginstelling heeft de mogelijkheid om bepaalde woorden uit te sluiten, deze woorden worden dan niet onherleidbaar gemaakt. Stel je voor dat je bijvoorbeeld test patiënt o.i.d. ergens hebt staan, dan kun je er voor kiezen om die gegevens over te slaan.

Configuratie (2)

Tegelijkertijd heb je als zorginstelling invloed op de ‘vervang door lijsten’ die HiXPort gebruikt. HiXPort gebruikt deze lijsten om bijvoorbeeld een naam door een andere naam te vervangen. Als je niets doet dan stelt HiXPort zelf een lijst samen gebaseerd op de gegevens die aangetroffen worden in de te anonimiseren gegevens, maar als je dit niet wilt dan kun je ook zelf een lijst samenstellen die HiXPort dan gebruikt. Dit is bijvoorbeeld handig voor kleinere ziekenhuizen die minder patiënten in hun omgeving hebben staan.

Belangrijk om te benadrukken bij de "na" situatie:

  • Toevoeging postfix maakt data makkelijk herkenbaar als geanonimiseerd bij een eventueel datalek
  • Leeftijd niet gewijzigd (geboortedag wel!)
  • Mensen verhuizen binnen hun eigen regio
  • Telefoonnummer wordt vervangen
  • Emailadres wordt vervangen
  • Documenten worden vervangen

HiXPort screenshots

Naast HiXPort kunnen zorginstellingen er voor kiezen om data te laten aanmaken voor gebruik in een opleidings- of demo-omgeving. 

Op sommige plekken is nu als maskeeralgoritme gekozen voor ‘character replacement’, dit kun je eenvoudig wijzigen in bijvoorbeeld ’smart shuffling’. Dit geldt ook voor de volgende screenshots.

‘character replacement’ kan als maskeeralgorimte vervangen worden door andere maskeeralgoritmes (smart shuffling, vaste tekst etc). 

Module data generen

Deze afbeelding laat zien dat je als zorginstelling zelf kunt aangeven hoe de te genereren data er uit moet zien, waarna wij in staat zijn elke gewenste hoeveelheid aan te leveren. Om hiervan gebruik te maken, hoef je HiXPort niet lokaal te installeren!

Wat lever HiXPort op?

Belangrijkste voordelen:

  • Snelle en dus goedkope implementatie
  • Werkt standaard met HiX 
  • Bewezen technologie
  • Geautomatiseerd proces, dus lage beheerkosten

 

Neem gerust contact met ons op voor meer informatie, een afspraak of offerte. 

Een bijdrage van