Complexe wiskundige modellen die voorspellen of een individu een bepaalde aandoening heeft of zal krijgen, schieten als paddenstoelen uit de grond. Tegenwoordig gaat dit vaak gepaard met de buzzwords artificiële intelligentie (AI) en machine learning.
Enkele voorbeelden zijn modellen om axiale spondyloartritis vroeger te diagnosticeren, of om blessures bij sporters te voorspellen (1, 2). De populariteit gaat samen met de toenemende beschikbaarheid van databronnen zoals patiëntendossiers (electronic health records) of volledige medische beelden zoals röntgenfoto’s of mammografieën.
Vaak wordt gezegd dat AI-algoritmes tot betere voorspellingen leiden dan klassieke statistische methoden. Publicaties van nieuwe modellen maken dan ook gewag van een sterk prestatievermogen: het model zou heel goed in staat zijn om onderscheid te maken tussen individuen met en zonder de aandoening, ook wanneer het toegepast wordt op data van individuen die niet werden gebruikt om het algoritme te ontwikkelen. Zo eenvoudig is het echter niet. Eerst en vooral zal men zelden publicaties vinden waarin de validatie faalde: dat suggereert namelijk dat men een nieuw algoritme heeft opgesteld dat niet werkt. De vraag is hoe betrouwbaar de gerapporteerde validatie is (3, 4).
Belangrijker zijn de uitdagingen die los staan van de wiskundige berekeningen (5, 6). Een bekend probleem met grote datasets is de matige datakwaliteit. Dit beïnvloedt de kwaliteit van algoritmes die hierop getraind worden. Daarnaast spelen ook contextuele factoren mee. Verschillende centra en verschillende landen hebben vaak andere protocollen om metingen uit te voeren, of gebruiken andere soft- en hardware voor de metingen. Ten slotte evolueert elke patiëntenpopulatie over de tijd, omdat de zorg constant verandert.
Het is daarom essentieel dat AI-algoritmes kunnen gevalideerd worden door onafhankelijke onderzoekers (4, 7, 8). Er zijn dus procedures nodig om complexe algoritmes, die niet in een eenvoudige formule te vatten zijn, beschikbaar te stellen zodat dat anderen ze makkelijk en correct kunnen implementeren. Onderzoek wijst echter uit dat dit vaak niet mogelijk is (9). Daarenboven worden algoritmes vaak beschermd om ze commercieel aan te bieden (4, 7, 8). Dit is problematisch, ondanks het argument dat het bekomen, onderhouden en aanbieden van algoritmes ook een financiële inspanning vraagt. Het is ethisch moeilijk te verdedigen dat je moet betalen om een algoritme te gebruiken waarvan je niet kan nagaan of de voorspellingen steekhouden voor jouw populatie. Dit geldt a fortiori voor algoritmes die ontwikkeld zijn met publieke fondsen (bijvoorbeeld het Fonds Wetenschappelijk Onderzoek in Vlaanderen). Dat AI modellen vaak ‘medical devices’ zijn die een CE-certificaat dienen te krijgen, bemoeilijkt de situatie. Dit proces is makkelijker te doorlopen vanuit een commerciële dan een academische entiteit. De regulerende instanties zouden daarom moeten nadenken over procedures die vanuit onderzoeksinstellingen haalbaar zijn.
Om af te ronden kunnen we stellen dat AI nuttige toepassingen kan hebben in de geneeskunde, maar dat de vele uitdagingen geen garantie geven op succes (3, 4). Er zijn alleszins procedures nodig die toelaten om algoritmes maximaal te valideren en aan te passen, eventueel in combinatie met een commerciële implementatie indien verdedigbaar (6). Zoniet, dan is het voordeel van AI voor de patiënt en de gezondheidszorg beperkt.