interview_john_ioannidis_-_epidemioloog

Waarom (bijna) alles wat u weet, niet klopt.

Als wetenschappers echt zo slim zijn, hoe kan het dan dat wat ze ontdekken achteraf vaak niet blijkt te kloppen? Op bezoek bij de man die het antwoord – en de oplossing – denkt te weten.

MAARTEN KEULEMANS

Haast tien jaar geleden is het nu dat John Ioannidis, een toen nog tamelijk onbekende epidemioloog verbonden aan een onbekende Griekse universiteit, een bom tot ontploffing bracht in de wetenschap.

De in Amerika geboren Griek had de 49 meest geciteerde wetenschappelijke ontdekkingen uit de allerbeste medische vakbladen tegen het licht gehouden – en wat hij vond, was onthutsend.

Achteraf bleken de meeste ‘doorbraken’ helemaal geen stand te hebben gehouden. Wetenschappers die de experimenten hadden herhaald, vonden vaak minder spectaculaire of zelfs helemaal geen resultaat. Kennelijk waren de ontdekkingen toevalstreffers, vergissingen of had men het te rooskleurig opgeschreven. Linksom of rechtsom: de mooiste medische ontdekkingen bleken na een poosje spontaan te verdampen.

Achteraf bleken de meeste ‘doorbraken’ helemaal geen stand te hebben gehouden. Wetenschappers die de experimenten hadden herhaald, vonden vaak minder spectaculaire of zelfs helemaal geen resultaat. Kennelijk waren de ontdekkingen toevalstreffers, vergissingen of had men het te rooskleurig opgeschreven. Linksom of rechtsom: de mooiste medische ontdekkingen bleken na een poosje spontaan te verdampen.

Ioannidis schreef zijn bevindingen op, eerst in het artsenblad JAMA en daarna in een zes pagina’s tellend, technisch essay, onder de ronkende titel: Why Most Published Research Findings Are False. ‘Er is groeiende bezorgdheid dat de meeste gepubliceerde onderzoeksresultaten fout zijn’, luidde de eerste zin. Kaboem.

Het essay is inmiddels een van de meest gelezen wetenschapsartikelen ooit: 1,1 miljoen keer werd het gedownload, haast 1.400 keer haalden anderen het aan. Voor Ioannidis was het het begin van een stroom publicaties met titels die weinig aan de verbeelding overlaten. ‘Waarom de meeste ontdekte verbanden overdreven zijn’. ‘Onwaarschijnlijke resultaten in het voedingsonderzoek’. En: ‘Hebben medische conferenties wel enig nut?’

In de lobby van zijn Amsterdamse hotel hoort Ioannidis – hoogleraar aan de prestigieuze Amerikaanse Stanford-universiteit inmiddels – het beleefd glimlachend aan. De herrieschopper blijkt een intens beschaafde, zorgvuldig formulerende academicus, met zachte handen, donkere ogen en een fijnzinnig gevoel voor humor. Je snapt direct hoe hij ermee wegkomt, de wetenschap voor rotte vis uitmaken en nog worden uitgenodigd om erover te komen praten ook. ‘Ik heb niet de indruk dat ze me willen vermoorden’, zegt hij. En hij lacht onbedaarlijk.

In de lobby van zijn Amsterdamse hotel hoort Ioannidis – hoogleraar aan de prestigieuze Amerikaanse Stanford-universiteit inmiddels – het beleefd glimlachend aan. De herrieschopper blijkt een intens beschaafde, zorgvuldig formulerende academicus, met zachte handen, donkere ogen en een fijnzinnig gevoel voor humor. Je snapt direct hoe hij ermee wegkomt, de wetenschap voor rotte vis uitmaken en nog worden uitgenodigd om erover te komen praten ook. ‘Ik heb niet de indruk dat ze me willen vermoorden’, zegt hij. En hij lacht onbedaarlijk.

Een paar weken geleden schreven we in Sir Edmund over rode wijn. Onderzoek na onderzoek liet zien dat rode wijn goed is voor de gezondheid. Tot men het voor het eerst onderzocht bij grote groepen mensen: blijkt van het ‘gezonde glas rode wijn’ helemaal niets te kloppen.

‘Dat verbaast me niets. Ik denk zelfs dat dit een behoorlijk normaal scenario is. Het begint als we ergens in geloven en op zoek gaan naar het bewijs. Vaak levert het onderzoek dan in eerste instantie inderdaad bewijs dat hier sprake is van een sterk effect.

‘Maar naarmate we meer onderzoek doen, blijkt het allemaal minder spectaculair te liggen. Vaak blijkt het effect dat we dachten te hebben aangetoond, niet eens te bestaan.’

Het afname-effect, noemen ze dat…

‘…of de vloek van de winnaar: dit verschijnsel heeft vele namen. Je ziet het overal in de wetenschap. Naarmate er meer onderzoek wordt gedaan, neemt de grootte van het effect dat je in eerste instantie vond steeds meer af.’

Want iemand heeft de kluit belazerd?

‘Zo simpel ligt het niet. Tot op zekere hoogte heeft het te maken met verwachtingen. Als je verwacht een bepaald fenomeen te ontdekken en je gaat er met meerdere onderzoeksteams naar op zoek, dan is er altijd wel iemand die gewoon op grond van het toeval resultaat boekt. Daarvan zeggen we dan: die heeft het ‘ontdekt’. Zo iemand krijgt de eer, de roem en de media-aandacht. Maar in feite is het gewoon toeval dat hij de meest spectaculaire resultaten heeft behaald te midden van alle middelmatige of niet gevonden resultaten. Ja, en als men daarna meer onderzoek naar hetzelfde verschijnsel doet, kun je verwachten dat je kleinere effecten en misschien helemaal geen effect meer vindt.’

Dus de wetenschap heeft een ingebouwde neiging tot overdrijving?

‘Je moet beseffen: het is wetenschappers niet toegestaan om níét iets te vinden. Het is hun werk om dingen te ontdekken. Anders krijgen ze geen financiering, maken ze geen promotie, krijgen ze te horen dat ze geen goede wetenschapper zijn. Onderzoekers zullen alles doen wat in hun vermogen ligt om significante resultaten te halen en te beweren dat ze iets hebben ontdekt. Dat is niet

verkeerd; het is gewoon onderdeel van wetenschappelijk onderzoek: ik ga nog eens beter zoeken in mijn data, mijn gegevens op een nieuwe manier doorzoeken – allemaal om iets te vinden.’

‘Je moet beseffen: het is wetenschappers niet toegestaan om níét iets te vinden. Het is hun werk om dingen te ontdekken. Anders krijgen ze geen financiering, maken ze geen promotie, krijgen ze te horen dat ze geen goede wetenschapper zijn. Onderzoekers zullen alles doen wat in hun vermogen ligt om significante resultaten te halen en te beweren dat ze iets hebben ontdekt. Dat is niet verkeerd; het is gewoon onderdeel van wetenschappelijk onderzoek: ik ga nog eens beter zoeken in mijn data, mijn gegevens op een nieuwe manier doorzoeken – allemaal om iets te vinden.’

Met als netto resultaat inzichten als – een greep uit deze week – mannen bekijken kunst anders dan vrouwen, liefde voor koffie is erfelijk bepaald, broccoli helpt tegen autisme. Hoe bepaal je als eenvoudige burger wat daarvan waar is en wat niet?

‘Dat is inderdaad niet eenvoudig. Maar er zijn wel vuistregels. Is dit voor het eerst dat iets wordt beschreven of is het al eerder aangetoond en ligt het in de rede om dit resultaat te verwachten? Is het een kleine studie of een groot onderzoek? Gaat het hier slechts om een verkennend onderzoek en zitten we nog in de vroege fase van wilde ideeën, of is het een systematisch opgezet gerandomiseerd vergelijkend onderzoek? En: heeft er iemand belang bij dit resultaat?

John Ioannidis

Foto Ivo van der Bent

‘Dat is inderdaad niet eenvoudig. Maar er zijn wel vuistregels. Is dit voor het eerst dat iets wordt beschreven of is het al eerder aangetoond en ligt het in de rede om dit resultaat te verwachten? Is het een kleine studie of een groot onderzoek? Gaat het hier slechts om een verkennend onderzoek en zitten we nog in de vroege fase van wilde ideeën, of is het een systematisch opgezet gerandomiseerd vergelijkend onderzoek? En: heeft er iemand belang bij dit resultaat?

‘Uiteindelijk is er het gezonde verstand. Sláát het ergens op? Er is alle reden om aan te nemen dat voeding belangrijk is voor de gezondheid. Maar als je zoiets hoort als: één portie avocado per dag kan de kans op kanker met viervijfde verminderen… Zoiets kan gewoon niet kloppen.’

Altijd weer dat voedingsonderzoek.

‘Inderdaad. De meeste onderzoeksgebieden hanteren een statistische drempel van 70 procent waarschijnlijkheid voordat ze publiceren. Terwijl ze bij een hoop epidemiologisch onderzoek 1 procent al goed vinden. Dan krijg je die verhalen over koffie, noten, wijn of wat dan ook.’

Wacht even. Zei u nou 1 procent?

‘Ja, ja.’

Dus in sommige onderzoeksvelden is 99 procent gewoon niet waar?

‘Dat klinkt inderdaad… eh, eng. In mijn vroege werk vond ik al dat van de meest invloedrijke epidemiologische studies vijf op de zes niet te repliceren waren. En dat waren de meest geciteerde, meest zichtbare epidemiologische studies. Stan Young, medisch-statisticus aan het National Institute of Statistical Sciences, heeft een paar jaar geleden gekeken naar 52 grote epidemiologische claims, die daarna waren gecontroleerd in gerandomiseerde onderzoeken. Geen enkele daarvan was gerepliceerd. Dus dat was nul procent.’

‘Dat klinkt inderdaad… eh, eng. In mijn vroege werk vond ik al dat van de meest invloedrijke epidemiologische studies vijf op de zes niet te repliceren waren. En dat waren de meest geciteerde, meest zichtbare epidemiologische studies. Stan Young, medisch-statisticus aan het National Institute of Statistical Sciences, heeft een paar jaar geleden gekeken naar 52 grote epidemiologische claims, die daarna waren gecontroleerd in gerandomiseerde onderzoeken. Geen enkele daarvan was gerepliceerd. Dus dat was nul procent.’

Hoe weet ik dat uw onderzoek wel klopt?

‘Omdat dit zo universeel is. In het laboratoriumonderzoek naar nieuwe medicijnen bijvoorbeeld blijkt dat van de beste studies maar 11 tot 25 procent naderhand met succes kan worden herhaald. Of neem het proefdierenonderzoek: daar zitten ze met honderdduizenden behandelingen die weliswaar werken bij proefdieren, maar vervolgens niet of nauwelijks blijken te werken bij de mens. Ja, een proefdier is nu eenmaal geen mens, zegt men dan vaak. Maar ik denk dat dat maar gedeeltelijk waar is.’

Want er zit meer achter, denkt u?

‘Als iets echt werkt bij dieren, zou het in elk geval een fatsoenlijke kans moeten hebben om ook te werken bij mensen. Toen ik eens samen met Malcolm MacLeod en zijn team van de universiteit van Edinburgh een grote verzameling datasets van dierstudies bestudeerde, drong tot ons door dat het onmogelijk is dat de uitkomsten van die dierproeven allemaal kloppen. De resultaten van het proefdieronderzoek zijn te mooi om waar te zijn.

‘Als iets echt werkt bij dieren, zou het in elk geval een fatsoenlijke kans moeten hebben om ook te werken bij mensen. Toen ik eens samen met Malcolm MacLeod en zijn team van de universiteit van Edinburgh een grote verzameling datasets van dierstudies bestudeerde, drong tot ons door dat het onmogelijk is dat de uitkomsten van die dierproeven allemaal kloppen. De resultaten van het proefdieronderzoek zijn te mooi om waar te zijn.

‘Eerlijk gezegd vermoed ik dat sommige dierstudies op zo’n manier worden gerapporteerd dat de resultaten positief zijn. Dus men vindt een negatief resultaat, maar gaat daarna de uitkomsten op een andere manier analyseren, met wat aanpassingen en andere criteria van welke dieren je wel en niet meetelt. Zo kun je alsnog een positief resultaat krijgen.’

Ik val bijna om. Dat mag toch zomaar niet?

‘Ik denk inderdaad dat het een groot probleem is. Maar het is geen fraude. Ik zou niet eens zeggen dat het slordige wetenschap is. Kijk, wetenschap is gewoon moeilijk. Goed onderzoek doen is een hele toer.

‘En met het uitmelken van de data heb ik geen enkel probleem. Iedereen mag om 3 uur ’s nachts wakker worden en denken: wacht eens, dit moet ik uitzoeken – en in zijn meetgegevens gaan grasduinen. Dan gaat het om verkennend onderzoek, om ideeën opdoen; dat hoort bij de wetenschap. De problemen ontstaan als je dat er niet meer bij zegt en verkennend onderzoek verhaspelt met toetsend onderzoek, waarbij je heel precies een hypothese formuleert en dan de data doorzoekt op een manier die je zorgvuldig vooraf hebt vastgelegd. Vaak is achteraf niet goed meer te zeggen: was dit nou verkennend data-dreggen, of was dit onderzoek volgens een duidelijk, rigoureus plan?

‘En met het uitmelken van de data heb ik geen enkel probleem. Iedereen mag om 3 uur ’s nachts wakker worden en denken: wacht eens, dit moet ik uitzoeken – en in zijn meetgegevens gaan grasduinen. Dan gaat het om verkennend onderzoek, om ideeën opdoen; dat hoort bij de wetenschap. De problemen ontstaan als je dat er niet meer bij zegt en verkennend onderzoek verhaspelt met toetsend onderzoek, waarbij je heel precies een hypothese formuleert en dan de data doorzoekt op een manier die je zorgvuldig vooraf hebt vastgelegd. Vaak is achteraf niet goed meer te zeggen: was dit nou verkennend data-dreggen, of was dit onderzoek volgens een duidelijk, rigoureus plan?

‘Gelukkig zien steeds meer wetenschappers in dat dit soort problemen bestaan. De afgelopen jaren hebben we al veel stappen gezet om de situatie te verbeteren. Er zijn ook vakgebieden die voor 99 procent in orde zijn.’

Zoals?

‘Een mooi voorbeeld is de genetische epidemiologie – het onderzoek naar genen en ziekten. Daar maakt men tegenwoordig gebruik van grote consortia met meerdere onderzoekers, heel strenge onderzoeksprotocollen en embedded replicatie – een resultaat moet eerst door meerdere teams worden bevestigd voordat je het publiceert. Dat is een enorme vooruitgang. Zeker als je het vergelijkt met hoe dit onderzoeksveld ervoor stond voordat we die praktijk invoerden.’

Want nog niet zo lang geleden was dit het veld dat voortdurend met ontdekkingen kwam als: we hebben het gen voor dit ontdekt, we hebben het gen voor dat ontdekt. Allemaal onzin?

Want nog niet zo lang geleden was dit het veld dat voortdurend met ontdekkingen kwam als: we hebben het gen voor dit ontdekt, we hebben het gen voor dat ontdekt. Allemaal onzin?

‘Achteraf bezien blijkt inderdaad dat 99 procent van wat we in de vroege jaren in dit veld ontdekten, bij nader inzien niet klopt – niet reproduceerbaar is. Maar die vroege jaren lijken heel erg op wat er vandaag de dag gebeurt op andere terreinen. Zoals bijvoorbeeld de neurowetenschap. Ook daar zie je: kleine studies, kleine teams of zelfs een enkele onderzoeker… Het is hetzelfde recept. Dat vraagt om dezelfde ramp.’

Stel dat u de wetenschap opnieuw mocht uitvinden: wat zou u anders doen?

‘O, maar dat is helemaal niet nodig! De wetenschap is al lang geleden uitgevonden. Ik ben niet iemand die wil beweren: ik ga de wetenschap redden: doe dit en het gaat beter.’

Maar als de meeste onderzoeksresultaten niet kloppen, gaat er toch iets niet helemaal goed.

‘Ik denk niet dat we een nieuwe wetenschappelijke methode nodig hebben; de vraag is hoe wetenschap efficiënter kan. Daarvoor bestaan al veel manieren, zoals het openbaar maken van je ruwe meetgegevens, meer samenwerken in teams en strenge statistische maatstaven hanteren. De vraag is nu: hoe transplanteren we die methoden uit vakgebieden die er al mee werken naar andere vakgebieden?’

‘Ik denk niet dat we een nieuwe wetenschappelijke methode nodig hebben; de vraag is hoe wetenschap efficiënter kan. Daarvoor bestaan al veel manieren, zoals het openbaar maken van je ruwe meetgegevens, meer samenwerken in teams en strenge statistische maatstaven hanteren. De vraag is nu: hoe transplanteren we die methoden uit vakgebieden die er al mee werken naar andere vakgebieden?’

Intussen zitten we opgescheept met al die rare inzichten: blauw licht maakt dik, vis eten beschermt het gehoor.

‘Misschien is het niet eens zo erg om de literatuur te hebben zoals die nu is, mits er aan ieder onderzoek een disclaimer zou zitten: deze bevinding is een interessante observatie, maar ga er niet meteen naar handelen, wacht even of we het ook kunnen aantonen op het niveau van interventie.

‘Om verwarring te voorkomen zou het voor de buitenwereld nuttig zijn om per onderzoek te weten: wat is hier het geloofwaardigheidskeurmerk? Het is belangrijk dat het publiek weet dat roken kanker veroorzaakt. Dat is 99,999999 procent waarschijnlijk waar. Zo waarschijnlijk als iets maar kan zijn. Maar voor een verkennende associatiestudie van het type ‘chocolade doet dit, koffie doet dat’ ligt die kans lager. Het is belangrijk om dat duidelijk te maken, anders kunnen mensen gaan denken: zowel koffie als roken is slecht, dus weet je wat, ik blijf roken maar ik stop met koffie drinken.’

U speelt wel met vuur, brengen sommige critici in. Door zo te etaleren wat er allemaal mis is, ondermijnt u het vertrouwen in de wetenschap. Er is toch al zo’n neiging om te roepen: ach, wetenschap is ook maar een mening.

‘Wetenschap is niet een mening! Wetenschap is het tegenovergestelde van een mening. Daarom is het ook zo belangrijk dat wetenschappers dat betrouwbaarheidslabel overbrengen. Meningen hebben geen geloofwaardigheidslabel. Mensen hebben verschillende meningen, en die zijn allemaal even respectabel.’

Maar wat moet je met mensen die, laten we zeggen, weigeren te accepteren dat vaccins helpen ziekte te voorkomen?

‘Ik denk: als we van het begin af aan duidelijk hadden gemaakt dat vaccins behoren tot die 99,9999999 procent waarvan we weten dat ze zin hebben, we hun vertrouwen gewonnen zouden hebben. Nu vervuilen we het vertrouwen in vaccins en andere wetenschappelijke kwesties met al die niet-reproduceerbaarheid die zo zichtbaar is, iedere dag weer. Rode wijn, koffie, chocolade: daar heb je weer een verhaal dat in het stof bijt. De betrouwbare wetenschappelijke kennis lijdt daaronder.’

Het zou al schelen, schreef u ooit, als de wereld ophield te verwachten dat wetenschappers altijd gelijk hebben.

‘Momenteel worden we bedolven onder de data, en de meeste dingen die we ontdekken zijn inderdaad niet zo groot als het inzicht dat roken longkanker veroorzaakt. Maar intussen ontdekken we wel heel veel. We hebben meer capaciteit, beter meetgereedschap, doen dingen die nog maar een paar jaar geleden volstrekt onmogelijk waren.

‘We zijn op een bepaalde manier onze verwachtingen aan het scherpstellen. Dat is goed nieuws, want het laat ook zien dat wat we in het verleden hebben gemeten maar het begin was. De wetenschap is springlevend en zal dat ook blijven.’

OVERAL GEDOE

John Ioannidis was in Nederland op uitnodiging van psychologen van de Universiteit van Tilburg en de Universiteit van Amsterdam om te praten op een symposium over ‘omgaan met de menselijke factor’ in de wetenschap.

Zo reist Ioannidis de halve wereld af, legt hij uit, om te praten met wetenschappers van allerlei pluimage. ‘Momenteel werk ik met mensen in de psychologie, met neurowetenschappers, met dieronderzoekers. Ik heb vorige week zelfs met juristen gebrainstormd. Zij hebben ook empirisch onderzoek in de wetenschappelijke literatuur, en lopen aan tegen dezelfde problemen van niet-reproduceerbare resultaten.’

Zo reist Ioannidis de halve wereld af, legt hij uit, om te praten met wetenschappers van allerlei pluimage. ‘Momenteel werk ik met mensen in de psychologie, met neurowetenschappers, met dieronderzoekers. Ik heb vorige week zelfs met juristen gebrainstormd. Zij hebben ook empirisch onderzoek in de wetenschappelijke literatuur, en lopen aan tegen dezelfde problemen van niet-reproduceerbare resultaten.’

Zelfs met economen en sterrenkundigen is Ioannidis in de weer. ‘Ik weet helemaal niets van astrofysica. Maar ik was op een bijeenkomst met astrofysici en ik realiseerde me dat ook zij een aantal van dezelfde uitdagingen tegenkomen.’

DOE ZELF DE IOANNIDIS-WAARHEIDSCHECK

Is een bepaalde wetenschappelijke ontdekking een blijvertje? Of is het waarschijnlijker dat hier sprake is van een bevinding die naderhand niet blijkt te kloppen? U hoeft geen wetenschapper te zijn om daarvan een aardige indicatie te krijgen. Vul voor het onderzoek dat u wilt controleren onderstaande checklist in. De criteria afzonderlijk hoeven niet per se op onraad te duiden, maar hoe meer punten u aanvinkt, des te groter de kans dat de ‘ontdekking’ op drijfzand is gebaseerd.

Het onderzoek is gedaan door slechts een of enkele onderzoekers.

Het onderzoek staat niet in een erkend wetenschappelijk vakblad.

Er is maar een beperkt aantal proefpersonen of onderzoeksobjecten onderzocht.

De ontdekking is nieuw en geen herhaling van iets dat wetenschappers al eerder ontdekten.

De onderzoekers of hun instelling hebben een persoonlijk belang bij de uitkomst.

Het onderzoek is gefinancierd door een bedrijf of andere belanghebbende partij.

Het gaat om een spontane ontdekking in de data, niet om de systematische toetsing van een hypothese (een ‘gerandomiseerde gecontroleerde trial’).

Het onderwerp is modieus (voeding, kanker, overgewicht enzovoorts).

De ontdekking gaat in tegen het gezond verstand (‘Chocolade maakt dun’)

De ontdekking bevestigt een ingebakken vooroordeel (‘Vrouwen kunnen niet inparkeren’)

Voor gevorderden:

De effectgrootte is klein (bijvoorbeeld: r

De kans op toeval is hoog (p > 0,01; p > 0,05)

(Vrij naar: Ioannidis, Why Most Published Research Findings Are False)